רובֿ מאַשין לערנען און טיף לערנען מאָדעלס פאַרלאָזנ זיך שווער אויף דאַטן סומע און פאַרשיידנקייַט צו פונקציאָנירן געזונט. דער באַנד און דייווערסיטי פון דאַטן צוגעשטעלט בעשאַס טריינינג האָבן אַ באַטייטיק פּראַל אויף די פּרעדיקטיאָנס פון די מאָדעלס.
טיף לערנען מאָדעלס וואָס האָבן שוין געלערנט צו דורכפירן יפעקטיוולי אויף קאָמפּליצירט טאַסקס אָפט אַרייַננעמען פאַרבאָרגן נוראַנז. די נומער פון טראַינינג פּאַראַמעטערס ינקריסיז לויט די נומער פון פאַרבאָרגן נוראַנז.
די סומע פון דאַטן פארלאנגט איז פּראַפּאָרשאַנאַל צו די נומער פון מאָדעל לערנאַבאַל פּאַראַמעטערס. איין אופֿן פֿאַר דילינג מיט די שוועריקייט פון לימיטעד דאַטן איז צו צולייגן אַ פאַרשיידנקייַט פון טראַנספערמיישאַנז צו די קראַנט דאַטן צו סינטאַסייז נייַ דאַטן.
די טעכניק פון סינטאַסייזינג נייַ דאַטן פון יגזיסטינג דאַטן איז ריפערד צו ווי 'דאַטאַ אַוגמענטאַטיאָן.' דאַטאַ פאַרגרעסערונג קענען ווערן גענוצט צו מקיים ביידע רעקווירעמענץ: די באַנד פון דאַטן און די פאַרשיידנקייַט פון טריינינג דאַטן פארלאנגט צו אַנטוויקלען פּינטלעך מאַשין לערנען אָדער טיף לערנען מאָדעלס.
אין דעם פּאָסטן, מיר וועלן קוקן ענג אויף דאַטן פאַרגרעסערונג, די טייפּס, וואָס עס איז יקערדיק און פיל מער.
אַזוי, וואָס איז דאַטאַ אַוגמענטאַטיאָן?
דאַטאַ אַוגמענטאַטיאָן איז דער פּראָצעס פון דעוועלאָפּינג נייַע און רעפּריזענאַטיוו דאַטן פֿון יגזיסטינג דאַטן. איר קענען ויספירן דעם דורך אַרייַנגערעכנט מאַדאַפייד ווערסיעס פון יגזיסטינג דאַטן אָדער סינטאַסייזינג נייַע דאַטן.
די דאַטאַסעץ געשאפן דורך דעם אופֿן וועט פֿאַרבעסערן דיין מאַשין לערנען אָדער טיף לערנען מאָדעלס דורך מינאַמייזינג די ריזיקירן פון אָוווערפיטטינג. דאָס איז דער פּראָצעס פון טשאַנגינג, אָדער "פאַרגרעסערן," אַ דאַטאַסעט מיט נאָך אינפֿאָרמאַציע.
דער סופּפּלעמענטאַל אַרייַנשרייַב קען קייט פון בילדער צו טעקסט, און עס בוסט די פאָרשטעלונג פון מאַשין לערנען סיסטעמען.
יבערנעמען מיר ווילן צו בויען אַ מאָדעל צו קאַטאַגערייז הונט ברידז און מיר האָבן אַ גרויס נומער פון פאָוטאַגראַפס פון אַלע ווערייאַטיז אַחוץ פּוגס. ווי אַ רעזולטאַט, די מאָדעל וואָלט האָבן שוועריקייט צו קאַטאַגערייזינג פּוגס.
מיר קענען לייגן נאָך (פאַקטיש אָדער פאַלש) פּאַג פאָטאָס צו דער זאַמלונג, אָדער מיר קען טאָפּל אונדזער קראַנט פּאַג פאָוטאַגראַפס (למשל דורך רעפּליקייטינג און פאַרקרימען זיי צו מאַכן זיי אַרטאַפישאַלי יינציק).
וואָס נוצן טוט דאַטן פאַרגרעסערונג דינען אין די פאָרשטעלן?
אַפּפּליקאַטיאָנס פֿאַר מאַשין וויסן זענען ראַפּאַדלי דעוועלאָפּינג און דיווערסאַפייינג, ספּעציעל אין די פעלד פון טיף לערנען. די טשאַלאַנדזשיז וואָס די קינסטלעך סייכל אינדוסטריע פייסיז קענען זיין באַקומען דורך דאַטן פאַרגרעסערונג טעקניקס.
דאַטאַ פאַרגרעסערונג קענען פֿאַרבעסערן די פאָרשטעלונג און אַוטקאַמז פון מאַשין לערנען מאָדעלס דורך אַדינג נייַע און דייווערס ביישפילן צו טריינינג דאַטאַסעץ.
ווען די דאַטאַסעט איז גרויס און גענוג, אַ מאַשין לערנען מאָדעל פּערפאָרמז בעסער און איז מער פּינטלעך. פֿאַר מאַשין לערנען מאָדעלס, דאַטן זאַמלונג און לייבלינג קען זיין צייט-קאַנסומינג און טייַער.
קאָמפּאַניעס קענען רעדוצירן זייער אַפּעריישאַנאַל קאָס דורך טשאַנגינג דאַטאַסעץ און ניצן דאַטן פאַרגרעסערונג סטראַטעגיעס.
רייניקונג דאַטן איז איינער פון די סטאַגעס אין דער אַנטוויקלונג פון אַ דאַטן מאָדעל, און עס איז יקערדיק פֿאַר מאָדעלס מיט הויך אַקיעראַסי. אָבער, דער מאָדעל וועט נישט קענען צו ריכטנ זיך געהעריק ינפּוץ פון די פאַקטיש וועלט אויב דאַטן קלענזינג דיקריסאַז רעפּריזענאַביליטי.
מאַשין לערנען מאָדעלס קענען זיין געשטארקט דורך ניצן דאַטן פאַרגרעסערונג אַפּראָוטשיז, וואָס פּראָדוצירן דיפעראַנסיז אַז דער מאָדעל קען טרעפן אין די פאַקטיש וועלט.
טייפּס פון דאַטן פאַרגרעסערן
פאַקטיש דאַטן פאַרגרעסערן
פאַקטיש דאַטן פאַרגרעסערן אַקערז ווען איר לייגן עכט סאַפּלאַמענערי דאַטן צו אַ דאַטאַסעט. דאָס קען קייט פון טעקסט טעקעס מיט נאָך אַטריביוץ (פֿאַר טאַגד בילדער) צו בילדער פון אנדערע אַבדזשעקץ פאַרגלייַכלעך צו דער אָריגינעל כייפעץ, אָדער אפילו רעקאָרדינגס פון די פאַקטיש זאַך.
פֿאַר בייַשפּיל, דורך אַדינג אַ ביסל מער פֿעיִקייטן צו אַ בילד טעקע, אַ מאַשין-לערנען מאָדעל קענען דעטעקט די נומער גרינגער.
מער מעטאַדאַטאַ וועגן יעדער בילד (למשל זיין נאָמען און באַשרייַבונג) קען זיין אַרייַנגערעכנט אַזוי אַז אונדזער אַי מאָדעל ווייסט מער וועגן וואָס יעדער בילד רעפּראַזענץ איידער עס הייבט טריינינג אויף די פאָטאָס.
ווען עס קומט צייט צו קאַטאַגערייז פריש פאָטאָס אין איינער פון אונדזער פּרידיטערמינד קאַטעגאָריעס, ווי "קאַץ" אָדער "הונט," דער מאָדעל קען זיין בעסער צו דעטעקט די ייטאַמז וואָס זענען פאָרשטעלן אין אַ בילד און דורכפירן בעסער ווי אַ רעזולטאַט.
סינטעטיש דאַטן פאַרגרעסערן
חוץ אַדינג מער פאַקטיש דאַטן, איר קענען אויך ביישטייערן סינטעטיש דאַטן אָדער קינסטלעך דאַטן וואָס מיינט עכט.
דאָס איז וווילטויק פֿאַר שווער טאַסקס ווי אַריבערפירן פון נעוראַל נוסח, אָבער עס איז אויך גוט פֿאַר קיין פּלאַן, צי איר נוצן GANs (גענעראַטיווע אַדווערסאַריאַל נעטוואָרקס), CNNs (קאָנוואָלוטיאָנאַל נעוראַל נעטוואָרקס) אָדער אנדערע טיף נעוראַל נעץ אַרקאַטעקטשערז.
פֿאַר בייַשפּיל, אויב מיר ווילן צו ריכטיק קאַטאַגערייז פּוגס אָן האָבן צו גיין אויס און נעמען אַ נומער פון פאָטאָס, מיר קען לייגן עטלעכע פאַלש פּאַג פאָוטאַגראַפס צו אַ זאַמלונג פון הונט בילדער.
דער פאָרעם פון דאַטן פאַרגרעסערונג איז ספּעציעל עפעקטיוו פֿאַר ימפּרוווינג מאָדעל אַקיעראַסי ווען קאַלעקטינג דאַטן איז שווער, טייַער אָדער צייט-קאַנסומינג. אין דעם סיטואַציע, מיר זענען אַרטאַפישאַלי יקספּאַנדיד די דאַטאַסעט.
יבערנעמען אַז אונדזער ערשט גרופּע פון 1000 הונט האָדעווען פאָוטאַגראַפס כּולל בלויז 5 פּאַג בילדער. אלא ווי צו לייגן נאָך פאַקטיש פּאַג פאָוטאַגראַפס פון פאַקטיש הינט, לאָזן אונדז מאַכן אַ שווינדל דורך קלאָונינג איינער פון די קראַנט אָנעס און אַ ביסל פאַרקרימען עס אַזוי אַז עס נאָך מיינט ווי אַ פּאַג.
דאַטאַ אַוגמענטאַטיאָן טעקניקס
די אַפּראָוטשיז צו פאַרגרעסערונג פון די דאַטן אַרייַנציען קליין מאָדיפיקאַטיאָנס צו יגזיסטינג דאַטן. עס איז די זעלבע ווי איבערחזרן אַ דערקלערונג. מיר קענען טיילן דאַטן פאַרגרעסערן אין דרייַ קאַטעגאָריעס:
טעקסט
- וואָרט רעפּלאַסעמענט: דעם דאַטן פאַרגרעסערונג צוגאַנג כולל ריפּלייסינג קראַנט טערמינען מיט סינאָנימס. ווי אַ ביישפּיל, "דער פילם איז נאַריש" קען ווערן "דער פילם איז ידיאָטיש."
- זאַץ / וואָרט שופפלינג: די סטראַטעגיע ינוואַלווז סוויטשינג די סיקוואַנס פון פראַסעס אָדער ווערטער און האַלטן די קוילעלדיק קאָוכיראַנס.
- סינטאַקס-טרי מאַניפּיאַליישאַן: איר טוישן אַ יגזיסטינג זאַץ צו זיין גראַמאַטיקלי פּינטלעך בשעת איר נוצן די זעלבע טערמינען.
- ראַנדאָם דילישאַן: כאָטש די סטראַטעגיע טראגט מיעס שרייבן, עס איז עפעקטיוו. ווי אַ רעזולטאַט, די שורה "איך וועל נישט קויפן דעם רעקאָרד ווייַל עס איז סקראַטשט" ווערט "איך וועל נישט קויפן דעם ווייַל עס איז סקראַטשט." די פֿראַזע איז ווייניקער קלאָר, אָבער עס בלייבט אַ גלייבן דערצו.
- צוריק איבערזעצונג: דער צוגאַנג איז ביידע עפעקטיוו און ענדזשויאַבאַל. נעמען אַ דערקלערונג געשריבן אין דיין שפּראַך, איבערזעצן עס צו אן אנדער שפּראַך, און דאַן איבערזעצן עס צוריק צו דיין אָריגינעל שפּראַך.
בילדער
- קערנעל פילטערס: דער צוגאַנג שאַרפּאַנז אָדער בלערז אַ בילד.
- בילד קאָמבינאַציע: כאָטש עס קען זיין מאָדנע, איר קענען מישן פאָטאָס.
- מעקן ראַנדאָם: ויסמעקן אַ קליינטשיק טייל פון די קראַנט בילד.
- דזשיאַמעטריק טראַנספאָרמאַטיאָנס: דער צוגאַנג כולל, צווישן אנדערע זאכן, אַרביטרעראַלי פליפּינג, ראָוטייטינג, קראַפּינג אָדער איבערזעצן בילדער.
- פליפּינג אַ בילד: איר קענען פליפּ אַ בילד פון האָריזאָנטאַל צו ווערטיקאַל אָריענטירונג.
- קאָליר ספעיס טראַנספאָרמאַציע: איר קענען מאָדיפיצירן די RGB קאָליר טשאַנאַלז אָדער פאַרבעסערן קיין קראַנט קאָליר.
- שייַעך-סקאַלינג איז דער פּראָצעס פון אַדזשאַסטינג די וויזשאַוואַל וואָג. איר האָבן די אָפּציע פון סקיילינג אין אָדער אויס. ווען איר וואָג אינעווייניק, די בילד ווערט קלענערער ווי די ערשט גרייס. די בילד וועט זיין גרעסער ווי דער אָריגינעל אויב איר וואָג עס אַוטווערד.
אַודיאָ
- פּעך: דעם צוגאַנג ינוואַלווז טשאַנגינג די אַודיאָ פּעך.
- טוישן גיכקייַט: טוישן די גיכקייַט פון די אַודיאָ טעקע אָדער רעקאָרדינג.
- מער ראַש: איר קענען לייגן מער ראַש צו די אַודיאָ טעקע.
ניצן קאַסע
מעדיציניש ימידזשינג איז אַ באַוווסט נוצן פאַל פֿאַר דאַטן פאַרגרעסערונג רעכט איצט. מעדיציניש בילד זאַמלונגען זענען קליין, און ייַנטיילונג דאַטן איז שווער רעכט צו כּללים און פּריוואַטקייט קאַנסערנז.
דערצו, דאַטן שטעלט זענען פיל מער קאַנסטריינד אין די פאַל פון ומגעוויינטלעך דיסאָרדערס. מעדיציניש ימאַגינג קאָמפּאַניעס נוצן דאַטן פאַרגרעסערונג צו דיווערסאַפיי זייער דאַטן שטעלט.
טשאַלאַנדזשיז
סקאַלאַביליטי, דייווערס דאַטאַסעץ און שייכות זענען עטלעכע פון די ישוז וואָס דאַרפֿן צו זיין ריזאַלווד אין סדר צו אַנטוויקלען עפעקטיוו דאַטן פאַרגרעסערונג טעקניקס.
אין טערמינען פון סקאַלאַביליטי, פאַרגרעסערן דאַטן מוזן זיין סקאַלאַבלע אַזוי אַז פילע פאַרשידענע מאָדעלס קענען נוצן עס. איר וועט וועלן צו מאַכן זיכער אַז דאָס קענען זיין דופּליקייטיד פֿאַר נוצן אין צוקונפֿט מאָדעלס, ווייַל עס קען נעמען עטלעכע מאָל צו שטעלן אַ דאַטן פאַרגרעסערונג סיסטעם וואָס דזשענערייץ אַ גרויס סומע פון פּערטינאַנט, ווערטפול און ימפּרוווד דאַטן.
אין טערמינען פון העטעראַדזשיניאַטי, פאַרשידן דאַטאַסעץ האָבן בוילעט פֿעיִקייטן וואָס מוזן זיין קאַנסידערד בשעת דעוועלאָפּינג פאַרגרעסערן דאַטן. צו אַנטוויקלען צונעמען ענכאַנסט דאַטן, די פּראָפּערטיעס פון יעדער דאַטאַסעט מוזן זיין יוטאַלייזד.
אין אנדערע ווערטער, דאַטן פאַרגרעסערונג וועט זיין אַנדערש צווישן דאַטאַסעץ און נוצן קאַסעס.
צום סוף, צו גאַראַנטירן אַז די אַדוואַנטידזשיז פון די געוואקסן דאַטן יקסיד קיין כאַזערדז, די פאַרגרעסערן דאַטן זאָל זיין עוואַלואַטעד מיט פּאַסיק מעטריקס איידער זיי זענען יוטאַלייזד דורך מאַשין לערנען מאָדעלס.
פֿאַר בייַשפּיל, די בייַזייַן פון באַטייטיק הינטערגרונט ראַש אָדער אַנרילייטיד זאכן אין בילד-באזירט פאַרגרעסערן דאַטן קען האָבן אַ דעטראַמענאַל פּראַל אויף די פאָרשטעלונג פון די מאָדעל.
סאָף
לעסאָף, צי איר פּרובירן צו פאָרויסזאָגן אָנווער, ידענטיפיצירן פינאַנציעל שווינדל אָדער בויען בעסער בילד קלאַסאַפאַקיישאַן מאָדעלס, דאַטן פאַרגרעסערונג איז אַ קריטיש וועג צו בויען מער פּינטלעך, געזונט מאָדעלס.
דורך אַ העכער טריינינג פּראָצעדור, פּשוט פּריפּראַסעסינג און דאַטן פאַרגרעסערונג קענען אפילו אַרוישעלפן טימז אין דעוועלאָפּינג קאַטינג-ברעג מאָדעלס.
געשעפטן קענען נוצן דאַטן פאַרגרעסערונג צו רעדוצירן די סומע פון צייט פארבראכט פּריפּערינג טריינינג דאַטן און צו שאַפֿן מאַשין לערנען מאָדעלס וואָס זענען מער פּינטלעך און געשווינד.
דורך יקספּאַנדינג די קוואַנטיטי פון פּערטינאַנט דאַטן אין די דאַטאַבייס, דאַטן פאַרגרעסערן קענען אויך נוץ מאַשין לערנען מאָדעלס וואָס האָבן שוין אַ פּלאַץ פון דאַטן.
לאָזן אַ ענטפֿערן