טיש פון קאָנטענץ[באַהאַלטן][ווייַזן]
- 1. דערקלערן די דיפעראַנסיז צווישן מאַשין לערנען, קינסטלעך סייכל און טיף לערנען.
- 2. ביטע באַשרייַבן די פאַרשידענע טייפּס פון מאַשין לערנען.
- 3. וואָס איז די פאָרורטייל קעגן וועריאַנס האַנדל-אַוועק?
- 4. מאַשין לערנען אַלגערידאַמז האָבן יוואַלווד באטייטיק איבער צייַט. ווי קען מען קלייַבן די רעכט אַלגערידאַם צו נוצן אַ דאַטן שטעלן?
- 5. ווי טאָן קאָוואַריאַנס און קאָראַליישאַן אַנדערש?
- 6. אין מאַשין לערנען, וואָס טוט קלאַסטערינג מיינען?
- 7. וואָס איז דיין בילכער מאַשין לערנען אַלגערידאַם?
- 8. לינעאַר רעגרעססיאָן אין מאַשין לערנען: וואָס איז עס?
- 9. באַשרייַבן די דיפעראַנסיז צווישן KNN און ק-מיטל קלאַסטערינג.
- 10. וואָס טוט "סעלעקציע פאָרורטייל" מיינען צו איר?
- 11. וואָס פּונקט איז Bayes' Theorem?
- 12. אין אַ מאַשין לערנען מאָדעל, וואָס זענען 'טריינינג שטעלן' און 'פּרובירן שטעלן'?
- 13. וואָס איז אַ היפּאָטהעסיס אין מאַשין לערנען?
- 14. וואָס טוט מאַשין לערנען אָוווערפיטטינג מיינען, און ווי קענען עס זיין פּריווענטיד?
- 15. וואָס פּונקט זענען נאַיוו בייעס קלאַססיפיערס?
- 16. וואָס מיינען קאָסט פאַנגקשאַנז און לאָס פאַנגקשאַנז?
- 17. וואָס דיסטינגגווישיז אַ דזשענעראַטיוו מאָדעל פון אַ דיסקרימינאַטיווע מאָדעל?
- 18. באַשרייַבן די ווערייישאַנז צווישן טיפּ איך און טיפּ וו ערראָרס.
- 19. אין מאַשין לערנען, וואָס איז די אַנסאַמבאַל לערנען טעכניק?
- 20. וואָס פּונקט זענען פּאַראַמעטריק מאָדעלס? געבן אַ בייַשפּיל.
- 21. באַשרייַבן קאַלאַבערייטיוו פֿילטרירונג. ווי געזונט ווי אינהאַלט-באזירט פֿילטרירונג?
- 22. וואָס פּונקט מיינען איר מיט די צייט סעריע?
- 23. באַשרייַבן די ווערייישאַנז צווישן די גראַדיענט בוסטינג און ראַנדאָם וואַלד אַלגערידאַמז.
- 24. פארוואס טאָן איר דאַרפֿן אַ צעמישונג מאַטריץ? וואס איז דאס?
- 25. וואָס פּונקט איז אַ פּרינציפּ קאָמפּאָנענט אַנאַליסיס?
- 26. פארוואס איז קאָמפּאָנענט ראָוטיישאַן אַזוי קריטיש פֿאַר פּקאַ (הויפּט קאָמפּאָנענט אַנאַליסיס)?
- 27. ווי טאָן רעגוליזאַטיאָן און נאָרמאַליזיישאַן בייַטן פון איין אנדערן?
- 28. ווי זענען נאָרמאַליזיישאַן און סטאַנדערדיזיישאַן אַנדערש פון איינער דעם אנדערן?
- 29. וואָס פּונקט מיטל "וואַריאַנס ינפלאַציע פאַקטאָר"?
- 30. באַזירט אויף די גרייס פון די טריינינג שטעלן, ווי טאָן איר קלייַבן אַ קלאַססיפיער?
- 31. וואָס אַלגערידאַם אין מאַשין לערנען איז ריפערד צו ווי די "פויל לערנער" און וואָס?
- 32. וואָס זענען די ROC Curve און AUC?
- 33. וואָס זענען היפּערפּאַראַמעטערס? וואָס מאכט זיי יינציק פֿון די מאָדעל פּאַראַמעטערס?
- 34. וואָס מיינען F1 כעזשבן, צוריקרופן און פּינטלעכקייַט?
- 35. וואָס פּונקט איז קרייַז-וואַלאַדיישאַן?
- 36. זאל ס זאָגן איר דיסקאַווערד אַז דיין מאָדעל האט אַ באַטייַטיק דיפעראַנסיז. וואָס אַלגערידאַם, אין דיין מיינונג, איז מערסט פּאַסיק צו שעפּן דעם סיטואַציע?
- 37. וואָס דיסטינגגווישיז רידזש ראַגרעשאַן פון לאַססאָ ראַגרעשאַן?
- 38. וואָס איז מער וויכטיק: מאָדעל פאָרשטעלונג אָדער מאָדעל אַקיעראַסי? וואָס און וואָס וועט איר פייסינג עס?
- 39. ווי וואָלט איר פירן אַ דאַטאַסעט מיט ינאַקוואַלאַטיז?
- 40. ווי קענען איר ויסטיילן צווישן בוסטינג און באַגינג?
- 41. דערקלערן די דיפעראַנסיז צווישן ינדוקטיווע און דעדוקטיווע לערנען.
- סאָף
געשעפטן נוצן די לעצטע טעכנאָלאָגיע, אַזאַ ווי קינסטלעך סייכל (AI) און מאַשין לערנען, צו פאַרגרעסערן די אַקסעסאַביליטי פון אינפֿאָרמאַציע און באַדינונגס צו מענטשן.
די טעקנאַלאַדזשיז זענען אנגענומען דורך אַ פאַרשיידנקייַט פון ינדאַסטריז, אַרייַנגערעכנט באַנקינג, פינאַנצן, לאַכאָדימ, מאַנופאַקטורינג און כעלטקער.
איינער פון די מערסט געזוכט אָרגאַנאַזיישאַנאַל ראָלעס מיט אַי איז פֿאַר דאַטן סייאַנטיס, קינסטלעך סייכל ענדזשאַנירז, מאַשין לערנען ענדזשאַנירז און דאַטן אַנאַליס.
דעם פּאָסטן וועט פירן איר דורך אַ פאַרשיידנקייַט פון מאַשין וויסן אינטערוויו פראגעס, פון יקערדיק צו קאָמפּלעקס, צו העלפן איר באַקומען גרייט פֿאַר קיין פראגעס איר קען זיין געבעטן ווען איר זוכט פֿאַר דיין ידעאַל אַרבעט.
1. דערקלערן די דיפעראַנסיז צווישן מאַשין לערנען, קינסטלעך סייכל און טיף לערנען.
קינסטלעך סייכל ניצט אַ פאַרשיידנקייַט פון מאַשין לערנען און טיף לערנען אַפּראָוטשיז וואָס לאָזן קאָמפּיוטער סיסטעמען צו דורכפירן טאַסקס ניצן מענטש-ווי סייכל מיט לאָגיק און כּללים.
מאַשין לערנען ניצט אַ פאַרשיידנקייַט פון סטאַטיסטיק און דיפּ לערנען אַפּראָוטשיז צו געבן מאשינען צו לערנען פון זייער פריערדיקן פאָרשטעלונג און ווערן מער אַדעפּט אין טאן זיכער טאַסקס אויף זייער אייגן אָן מענטשלעך השגחה.
Deep Learning איז אַ זאַמלונג פון אַלגערידאַמז וואָס אַלאַוז די ווייכווארג צו לערנען פון זיך און דורכפירן פאַרשידן געשעפט פאַנגקשאַנז, אַזאַ ווי קול און בילד דערקענונג.
סיסטעמען וואָס ויסשטעלן זייער מולטילייערד נוראַל נעטוואָרקס צו וואַסט אַמאַונץ פון דאַטן פֿאַר לערנען זענען ביכולת צו טאָן טיף לערנען.
2. ביטע באַשרייַבן די פאַרשידענע טייפּס פון מאַשין לערנען.
מאַשין לערנען יגזיסץ אין דריי פאַרשידענע טייפּס ברייט:
- סופּערווייזד לערנען: א מאָדעל קריייץ פֿאָרויסזאָגן אָדער משפט ניצן לייבאַלד אָדער היסטארישע דאַטן אין סופּערווייזד מאַשין לערנען. דאַטאַ שטעלט וואָס האָבן שוין טאַגד אָדער לייבאַלד אין סדר צו פאַרגרעסערן זייער טייַטש זענען ריפערד צו ווי לייבאַלד דאַטן.
- ונסופּערוויסעד לערנען: מיר טאָן ניט האָבן לייבאַלד דאַטן פֿאַר אַנסופּערווייזד לערנען. אין די ינקאַמינג דאַטן, אַ מאָדעל קענען געפֿינען פּאַטערנז, אַדאַטיז און קאָראַליישאַנז.
- ריינפאָרסמאַנט לערנען: דער מאָדעל קענען לערנען דורך ניצן ריינפאָרסמאַנט לערנען און די ריוואָרדז עס גאַט פֿאַר זייַן פריערדיק נאַטור.
3. וואָס איז די פאָרורטייל קעגן וועריאַנס האַנדל-אַוועק?
אָווערפיטטינג איז אַ רעזולטאַט פון פאָרורטייל, וואָס איז דער גראַד צו וואָס אַ מאָדעל פיץ די דאַטן. פאָרורטייל איז געפֿירט דורך פאַלש אָדער צו פּשוט אַסאַמפּשאַנז אין דיין מאַשין לערנען אַלגערידאַם.
וואַריאַנס רעפערס צו מיסטייקס געפֿירט דורך קאַמפּלעקסיטי אין דיין ML אַלגערידאַם, וואָס טראגט סענסיטיוויטי צו גרויס דיפעראַנסיז אין טריינינג דאַטן און אָוווערפיטטינג.
וועריאַנס איז ווי פיל אַ מאָדעל וועריז אָפענגיק אויף ינפּוץ.
אין אנדערע ווערטער, יקערדיק מאָדעלס זענען גאָר בייאַסט נאָך סטאַביל (נידעריק וועריאַנס). אָווערפיטטינג איז אַ פּראָבלעם מיט קאָמפּלעקס מאָדעלס, כאָטש זיי פונדעסטוועגן כאַפּן די מאָדעל ס פאַקט (נידעריק פאָרורטייל).
אין סדר צו פאַרמייַדן ביידע הויך ווערייישאַן און הויך פאָרורטייל, אַ האַנדל-אַוועק צווישן פאָרורטייל און וועריאַנס איז נייטיק פֿאַר דער בעסטער טעות רעדוקציע.
4. מאַשין לערנען אַלגערידאַמז האָבן יוואַלווד באטייטיק איבער צייַט. ווי קען מען קלייַבן די רעכט אַלגערידאַם צו נוצן אַ דאַטן שטעלן?
די מאַשין לערנען טעכניק וואָס זאָל זיין יוטאַלייזד דעפּענדס בלויז אויף די סאָרט פון דאַטן אין אַ ספּעציפיש דאַטאַסעט.
ווען דאַטן זענען לינעאַר, לינעאַר ראַגרעשאַן איז געניצט. די באַגינג אופֿן וואָלט זיין בעסער אויב דאַטן ינדיקייץ ניט-לינעאַריטי. מיר קענען נוצן באַשלוס ביימער אָדער SVM אויב די דאַטן מוזן זיין עוואַלואַטעד אָדער ינטערפּראַטאַד פֿאַר געשעפט צוועקן.
נעוראַל נעטוואָרקס קען זיין נוציק צו באַקומען אַן פּינטלעך ענטפער אויב די דאַטאַסעט כולל פאָטאָס, ווידיאס און אַודיאָ.
די ברירה פון אַלגערידאַם פֿאַר אַ ספּעציפיש ומשטאַנד אָדער זאַמלונג פון דאַטן קענען ניט זיין געמאכט בלויז אויף אַ איין מאָס.
פֿאַר די ציל פון דעוועלאָפּינג דער בעסטער פּאַסיק אופֿן, מיר מוזן ערשטער ונטערזוכן די דאַטן ניצן עקספּלאָראַטאָרי דאַטן אַנאַליסיס (EDA) און באַגרייַפן די ציל פון ניצן די דאַטאַסעט.
5. ווי טאָן קאָוואַריאַנס און קאָראַליישאַן אַנדערש?
קאָוואַריאַנס אָפּשאַצן ווי צוויי וועריאַבאַלז זענען פארבונדן צו יעדער אנדערער און ווי איינער קען טוישן אין ענטפער צו ענדערונגען אין די אנדערע.
אויב דער רעזולטאַט איז positive, עס ינדיקייץ אַז עס איז אַ דירעקט לינק צווישן די וועריאַבאַלז און אַז איינער וואָלט העכערונג אָדער פאַרקלענערן מיט אַ פאַרגרעסערן אָדער פאַרקלענערן אין די באַזע וועריאַבאַל, אַסומינג אַז אַלע אנדערע באדינגונגען בלייבן קעסיידערדיק.
קאָראַליישאַן מיטלען די פֿאַרבינדונג צווישן צוויי טראַפ וועריאַבאַלז און האט בלויז דריי בוילעט וואַלועס: 1, 0, און -1.
6. אין מאַשין לערנען, וואָס טוט קלאַסטערינג מיינען?
ונסופּערוויסעד לערנען מעטהאָדס אַז גרופּע דאַטן ווייזט צוזאַמען זענען גערופן קלאַסטערינג. מיט אַ זאַמלונג פון דאַטן ווייזט, די קלאַסטערינג טעכניק קענען זיין געווענדט.
איר קענען גרופּע אַלע די דאַטן פונקטן לויט זייער פאַנגקשאַנז ניצן דעם סטראַטעגיע.
די פֿעיִקייטן און קוואַלאַטיז פון די דאַטן פונקטן וואָס פאַלן אין דער זעלביקער קאַטעגאָריע זענען ענלעך, בשעת די פון די דאַטן פונקטן וואָס פאַלן אין באַזונדער גרופּעס זענען אַנדערש.
דעם צוגאַנג קענען זיין געניצט צו אַנאַלייז סטאַטיסטיש דאַטן.
7. וואָס איז דיין בילכער מאַשין לערנען אַלגערידאַם?
איר האָבן די געלעגנהייט צו באַווייַזן דיין פּרעפֿערענצן און יינציק טאלאנטן אין דעם קשיא, ווי געזונט ווי דיין פולשטענדיק וויסן פון פילע מאַשין לערנען טעקניקס.
דאָ זענען אַ ביסל טיפּיש מאַשין לערנען אַלגערידאַמז צו טראַכטן וועגן:
- לינעאַר ראַגרעשאַן
- לאָגיסטיק ראַגרעשאַן
- נאַיוו בייז
- Decision trees
- ק מיטל
- טראַפ וואַלד אַלגערידאַם
- K-Nearest Neighbour (KNN)
8. לינעאַר רעגרעססיאָן אין מאַשין לערנען: וואָס איז עס?
א סופּערווייזד מאַשין לערנען אַלגערידאַם איז לינעאַר ראַגרעשאַן.
עס איז געניצט אין פּרידיקטיוו אַנאַליסיס צו באַשטימען די לינעאַר קשר צווישן די אָפענגיק און פרייַ וועריאַבאַלז.
די יקווייזשאַן פון לינעאַר ראַגרעשאַן איז ווי גייט:
י = א + בקס
ווו:
- דער אַרייַנשרייַב אָדער פרייַ בייַטעוודיק איז גערופן X.
- די אָפענגיק אָדער רעזולטאַט בייַטעוודיק איז Y.
- X ס קאָואַפישאַנט איז b, און זייַן ינטערסעפּט איז a.
9. באַשרייַבן די דיפעראַנסיז צווישן KNN און ק-מיטל קלאַסטערינג.
די ערשטיק דיסטינגקשאַן איז אַז KNN (אַ קלאַסאַפאַקיישאַן אופֿן, סופּערווייזד לערנען) דאַרף לייבאַלד פונקטן, כאָטש ק-מיטל טוט נישט (קלאַסטערינג אַלגערידאַם, אַנסופּערווייזד לערנען).
איר קענען קלאַסיפיצירן לייבאַלד דאַטן אין אַן אַנלייבאַלד פונט דורך ניצן K-נעאַרעסט נעיגהבאָורס. ק-מעאַנס קלאַסטערינג ניצט די דורכשניטלעך דיסטאַנסע צווישן פונקטן צו לערנען ווי צו גרופּע אַנלייבאַלד פונקטן.
10. וואָס טוט "סעלעקציע פאָרורטייל" מיינען צו איר?
די פאָרורטייל אין דער מוסטערונג פאַסע פון אַן עקספּערימענט איז רעכט צו סטאַטיסטיש ינאַקיעראַסי.
איין מוסטער גרופּע איז אויסדערוויילט מער אָפט ווי די אנדערע גרופּעס אין דער עקספּערימענט ווי אַ רעזולטאַט פון די ינאַקיעראַסי.
אויב די סעלעקציע פאָרורטייל איז נישט יקנאַלידזשד, דאָס קען רעזולטאַט אין אַ פאַלש מסקנא.
11. וואָס פּונקט איז Bayes' Theorem?
ווען מיר זענען אַווער פון אנדערע מאַשמאָעס, מיר קענען באַשטימען אַ מאַשמאָעס ניצן Bayes 'טעאָרעם. עס אָפפערס די שפּעטערדיק מאַשמאָעס פון אַ פּאַסירונג באזירט אויף פריערדיק אינפֿאָרמאַציע, אין אנדערע ווערטער.
א געזונט אופֿן פֿאַר אָפּשאַצונג קאַנדישאַנאַל מאַשמאָעס איז צוגעשטעלט דורך דעם טעאָרעם.
ווען דעוועלאָפּינג קלאַסאַפאַקיישאַן פּרידיקטיוו מאָדעלינג פּראָבלעמס און פּאַסן אַ מאָדעל צו אַ טריינינג דאַטאַבייס אין מאַשין לערנען, Bayes' טהעאָרעם איז געווענדט (ד"ה נאַיוו בייעס, Bayes Optimal Classifier).
12. אין אַ מאַשין לערנען מאָדעל, וואָס זענען 'טריינינג שטעלן' און 'פּרובירן שטעלן'?
טריינינג שטעלן:
- די טריינינג שטעלן באשטייט פון ינסטאַנסיז וואָס זענען געשיקט צו די מאָדעל פֿאַר אַנאַליסיס און לערנען.
- דאָס איז די לייבאַלד דאַטן וואָס וועט זיין געניצט צו באַן די מאָדעל.
- טיפּיקאַללי, 70% פון די גאַנץ דאַטן זענען געניצט ווי די טריינינג דאַטאַסעט.
טעסט סעט:
- די פּרובירן שטעלן איז געניצט צו אַססעסס די אַקיעראַסי פון די כייפּאַטאַסאַס דור פון די מאָדעל.
- מיר פּרובירן אָן לייבאַלד דאַטן און דעמאָלט נוצן לאַבעלס צו באַשטעטיקן די רעזולטאַטן.
- די רוען 30% איז געניצט ווי אַ פּראָבע דאַטאַסעט.
13. וואָס איז אַ היפּאָטהעסיס אין מאַשין לערנען?
מאַשין לערנען ינייבאַלז די נוצן פון יגזיסטינג דאַטאַסעץ צו בעסער פֿאַרשטיין אַ געגעבן פֿונקציע וואָס פֿאַרבינדט אַרייַנשרייַב צו רעזולטאַט. דאָס איז באקאנט ווי פֿונקציע אַפּראַקסאַמיישאַן.
אין דעם פאַל, אַפּראַקסאַמיישאַן מוזן זיין געוויינט פֿאַר די אומבאַקאַנט ציל פונקציע צו אַריבערפירן אַלע קאַנסיוואַבאַל אַבזערוויישאַנז באזירט אויף די געגעבן סיטואַציע אין דער בעסטער וועג מעגלעך.
אין מאַשין לערנען, אַ כייפּאַטאַסאַס איז אַ מאָדעל וואָס אַידז צו אָפּשאַצן די ציל פונקציע און פאַרענדיקן די צונעמען אַרייַנשרייַב-צו-רעזולטאַט מאַפּינגז.
די סעלעקציע און פּלאַן פון אַלגערידאַמז לאָזן די דעפֿיניציע פון די פּלאַץ פון מעגלעך כייפּאַטאַסאַז וואָס קענען זיין רעפּריזענטיד דורך אַ מאָדעל.
פֿאַר אַ איין כייפּאַטאַסאַס, קליין כ (ה) איז געניצט, אָבער קאַפּיטאַל ה (ה) איז געניצט פֿאַר די גאנצע כייפּאַטאַסאַס פּלאַץ וואָס איז געזוכט. מיר וועלן בעקיצער אָפּשאַצן די נאָוטיישאַנז:
- א כייפּאַטאַסאַס (ה) איז אַ באַזונדער מאָדעל וואָס פאַסילאַטייץ די מאַפּינג פון אַרייַנשרייַב צו רעזולטאַט, וואָס קענען דערנאָך ווערן גענוצט פֿאַר אפשאצונג און פּראָגנאָז.
- א כייפּאַטאַסאַס שטעלן (H) איז אַ זוך פּלאַץ פון כייפּאַטאַסאַז וואָס קענען זיין גענוצט צו מאַפּע ינפּוץ צו אַוטפּוץ. אַרויסגעבן פראַמינג, מאָדעל און מאָדעל קאַנפיגיעריישאַן זענען עטלעכע ביישפילן פון דזשאַנעריק לימיטיישאַנז.
14. וואָס טוט מאַשין לערנען אָוווערפיטטינג מיינען, און ווי קענען עס זיין פּריווענטיד?
ווען אַ מאַשין פרוווט צו לערנען פון אַ ניט גענוגיק דאַטאַסעט, אָוווערפיטטינג אַקערז.
ווי אַ רעזולטאַט, אָוווערפיטטינג איז פאַרקערט קאָראַלייטאַד מיט דאַטן באַנד. די קרייַז-וואַלאַדיישאַן צוגאַנג אַלאַוז צו ויסמיידן אָוווערפיטטינג פֿאַר קליין דאַטאַסעץ. א דאַטאַסעט איז צעטיילט אין צוויי טיילן אין דעם אופֿן.
די דאַטאַסעט פֿאַר טעסטינג און טריינינג וועט צונויפשטעלנ זיך פון די צוויי פּאַרץ. די טריינינג דאַטאַסעט איז געניצט צו שאַפֿן אַ מאָדעל, בשעת די טעסטינג דאַטאַסעט איז געניצט צו אָפּשאַצן די מאָדעל מיט פאַרשידענע ינפּוץ.
דאָס איז ווי צו פאַרמייַדן אָוווערפיטטינג.
15. וואָס פּונקט זענען נאַיוו בייעס קלאַססיפיערס?
פאַרשידן קלאַסאַפאַקיישאַן מעטהאָדס מאַכן די נאַיוו בייעס קלאַססיפיערס. א סכום פון אַלגערידאַמז באקאנט ווי די קלאַססיפיערס אַלע אַרבעט אויף דער זעלביקער פונדאַמענטאַל געדאַנק.
די האַשאָרע געמאכט דורך נאַיוו Bayes קלאַססיפיערס איז אַז איין שטריך ס בייַזייַן אָדער אַוועק האט קיין שייַכעס אויף דעם בייַזייַן אָדער אַוועק פון אן אנדער שטריך.
אין אנדערע ווערטער, דאָס איז וואָס מיר אָפּשיקן צו ווי "נאַיוו" זינט עס מאכט די האַשאָרע אַז יעדער דאַטאַמאַט אַטריביוט איז גלייַך באַטייטיק און פרייַ.
קלאַסאַפאַקיישאַן איז דורכגעקאָכט מיט נאַיוו Bayes קלאַססיפיערס. זיי זענען פּשוט צו נוצן און פּראָדוצירן בעסער רעזולטאַטן ווי מער קאָמפּליצירט פּרידיקטערז ווען די זעלבסטשטענדיקייט האַנאָכע איז אמת.
אין טעקסט אַנאַליסיס, ספּאַם פֿילטרירונג און רעקאָמענדאַציע סיסטעמען, זיי זענען געניצט.
16. וואָס מיינען קאָסט פאַנגקשאַנז און לאָס פאַנגקשאַנז?
די פראַזע "אָנווער פונקציע" רעפערס צו דער פּראָצעס פון קאַמפּיוטינג אָנווער ווען בלויז איין שטיק פון דאַטן איז גענומען אין חשבון.
פאַרקערט, מיר נוצן די קאָסט פונקציע צו באַשליסן די גאַנץ סומע פון גרייס פֿאַר פילע דאַטן. עס איז קיין באַטייַטיק חילוק.
אין אנדערע ווערטער, כאָטש קאָס פאַנגקשאַנז אַגגרעגירן די חילוק פֿאַר די גאנצע טריינינג דאַטאַסעט, אָנווער פאַנגקשאַנז זענען דיזיינד צו כאַפּן די חילוק צווישן די פאַקטיש און פּרעדיקטעד וואַלועס פֿאַר אַ איין רעקאָרד.
17. וואָס דיסטינגגווישיז אַ דזשענעראַטיוו מאָדעל פון אַ דיסקרימינאַטיווע מאָדעל?
א דיסקרימינאַטיווע מאָדעל לערנט די דיפעראַנסיז צווישן עטלעכע דאַטן קאַטעגאָריעס. א גענעראַטיוו מאָדעל פּיקס זיך אויף פאַרשידענע דאַטן טייפּס.
אויף קלאַסאַפאַקיישאַן פּראָבלעמס, דיסקרימינאַטיווע מאָדעלס אָפט העכערן אנדערע מאָדעלס.
18. באַשרייַבן די ווערייישאַנז צווישן טיפּ איך און טיפּ וו ערראָרס.
פאַלש פּאַזאַטיווז פאַלן אונטער דער קאַטעגאָריע פון טיפּ I ערראָרס, כוועראַז פאַלש נעגאַטיוועס גיין אונטער טיפּ וו ערראָרס (קליימינג גאָרנישט איז געטראפן ווען עס אַקשלי האט).
19. אין מאַשין לערנען, וואָס איז די אַנסאַמבאַל לערנען טעכניק?
א טעכניק גערופן אַנסאַמבאַל לערנען מיקסעס פילע מאַשין לערנען מאָדעלס צו פּראָדוצירן מער שטאַרק מאָדעלס.
א מאָדעל קענען זיין וועריד פֿאַר אַ פאַרשיידנקייַט פון סיבות. עטלעכע סיבות זענען:
- פארשײדענ ע באפעלקערונג
- פאַרשידן היפּאָטהעסעס
- פאַרשידן מאָדעלינג מעטהאָדס
מיר וועלן טרעפן אַן אַרויסגעבן ווען מיר נוצן די טריינינג און טעסטינג דאַטן פון די מאָדעל. פאָרורטייל, וועריאַנס און ירידוסאַבאַל טעות זענען מעגלעך טייפּס פון דעם גרייַז.
איצט, מיר רופן דעם וואָג צווישן פאָרורטייל און וועריאַנס אין די מאָדעל אַ פאָרורטייל-ווייאַנס האַנדל-אַוועק, און עס זאָל שטענדיק עקסיסטירן. דעם האַנדל-אַוועק איז אַטשיווד דורך די נוצן פון אַנסאַמבאַל לערנען.
כאָטש עס זענען פאַרשידן אַנסאַמבאַל אַפּראָוטשיז בנימצא, עס זענען צוויי פּראָסט סטראַטעגיעס פֿאַר קאַמביינינג פילע מאָדעלס:
- א געבוירענער צוגאַנג גערופֿן באַגינג ניצט די טריינינג שטעלן צו פּראָדוצירן נאָך טריינינג שטעלט.
- בוסטינג, אַ מער סאַפיסטאַקייטיד טעכניק: פיל ווי באַגינג, בוסטינג איז געניצט צו געפֿינען די ידעאַל ווייטינג פאָרמולע פֿאַר אַ טריינינג שטעלן.
20. וואָס פּונקט זענען פּאַראַמעטריק מאָדעלס? געבן אַ בייַשפּיל.
עס זענען אַ לימיטעד סומע פון פּאַראַמעטערס אין פּאַראַמעטריק מאָדעלס. צו פאָרויסזאָגן דאַטן, אַלע איר דאַרפֿן צו וויסן זענען די פּאַראַמעטערס פון די מאָדעל.
די פאלגענדע זענען טיפּיש ביישפילן: לאָגיסטיק ראַגרעשאַן, לינעאַר ראַגרעשאַן און לינעאַר סווומס. ניט-פּאַראַמעטריק מאָדעלס זענען פלעקסאַבאַל ווייַל זיי קענען אַנטהאַלטן אַ אַנלימאַטאַד נומער פון פּאַראַמעטערס.
די פּאַראַמעטערס פון די מאָדעל און די סטאַטוס פון די באמערקט דאַטן זענען פארלאנגט פֿאַר דאַטן פֿאָרויסזאָגן. דאָ זענען עטלעכע טיפּיש ביישפילן: טעמע מאָדעלס, באשלוס בוימער , או ן ק־נאסט ע שכנים .
21. באַשרייַבן קאַלאַבערייטיוו פֿילטרירונג. ווי געזונט ווי אינהאַלט-באזירט פֿילטרירונג?
א געפרואווט-און-אמת אופֿן פֿאַר קריייטינג טיילערד אינהאַלט פֿירלייגן איז קאַלאַבערייטיוו פֿילטרירונג.
א פאָרעם פון רעקאָמענדאַציע סיסטעם גערופן קאַלאַבערייטיוו פֿילטרירונג פאָרויסזאָגן פריש מאַטעריאַל דורך באַלאַנסינג באַניצער פּרעפֿערענצן מיט שערד אינטערעסן.
באַניצער פּרעפֿערענצן זענען די בלויז זאַך אַז אינהאַלט-באזירט רעקאָממענדאַטאָר סיסטעמען באַטראַכטן. אין ליכט פון דער באַניצער ס פריערדיק סאַלעקשאַנז, נייַע רעקאַמאַנדיישאַנז זענען צוגעשטעלט פֿון פֿאַרבונדענע מאַטעריאַל.
22. וואָס פּונקט מיינען איר מיט די צייט סעריע?
א צייט סעריע איז אַ זאַמלונג פון נומערן אין אַסענדינג סדר. איבער אַ פּרידיטערמינד צייט, עס מאָניטאָרס די באַוועגונג פון די אויסגעקליבן דאַטן פונקטן און פּיריאַדיקלי קאַפּטשערז די דאַטן פונקטן.
עס איז קיין מינימום אָדער מאַקסימום צייט אַרייַנשרייַב פֿאַר צייט סעריע.
צייט סעריע זענען אָפט געניצט דורך אַנאַליס צו פונאַנדערקלייַבן דאַטן אין לויט מיט זייער יינציק באדערפענישן.
23. באַשרייַבן די ווערייישאַנז צווישן די גראַדיענט בוסטינג און ראַנדאָם וואַלד אַלגערידאַמז.
ראַנדאָם וואַלד:
- א גרויס נומער פון באַשלוס ביימער זענען פּאָאָלד צוזאַמען אין די סוף און זענען באקאנט ווי טראַפ - פאָראַס.
- בשעת גראַדיענט בוסטינג טראגט יעדער בוים ינדיפּענדאַנטלי פון די אנדערע, טראַפ - וואַלד בויען יעדער בוים איינער אין אַ צייַט.
- מולטיקלאַסס כייפעץ דיטעקשאַן אַרבעט געזונט מיט טראַפ פאָראַס.
גראַדיענט בוסטינג:
- בשעת טראַפ פאָראַס פאַרבינדן באַשלוס ביימער אין די סוף פון דעם פּראָצעס, גראַדיענט בוסטינג מאשינען פאַרבינדן זיי פֿון די אָנהייב.
- אויב פּאַראַמעטערס זענען אַפּראָופּרייטלי אַדזשאַסטיד, גראַדיענט בוסטינג אַוטפּערפאָרמז ראַנדאָם פאָראַס אין טערמינען פון רעזולטאַטן, אָבער עס איז נישט אַ קלוג ברירה אויב די דאַטן שטעלן האט אַ פּלאַץ פון אַוטלייערז, אַנאַמאַליז אָדער ראַש, ווייַל דאָס קען פאַרשאַפן די מאָדעל צו זיין אָוווערפיט.
- ווען עס איז אַנבאַלאַנסט דאַטן, ווי עס איז אין פאַקטיש-צייט ריזיקירן אַסעסמאַנט, גראַדיענט בוסטינג פּערפאָרמז גוט.
24. פארוואס טאָן איר דאַרפֿן אַ צעמישונג מאַטריץ? וואס איז דאס?
א טיש באקאנט ווי די צעמישונג מאַטריץ, מאל באקאנט ווי די טעות מאַטריץ, איז וויידלי געניצט צו ווייַזן ווי געזונט אַ קלאַסאַפאַקיישאַן מאָדעל, אָדער קלאַססיפיער, פּערפאָרמז אויף אַ גאַנג פון פּרובירן דאַטן פֿאַר וואָס די פאַקטיש וואַלועס זענען באַוווסט.
עס ינייבאַלז אונדז צו זען ווי אַ מאָדעל אָדער אַלגערידאַם פּערפאָרמז. עס מאכט עס פּשוט פֿאַר אונדז צו געפֿינען מיסאַנדערסטאַנדינגז צווישן פאַרשידן קאָרסאַז.
עס סערוועס ווי אַ וועג צו אָפּשאַצן ווי גוט אַ מאָדעל אָדער אַלגערידאַם איז דורכגעקאָכט.
די פֿאָרויסזאָגן פון אַ קלאַסאַפאַקיישאַן מאָדעל זענען צונויפגעשטעלט אין אַ צעמישונג מאַטריץ. די ציילן וואַלועס פון יעדער קלאַס פירמע זענען געניצט צו ברעכן אַראָפּ די גאַנץ נומער פון ריכטיק און פאַלש פֿאָרויסזאָגן.
עס גיט דעטאַילס וועגן די חסרונות געמאכט דורך די קלאַססיפיער און די פאַרשידענע טייפּס פון ערראָרס געפֿירט דורך קלאַססיפיערס.
25. וואָס פּונקט איז אַ פּרינציפּ קאָמפּאָנענט אַנאַליסיס?
דורך מינאַמייזינג די נומער פון וועריאַבאַלז וואָס זענען קאָראַלייטאַד מיט איינער דעם אנדערן, דער ציל איז צו מינאַמייז די דימענשאַנאַליטי פון די דאַטן זאַמלונג. אבער עס איז וויכטיק צו האַלטן די דייווערסיטי ווי פיל ווי מעגלעך.
די וועריאַבאַלז זענען פארענדערט אין אַ גאָר נייַע גאַנג פון וועריאַבאַלז גערופן הויפּט קאַמפּאָונאַנץ.
די פּקס זענען אָרטאָגאָנאַל זינט זיי זענען אַ קאָוואַריאַנס מאַטריץ ס אייגן וועקטאָרס.
26. פארוואס איז קאָמפּאָנענט ראָוטיישאַן אַזוי קריטיש פֿאַר פּקאַ (הויפּט קאָמפּאָנענט אַנאַליסיס)?
ראָוטיישאַן איז קריטיש אין פּקאַ ווייַל עס אָפּטימיזעס די צעשיידונג צווישן די דיפעראַנסיז באקומען דורך יעדער קאָמפּאָנענט, מאכן די ינטערפּריטיישאַן פון קאָמפּאָנענט סימפּלער.
מיר דאַרפן עקסטענדעד קאַמפּאָונאַנץ צו אויסדריקן קאָמפּאָנענט ווערייישאַן אויב די קאַמפּאָונאַנץ זענען נישט ראָוטייטיד.
27. ווי טאָן רעגוליזאַטיאָן און נאָרמאַליזיישאַן בייַטן פון איין אנדערן?
נאָרמאַליזיישאַן:
די דאַטע איז אָלטערד בעשאַס נאָרמאַליזיישאַן. איר זאָל נאָרמאַלייז די דאַטן אויב עס האט וואָג וואָס זענען דראַסטיקלי אַנדערש, ספּעציעל פון נידעריק צו הויך. סטרויערן יעדער זייַל אַזוי אַז די פונדאַמענטאַל סטאַטיסטיק זענען אַלע קאַמפּאַטאַבאַל.
צו ענשור אַז עס איז קיין אָנווער פון פּינטלעכקייַט, דאָס קען זיין נוציק. דיטעקטינג דעם סיגנאַל בשעת יגנאָרינג די ראַש איז איינער פון די אַבדזשעקטיווז פון מאָדעל טריינינג.
עס איז אַ געלעגנהייַט פון אָוווערפיטטינג אויב דער מאָדעל איז געגעבן גאַנץ קאָנטראָל צו רעדוצירן טעות.
רעגולאריזאציע:
אין רעגולאַריזאַטיאָן, די פּראָגנאָז פונקציע איז מאַדאַפייד. דעם איז אונטערטעניק צו עטלעכע קאָנטראָל דורך רעגוליזאַטיאָן, וואָס פאַוואָרס סימפּלער פּאַסן פאַנגקשאַנז איבער קאָמפּליצירט אָנעס.
28. ווי זענען נאָרמאַליזיישאַן און סטאַנדערדיזיישאַן אַנדערש פון איינער דעם אנדערן?
די צוויי מערסט וויידלי געניצט טעקניקס פֿאַר שטריך סקיילינג זענען נאָרמאַליזיישאַן און סטאַנדערדיזיישאַן.
נאָרמאַליזיישאַן:
- ריסקאַלינג די דאַטן צו פּאַסן אַ [0,1] קייט איז באקאנט ווי נאָרמאַליזיישאַן.
- ווען אַלע פּאַראַמעטערס מוזן האָבן די זעלבע positive וואָג, נאָרמאַליזיישאַן איז נוציק, אָבער די אַוטלייערז פון די דאַטן שטעלן זענען פאַרפאַלן.
רעגולאריזאציע:
- דאַטן זענען ריסייקאַלד צו האָבן אַ דורכשניטלעך פון 0 און אַ נאָרמאַל דיווייישאַן פון 1 ווי אַ טייל פון די סטאַנדערדיזיישאַן פּראָצעס (וניט וועריאַנס)
29. וואָס פּונקט מיטל "וואַריאַנס ינפלאַציע פאַקטאָר"?
די פאַרהעלטעניש פון די וועריאַנס פון די מאָדעל צו די וועריאַנס פון די מאָדעל מיט בלויז איין פרייַ בייַטעוודיק איז באקאנט ווי די ווערייישאַן ינפלאַציע פאַקטאָר (VIF).
VIF עסטאַמאַץ די סומע פון מולטיקאָלינעאַריטי פאָרשטעלן אין אַ גאַנג פון עטלעכע ראַגרעשאַן וועריאַבאַלז.
וואַריאַנס פון די מאָדעל (VIF) מאָדעל מיט איין ינדעפּענדענט וואַריאַבלע וואַריאַנס
30. באַזירט אויף די גרייס פון די טריינינג שטעלן, ווי טאָן איר קלייַבן אַ קלאַססיפיער?
א הויך פאָרורטייל, נידעריק וועריאַנס מאָדעל פּערפאָרמז בעסער פֿאַר אַ קורץ טריינינג שטעלן זינט אָוווערפיטטינג איז ווייניקער מסתּמא. נאַיוו בייעס איז איין בייַשפּיל.
אין סדר צו פאָרשטעלן מער קאָמפּליצירט ינטעראַקשאַנז פֿאַר אַ גרויס טריינינג שטעלן, אַ מאָדעל מיט נידעריק פאָרורטייל און הויך וועריאַנס איז בילכער. לאָגיסטיק ראַגרעשאַן איז אַ גוט בייַשפּיל.
31. וואָס אַלגערידאַם אין מאַשין לערנען איז ריפערד צו ווי די "פויל לערנער" און וואָס?
א פויל לערנער, KNN איז אַ מאַשין לערנען אַלגערידאַם. ווייַל K-NN דינאַמיקאַללי קאַלקיאַלייץ די ווייַטקייט יעדער מאָל עס וויל צו קלאַסיפיצירן אַנשטאָט פון לערנען קיין מאַשין-געלערנט וואַלועס אָדער וועריאַבאַלז פון די טריינינג דאַטן, עס מעמערייזיז די טריינינג דאַטאַסעט.
דאָס מאכט ק-ן אַ פויל לערנער.
32. וואָס זענען די ROC Curve און AUC?
די פאָרשטעלונג פון אַ קלאַסאַפאַקיישאַן מאָדעל ביי אַלע טרעשכאָולדז איז רעפּריזענטיד גראַפיקלי דורך די ROC ויסבייג. עס האט אמת positive קורס און פאַלש positive קורס קרייטיריאַ.
פשוט, די שטח אונטער די ROC ויסבייג איז באקאנט ווי AUC (Area Under the ROC Curve). די צוויי-דימענשאַנאַל שטח פון די ROC ויסבייג פון (0,0) צו AUC איז געמאסטן (1,1). פֿאַר אַססעססינג ביינערי קלאַסאַפאַקיישאַן מאָדעלס, עס איז געניצט ווי אַ פאָרשטעלונג סטאַטיסטיק.
33. וואָס זענען היפּערפּאַראַמעטערס? וואָס מאכט זיי יינציק פֿון די מאָדעל פּאַראַמעטערס?
א ינערלעך בייַטעוודיק פון די מאָדעל איז באקאנט ווי אַ מאָדעל פּאַראַמעטער. ניצן טריינינג דאַטן, די ווערט פון אַ פּאַראַמעטער איז דערנענטערנ זיך.
אומבאַקאַנט צו די מאָדעל, אַ כייפּערפּאַראַמעטער איז אַ בייַטעוודיק. די ווערט קענען ניט זיין באשלאסן פון דאַטן, אַזוי זיי זענען אָפט געניצט צו רעכענען מאָדעל פּאַראַמעטערס.
34. וואָס מיינען F1 כעזשבן, צוריקרופן און פּינטלעכקייַט?
די צעמישונג מאָס איז די מעטריק געניצט צו מאָס די יפעקטיוונאַס פון די קלאַסאַפאַקיישאַן מאָדעל. די פאלגענדע פראַסעס קענען זיין געוויינט צו בעסער דערקלערן די צעמישונג מעטריק:
TP: אמת פּאָסיטיווז - דאָס זענען די positive וואַלועס וואָס זענען געווען אַנטיסאַפּייטיד רעכט. עס סאַגדזשעסץ אַז די וואַלועס פון די פּראַדזשעקטאַד קלאַס און די פאַקטיש קלאַס זענען ביידע positive.
TN: אמת נעגאַטיוועס - דאָס זענען די אַדווערס וואַלועס וואָס זענען אַקיעראַטלי פאָרויסזאָגן. עס סאַגדזשעסץ אַז ביידע די ווערט פון די פאַקטיש קלאַס און די אַנטיסאַפּייטיד קלאַס זענען נעגאַטיוו.
די וואַלועס - פאַלש פּאַזאַטיווז און פאַלש נעגאַטיוועס - פאַלן ווען דיין פאַקטיש קלאַס איז אַנדערש פון די אַנטיסאַפּייטיד קלאַס.
איצט,
די פאַרהעלטעניש פון די אמת positive קורס (TP) צו אַלע אַבזערוויישאַנז געמאכט אין די פאַקטיש קלאַס איז גערופן צוריקרופן, אויך באקאנט ווי סענסיטיוויטי.
דער צוריקרופן איז TP/(TP+FN).
פּינטלעכקייַט איז אַ מאָס פון די positive פּרידיקטיוו ווערט, וואָס קאַמפּערז די נומער פון positive די מאָדעל טאַקע פּרידיקס צו ווי פילע ריכטיק פּאַזאַטיווז עס אַקיעראַטלי פּרידיקס.
פּינטלעכקייַט איז טפּ / (טפּ + פפּ)
די יזיאַסט פאָרשטעלונג מעטריק צו פֿאַרשטיין איז אַקיעראַסי, וואָס איז נאָר דער פּראָפּאָרציע פון רעכט פּרעדיקטעד אַבזערוויישאַנז צו אַלע אַבזערוויישאַנז.
די אַקיעראַסי איז גלייַך צו (טפּ+טן)/(טפּ+פפּ+פן+טן).
פּרעסיסיאָן און צוריקרופן זענען ווייטיד און אַוורידזשד צו צושטעלן די F1 כעזשבן. ווי אַ רעזולטאַט, דעם כעזשבן באַטראַכטן ביידע פאַלש פּאַזאַטיווז און פאַלש נעגאַטיוועס.
F1 איז אָפט מער ווערטפול ווי אַקיעראַסי, ספּעציעל אויב איר האָבן אַן אַניקוואַל קלאַס פאַרשפּרייטונג, אפילו אויב ינטויטיוולי עס איז נישט אַזוי פּשוט צו פֿאַרשטיין ווי אַקיעראַסי.
דער בעסטער אַקיעראַסי איז אַטשיווד ווען די פּרייַז פון פאַלש פּאַזאַטיווז און פאַלש נעגאַטיוועס איז פאַרגלייַכלעך. עס איז בילכער צו אַרייַננעמען פּרעסיסיאָן און צוריקרופן אויב די קאָס פֿאַרבונדן מיט פאַלש פּאַזאַטיווז און פאַלש נעגאַטיוועס זענען באטייטיק אַנדערש.
35. וואָס פּונקט איז קרייַז-וואַלאַדיישאַן?
א סטאַטיסטיש ריסאַמפּלינג צוגאַנג גערופֿן קרייַז-וואַלאַדיישאַן אין מאַשין לערנען ניצט עטלעכע דאַטאַסעט סאַבסעץ צו באַן און אָפּשאַצן אַ מאַשין לערנען אַלגערידאַם איבער אַ נומער פון ראָונדס.
א נייַע פּעקל פון דאַטן וואָס איז נישט געניצט צו באַן די מאָדעל איז טעסטעד מיט קרייַז וואַלאַדיישאַן צו זען ווי גוט דער מאָדעל פּרידיקס עס. דאַטאַ אָוווערפיטטינג איז פּריווענטיד דורך קרייַז-וואַלאַדיישאַן.
K-Fold די מערסט אָפט געניצט רעסאַמפּלינג אופֿן ספּליץ די גאנצע דאַטאַסעט אין K שטעלט פון גלייַך סיזעס. עס איז גערופן קרייַז-וואַלאַדיישאַן.
36. זאל ס זאָגן איר דיסקאַווערד אַז דיין מאָדעל האט אַ באַטייַטיק דיפעראַנסיז. וואָס אַלגערידאַם, אין דיין מיינונג, איז מערסט פּאַסיק צו שעפּן דעם סיטואַציע?
אָנפירונג הויך וועריאַביליטי
מיר זאָל נוצן די באַגינג טעכניק פֿאַר פּראָבלעמס מיט גרויס ווערייישאַנז.
ריפּיטיד מוסטערונג פון טראַפ - דאַטן וואָלט זיין געוויינט דורך די באַגינג אַלגערידאַם צו טיילן די דאַטן אין סובגרופּס. אַמאָל די דאַטן זענען צעטיילט, מיר קענען נוצן טראַפ דאַטן און אַ ספּעציפיש טריינינג פּראָצעדור צו דזשענערייט כּללים.
דערנאָך, פּאָללינג קען זיין געוויינט צו פאַרבינדן די פֿאָרויסזאָגן פון די מאָדעל.
37. וואָס דיסטינגגווישיז רידזש ראַגרעשאַן פון לאַססאָ ראַגרעשאַן?
צוויי וויידלי געוויינט רעגולאַריזאַטיאָן מעטהאָדס זענען לאַססאָ (אויך גערופן ל 1) און רידזש (מאל גערופן ל 2) ראַגרעשאַן. זיי זענען געניצט צו פאַרמייַדן די אָוווערפיטינג פון דאַטן.
אין סדר צו אַנטדעקן די בעסטער לייזונג און מינאַמייז קאַמפּלעקסיטי, די טעקניקס זענען געניצט צו באַשטראָפן די קאָואַפישאַנץ. דורך פּינאַליזינג די גאַנץ פון די אַבסאָלוט וואַלועס פון די קאָואַפישאַנץ, די לאַססאָ ראַגרעשאַן אַפּערייץ.
די שטראָף פֿונקציע אין רידזש אָדער ל 2 ראַגרעשאַן איז דערייווד פון די סאַכאַקל פון סקווערז פון די קאָואַפישאַנץ.
38. וואָס איז מער וויכטיק: מאָדעל פאָרשטעלונג אָדער מאָדעל אַקיעראַסי? וואָס און וואָס וועט איר פייסינג עס?
דאָס איז אַ פאַרפירעריש קשיא, אַזוי מען זאָל ערשטער פֿאַרשטיין וואָס מאָדעל פאָרשטעלונג איז. אויב פאָרשטעלונג איז דיפיינד ווי גיכקייַט, עס רילייז אויף דעם טיפּ פון אַפּלאַקיישאַן; קיין אַפּלאַקיישאַן מיט אַ פאַקטיש-צייט סיטואַציע וואָלט דאַרפן הויך גיכקייַט ווי אַ קריטיש קאָמפּאָנענט.
פֿאַר בייַשפּיל, די בעסטער זוך רעזולטאַטן וועט ווערן ווייניקער ווערטפול אויב די אָנפֿרעג רעזולטאַטן נעמען צו לאַנג צו אָנקומען.
אויב פּערפאָרמאַנסע איז גענוצט ווי אַ טערעץ פֿאַר וואָס פּינטלעכקייַט און צוריקרופן זאָל זיין פּרייאָראַטייזד אויבן אַקיעראַסי, אַ F1 כעזשבן וועט זיין מער נוציק ווי אַקיעראַסי אין דעמאַנסטרייטינג די געשעפט פאַל פֿאַר קיין דאַטן שטעלן וואָס איז אַנבאַלאַנסט.
39. ווי וואָלט איר פירן אַ דאַטאַסעט מיט ינאַקוואַלאַטיז?
אַן אַנבאַלאַנסט דאַטאַבייס קענען נוץ פון מוסטערונג טעקניקס. סאַמפּלינג קענען זיין געטאן אין אַן אונטער אָדער אָוווערסאַמפּאַלד מאָדע.
אונטער סאַמפּלינג אַלאַוז אונדז צו ייַנשרומפּן די גרייס פון די מערהייַט קלאַס צו גלייַכן די מינאָריטעט קלאַס, וואָס אַידז אין ינקריסינג גיכקייַט מיט אַכטונג צו סטאָרידזש און לויפן-צייט דורכפירונג, אָבער קען אויך רעזולטאַט אין די אָנווער פון ווערטפול דאַטן.
אין סדר צו סגולע די אַרויסגעבן פון אינפֿאָרמאַציע אָנווער געפֿירט דורך אָוווערסאַמפּלינג, מיר ויסאַמפּאַלז די מינאָריטעט קלאַס; פונדעסטוועגן, דאָס ז אונדז צו לויפן אין אָוווערפיטינג ישוז.
נאָך סטראַטעגיעס אַרייַננעמען:
- קלאַסטער-באַזירט איבער מוסטערונג- די מינאָריטעט און מערהייַט קלאַס קאַסעס זענען ינדיווידזשואַלי אונטערטעניק צו די ק-מיטל קלאַסטערינג טעכניק אין דעם סיטואַציע. דאָס איז דורכגעקאָכט צו געפֿינען די דאַטן קלאַסטערז. דערנאָך, יעדער קנויל איז אָוווערסאַמפּאַלד אַזוי אַז אַלע קלאסן האָבן די זעלבע גרייס און אַלע קלאַסטערז אין אַ קלאַס האָבן אַן גלייַך נומער פון ינסטאַנסיז.
- SMOTE: Synthetic Minority Over-Sampling Technique - א רעפטל פון דאַטן פון די מינאָריטעט קלאַס איז געניצט ווי אַ ביישפּיל, נאָך וואָס נאָך קינסטלעך ינסטאַנסיז וואָס זענען פאַרגלייַכלעך צו עס זענען געשאפן און צוגעגעבן צו דער אָריגינעל דאַטאַסעט. דער אופֿן אַרבעט געזונט מיט נומעריק דאַטן פונקטן.
40. ווי קענען איר ויסטיילן צווישן בוסטינג און באַגינג?
אַנסאַמבאַל טעטשניקוועס האָבן ווערסיעס באקאנט ווי באַגינג און בוסטינג.
באַגעגעניש-
פֿאַר אַלגערידאַמז מיט אַ הויך ווערייישאַן, באַגינג איז אַ טעכניק געניצט צו נידעריקער די וועריאַנס. איינער אַזאַ משפּחה פון קלאַססיפיערס וואָס איז פּראָנע צו פאָרורטייל איז די באַשלוס בוים משפּחה.
דער טיפּ פון דאַטן וואָס באַשלוס ביימער זענען טריינד אויף האט אַ באַטייטיק פּראַל אויף זייער פאָרשטעלונג. ווייַל פון דעם, אפילו מיט זייער הויך פיין-טונינג, גענעראַליזיישאַן פון אַוטקאַמז איז מאל פיל מער שווער צו באַקומען אין זיי.
אויב די טריינינג דאַטן פון די באַשלוס ביימער זענען אָלטערד, די אַוטקאַמז בייַטן באטייטיק.
ווי אַ קאַנסאַקוואַנס, באַגינג איז געניצט, אין וואָס פילע באַשלוס ביימער זענען באשאפן, יעדער פון וואָס איז טריינד מיט אַ מוסטער פון אָריגינעל דאַטן, און דער סוף רעזולטאַט איז די דורכשניטלעך פון אַלע די פאַרשידענע מאָדעלס.
בוסטינג:
בוסטינג איז די טעכניק פון מאַכן פֿאָרויסזאָגן מיט אַן n-שוואַך קלאַססיפיער סיסטעם אין וואָס יעדער שוואַך קלאַססיפיער מאכט זיך פֿאַר די דיפישאַנסיז פון זייַן שטארקער קלאַססיפיערס. מיר אָפּשיקן צו אַ קלאַססיפיער וואָס פּערפאָרמז באַדלי אויף אַ געגעבן דאַטן שטעלן ווי אַ "שוואַך קלאַססיפיער."
בוסטינג איז דאָך אַ פּראָצעס אלא ווי אַ אַלגערידאַם. לאָגיסטיק ראַגרעשאַן און פּליטקע באַשלוס ביימער זענען פּראָסט ביישפילן פון שוואַך קלאַססיפיערס.
Adaboost, Gradient Boosting און XGBoost זענען די צוויי מערסט פאָלקס בוסטינג אַלגערידאַמז, אָבער עס זענען פילע מער.
41. דערקלערן די דיפעראַנסיז צווישן ינדוקטיווע און דעדוקטיווע לערנען.
ווען לערנען דורך ביישפּיל פון אַ סכום פון באמערקט ביישפילן, אַ מאָדעל ניצט ינדוקטיווע לערנען צו דערגרייכן אַ גענעראַליזעד מסקנא. אויף די אנדערע האַנט, מיט דעדוקטיווע לערנען, דער מאָדעל ניצט די רעזולטאַט איידער פאָרמינג זיין אייגענע.
ינדוקטיווע לערנען איז דער פּראָצעס פון צייכענונג קאַנקלוזשאַנז פון אַבזערוויישאַנז.
דעדוקטיווע לערנען איז דער פּראָצעס פון קריייטינג אַבזערוויישאַנז באזירט אויף ינפעראַנסאַז.
סאָף
מאַזל - טאָוו! דאָס זענען די שפּיץ 40 און העכער אינטערוויו פֿראגן פֿאַר מאַשין לערנען וואָס איר איצט וויסן די ענטפֿערס צו. דאַטאַ וויסנשאַפֿט און קינסטלעך סייכל אַקיאַפּיישאַנז וועט פאָרזעצן צו זיין אין מאָנען ווי טעכנאָלאָגיע אַדוואַנסיז.
קאַנדאַדייץ וואָס דערהייַנטיקן זייער וויסן פון די קאַטינג-ברעג טעקנאַלאַדזשיז און פֿאַרבעסערן זייער סקילז קענען געפֿינען אַ ברייט פאַרשיידנקייַט פון באַשעפטיקונג פּאַסאַבילאַטיז מיט קאַמפּעטיטיוו צאָלונג.
איר קענט פאָרזעצן צו ענטפֿערן די ינטערוויוז איצט אַז איר האָבן אַ האַרט פארשטאנד פון ווי צו ענטפֿערן עטלעכע פון די וויידלי געשטעלטע פֿראגן וועגן מאַשין לערנען אינטערוויו.
דעפּענדינג אויף דיין צילן, נעמען די פאלגענדע שריט. גרייט זיך צו אינטערוויוען דורך באזוכן Hashdork's אינטערוויו סעריע.
לאָזן אַ ענטפֿערן