א אָנהייבער גייד צו סקיקיט-לערנען

טיש פון קאָנטענץ[באַהאַלטן][ווייַזן]

וואָס איז Sikit-לערן?
אַפּפּליקאַטיאָנס פון די Sikit-לערן ביבליאָטעק+-
ינסטאָלינג Scikit-Learn
איינריכטונגען +-
פּראָס
קאָנס
סאָף

אויב איר זענט אַ פּיטהאָן פּראָגראַמיסט אָדער איר זוכט פֿאַר אַ שטאַרק טאָאָלקיט צו באַקענען מאַשין לערנען אין אַ פּראָדוקציע סיסטעם, Scikit-לערן איז אַ ביבליאָטעק וואָס איר דאַרפֿן צו קאָנטראָלירן.

Scikit-learn איז געזונט-דאַקיאַמענטאַד און פּשוט צו נוצן, צי איר זענט נייַ אין מאַשין לערנען, איר ווילן צו באַקומען אַרויף און פליסנדיק געשווינד אָדער ווילן צו נוצן די מערסט דערהייַנטיקט ML פאָרשונג געצייַג.

עס אַלאַוז איר צו בויען אַ פּרידיקטיוו דאַטן מאָדעל אין בלויז אַ ביסל שורות פון קאָד און דאַן ניצט דעם מאָדעל צו פּאַסן דיין דאַטן ווי אַ הויך-מדרגה ביבליאָטעק. עס איז פלעקסאַבאַל און אַרבעט געזונט מיט אנדערע פּיטהאָן לייברעריז ווי Matplotlib פֿאַר טשאַרטינג, NumPy פֿאַר מענגע וועקטאָריזאַטיאָן און פּאַנדאַס פֿאַר דאַטן וויזשוואַלאַזיישאַן.

אין דעם וועגווייַזער, איר וועט געפֿינען אַלע וועגן וואָס עס איז, ווי איר קענען נוצן עס, מיט די פּראָס און קאָנס.

וואָס איז לערנען-לערנען?

Scikit-learn (אויך באקאנט ווי סקלעאַרן) אָפפערס אַ דייווערס גאַנג פון סטאַטיסטיש מאָדעלס און מאַשין לערנען. ניט ענלעך רובֿ מאַדזשולז, סקלעאַרן איז דעוועלאָפּעד אין פּיטהאָן אלא ווי C. טראָץ זייַענדיק דעוועלאָפּעד אין פּיטהאָן, די עפעקטיווקייַט פון סקלעאַרן איז אַסקרייבד צו זייַן נוצן פון NumPy פֿאַר הויך-פאָרשטעלונג לינעאַר אַלגעבראַ און מענגע אַפּעריישאַנז.

Scikit-Learn איז באשאפן ווי אַ טייל פון Google ס זומער פון קאָוד פּרויעקט און האט זינט געמאכט די לעבן פון מיליאַנז פון פּיטהאָן-סענטריק דאַטן סייאַנטיס איבער די וועלט סימפּלער. דער אָפּטיילונג פון דער סעריע פאָוקיסיז אויף פּריזענטינג די ביבליאָטעק און פאָוקיסינג אויף איין עלעמענט - דאַטאַסעט טראַנספערמיישאַנז, וואָס זענען אַ שליסל און וויטאַל שריט צו נעמען איידער איר אַנטוויקלען אַ פּראָגנאָז מאָדעל.

סקלעאַרן

די ביבליאָטעק איז באזירט אויף SciPy (וויסנשאפטלעכע פּיטהאָן), וואָס מוזן זיין אינסטאַלירן איידער איר קענען נוצן sikit-learn. דעם סטאַק כּולל די פאלגענדע זאכן:

NumPy: Python ס נאָרמאַל n-דימענשאַנאַל מענגע פּעקל
SciPy: עס איז אַ פונדאַמענטאַל פּעקל פֿאַר וויסנשאפטלעכע קאַמפּיוטינג
פּאַנדאַס: דאַטאַ סטראַקטשערז און אַנאַליסיס
Matplotlib: עס איז אַ שטאַרק 2D/3D פּלאַטינג ביבליאָטעק
סימפּי: סימבאָליש מאטעמאטיק
IPython: ימפּרוווד ינטעראַקטיוו קאַנסאָול

אַפּפּליקאַטיאָנס פון די Sikit-לערן ביבליאָטעק

Scikit-Learn איז אַן אָפֿן-מקור פּיטהאָן פּעקל מיט סאַפיסטאַקייטיד דאַטן אַנאַליסיס און מיינינג פֿעיִקייטן. עס קומט מיט אַ שעפע פון געבויט-אין אַלגערידאַמז צו העלפֿן איר באַקומען די מערסט אויס פון דיין דאַטן וויסנשאַפֿט פּראַדזשעקס. די Sikit-לערן ביבליאָטעק איז געניצט אין די פאלגענדע וועגן.

1. רעגרעססיאָן

רעגרעססיאָן אַנאַליסיס איז אַ סטאַטיסטיש טעכניק פֿאַר אַנאַלייזינג און באַגרייַפן די קשר צווישן צוויי אָדער מער וועריאַבאַלז. דער אופֿן געניצט צו טאָן ראַגרעשאַן אַנאַליסיס אַידז אין דיטערמאַנינג וואָס עלעמענטן זענען באַטייַטיק, וואָס קען זיין איגנאָרירט און ווי זיי ינטעראַקט. רעגרעססיאָן טעקניקס, פֿאַר בייַשפּיל, קען זיין געניצט צו בעסער פֿאַרשטיין די נאַטור פון לאַגער פּרייסיז.

ראַגרעשאַן אַלגערידאַמז אַרייַננעמען:

לינעאַר רעגרעססיאָן
רידזש רעגרעססיאָן
לאַססאָ רעגרעססיאָן
באַשלוס טרי רעגרעססיאָן
טראַפ פאָרעסט
שטיצן וועקטאָר מאשינען (SVM)

2. קלאַסאַפאַקיישאַן

די קלאַסאַפאַקיישאַן אופֿן איז אַ סופּערווייזד לערנען צוגאַנג וואָס ניצט טריינינג דאַטן צו ידענטיפיצירן די קאַטעגאָריע פון פריש אַבזערוויישאַנז. אַן אַלגערידאַם אין קלאַססיפיקאַטיאָן לערנט פון אַ געגעבן דאַטאַבאַסע אָדער אַבזערוויישאַנז און דעמאָלט קלאַסאַפייז נאָך אַבזערוויישאַנז אין איינער פון פילע קלאסן אָדער גרופּעס. זיי קענען, למשל, ווערן גענוצט צו קלאַסיפיצירן E- בריוו קאָמוניקאַציע ווי ספּאַם אָדער נישט.

קלאַסאַפאַקיישאַן אַלגערידאַמז אַרייַננעמען די פאלגענדע:

לאָגיסטיק רעגרעססיאָן
ק - ניראַסט שכנים
שטיצן וועקטאָר מאַשין
באַשלוס טרי
טראַפ פאָרעסט

3. קלאַסטערינג

די קלאַסטערינג אַלגערידאַמז אין Scikit-לערן זענען געניצט צו אויטאָמאַטיש צולייגן דאַטן מיט ענלעך פּראָפּערטיעס אין שטעלט. קלאַסטערינג איז דער פּראָצעס פון גרופּינג אַ סכום פון זאכן אַזוי אַז יענע אין דער זעלביקער גרופּע זענען מער ענלעך צו די אין אנדערע גרופּעס. קונה דאַטן, למשל, קען זיין אפגעשיידט באזירט אויף זייער אָרט.

קלאַסטערינג אַלגערידאַמז אַרייַננעמען די פאלגענדע:

דב-סקאַן
ק-מיטלען
מיני-באַטש ק-מיטל
ספּעקטראַל קלאַסטערינג

4. מאָדעל סעלעקציע

מאָדעל סעלעקציע אַלגערידאַמז צושטעלן מעטהאָדס פֿאַר קאַמפּערינג, וואַלאַדייטינג און סאַלעקטינג די אָפּטימאַל פּאַראַמעטערס און מאָדעלס פֿאַר נוצן אין דאַטן וויסנשאַפֿט ינישאַטיווז. געגעבן דאַטן, מאָדעל סעלעקציע איז די פּראָבלעם פון פּיקינג אַ סטאַטיסטיש מאָדעל פון אַ גרופּע פון קאַנדידאַט מאָדעלס. אין די מערסט יקערדיק צושטאנדן, אַ פאַר-יגזיסטינג זאַמלונג פון דאַטן איז גענומען אין חשבון. אָבער, די אַרבעט קען אויך אַרייַננעמען די פּלאַן פון יקספּעראַמאַנץ אַזוי אַז די דאַטן קונה איז געזונט פּאַסיק פֿאַר די מאָדעל סעלעקציע פּראָבלעם.

מאָדעל סעלעקציע מאַדזשולז וואָס קענען פֿאַרבעסערן די אַקיעראַסי דורך אַדזשאַסטינג פּאַראַמעטערס אַרייַננעמען:

קרייז-וואַלאַדיישאַן
גריד זוך
מעטריקס

5. דימענשאַנאַליטי רעדוקציע

די אַריבערפירן פון דאַטן פון אַ הויך-דימענשאַנאַל פּלאַץ צו אַ נידעריק-דימענשאַנאַל פּלאַץ אַזוי אַז די נידעריק-דימענשאַנאַל פאַרטרעטונג פּראַזערווז עטלעכע באַטייַטיק אַספּעקץ פון דער אָריגינעל דאַטן, יידילי נאָענט צו זיין טאָכיק ויסמעסטונג, איז באקאנט ווי דימענשאַנאַליטי רעדוקציע. די נומער פון טראַפ וועריאַבאַלז פֿאַר אַנאַליסיס איז רידוסט ווען די דימענשאַנאַליטי איז רידוסט. אַוטלייינג דאַטן, פֿאַר בייַשפּיל, קען נישט זיין קאַנסידערד צו פֿאַרבעסערן די עפעקטיווקייַט פון וויזשוואַלאַזיישאַנז.

דימענסיאָנאַלאַטי רעדוקציע אַלגערידאַם כולל די פאלגענדע:

Feature selection
הויפּט קאַמפּאָונאַנץ אַנאַליסיס (פּקאַ)

ינסטאָלינג Scikit-Learn

NumPy, SciPy, Matplotlib, IPython, Sympy און Pandas זענען פארלאנגט צו זיין אינסטאַלירן איידער ניצן Scikit-Learn. לאָמיר ינסטאַלירן זיי מיט פּיפּ פֿון די קאַנסאָול (אַרבעט בלויז פֿאַר Windows).

ינסטאַלירן

לאָמיר ינסטאַלירן Scikit-לערן איצט אַז מיר האָבן אינסטאַלירן די פארלאנגט לייברעריז.

ינסטאַלירן סקלעאַרן

איינריכטונגען

Scikit-learn, מאל באקאנט ווי sklearn, איז אַ פּיטהאָן מכשירים פֿאַר ימפּלאַמענינג מאַשין לערנען מאָדעלס און סטאַטיסטיש מאָדעלינג. מיר קענען נוצן עס צו שאַפֿן קייפל מאַשין לערנען מאָדעלס פֿאַר ראַגרעשאַן, קלאַסאַפאַקיישאַן און קלאַסטערינג, ווי געזונט ווי סטאַטיסטיש מכשירים פֿאַר אַססעסס די מאָדעלס. עס אויך כולל דימענשאַנאַליטי רעדוקציע, שטריך סעלעקציע, שטריך יקסטראַקשאַן, אַנסאַמבאַל אַפּראָוטשיז און געבויט-אין דאַטאַסעץ. מיר וועלן פאָרשן יעדער פון די קוואַלאַטיז איינער אין אַ צייַט.

1. ימפּאָרטינג דאַטאַסעטס

Scikit-לערן כולל אַ נומער פון פאַר-געבויט דאַטאַסעץ, אַזאַ ווי די יריס דאַטאַסעט, היים פּרייַז דאַטאַסעט, טיטאַניק דאַטאַסעט, און אַזוי אויף. די הויפּט אַדוואַנטאַגעס פון די דאַטאַסעץ זענען אַז זיי זענען פּשוט צו אָנכאַפּן און קענען זיין געוויינט צו גלייך אַנטוויקלען ML מאָדעלס. די דאַטאַסעץ זענען פּאַסיק פֿאַר נאַוואַסיז. סימילאַרלי, איר קענט נוצן סקלעאַרן צו אַרייַנפיר נאָך דאַטאַסעץ. סימילאַרלי, איר קען נוצן עס צו אַרייַנפיר נאָך דאַטאַסעץ.

דאַטאַסעט

2. ספּליטינג דאַטאַסעט פֿאַר טראַינינג און טעסטינג

Sklearn ינקלודעד די פיייקייט צו טיילן די דאַטאַסעט אין טריינינג און טעסטינג סעגמאַנץ. ספּליטינג די דאַטאַסעט איז פארלאנגט פֿאַר אַן אַנבייאַסט אַסעסמאַנט פון פּראָגנאָז פאָרשטעלונג. מיר קענען ספּעציפיצירן ווי פיל פון אונדזער דאַטן זאָל זיין אַרייַנגערעכנט אין די באַן און פּרובירן דאַטאַסעץ. מיר צעטיילט די דאַטאַסעט מיט באַן פּראָבע שפּאַלטן אַזוי אַז די באַן שטעלן קאַמפּרייזיז 80% פון די דאַטן און די פּרובירן שטעלן האט 20%. די דאַטן קענען זיין צעטיילט ווי גייט:

שפּאַלטן

3. לינעאַר רעגרעססיאָן

לינעאַר רעגרעססיאָן איז אַ סופּערווייזד לערנען-באזירט מאַשין לערנען טעכניק. עס קאַריז אַ רעגרעססיאָן אַרבעט. באַזירט אויף פרייַ וועריאַבאַלז, ראַגרעשאַן מאָדעלס אַ ציל פאָרויסזאָגן ווערט. עס איז מערסטנס געניצט צו באַשליסן די פֿאַרבינדונג צווישן וועריאַבאַלז און פּרידיקטינג. פאַרשידענע ראַגרעשאַן מאָדעלס זענען אַנדערש אין טערמינען פון די טיפּ פון קשר זיי אָפּשאַצן צווישן אָפענגיק און פרייַ וועריאַבאַלז, ווי געזונט ווי די נומער פון פרייַ וועריאַבאַלז יוטאַלייזד. מיר קענען פשוט מאַכן די לינעאַר רעגרעססיאָן מאָדעל ניצן סקלעאַרן ווי גייט:

לינעאַר רעגרעססיאָן

4. לאָגיסטיק רעגרעססיאָן

א פּראָסט קאַטאַגעריזיישאַן צוגאַנג איז לאָגיסטיק ראַגרעשאַן. עס איז אין דער זעלביקער משפּחה ווי פּאָלינאָמיאַל און לינעאַר ראַגרעשאַן און געהערט צו די לינעאַר קלאַסאַפייער משפּחה. די פיינדינגז פון לאָגיסטיק ראַגרעשאַן זענען פּשוט צו באַגרייַפן און זענען שנעל צו רעכענען. אין דער זעלביקער וועג ווי לינעאַר ראַגרעשאַן, לאָגיסטיק ראַגרעשאַן איז אַ סופּערווייזד ראַגרעשאַן טעכניק. דער רעזולטאַט בייַטעוודיק איז קאַטאַגאָריקאַל, אַזוי דאָס איז דער בלויז חילוק. עס קענען באַשטימען צי אַ פּאַציענט האט אַ קאַרדיאַק קרענק אָדער נישט.

פאַרשידן קלאַסאַפאַקיישאַן ישוז, אַזאַ ווי ספּאַם דיטעקשאַן, קען זיין סאַלווד מיט לאָגיסטיק ראַגרעשאַן. דייאַבעטיקס פאָרויסזאָגן, דיטערמאַנינג אויב אַ קאָנסומער וועט קויפן אַ ספּעציפיש פּראָדוקט אָדער באַשטימען צו אַ קאָנקורענט, דיטערמאַנינג צי אַ באַניצער וועט גיט אויף אַ ספּעציפיש פֿאַרקויף לינק, און פילע מער סינעריאָוז זענען בלויז עטלעכע ביישפילן.

לאָגיסטיק רעגרעססיאָן

5. באַשלוס טרי

די מערסט שטאַרק און וויידלי געניצט קלאַסאַפאַקיישאַן און פּראָגנאָז טעכניק איז דער באַשלוס בוים. א באַשלוס בוים איז אַ בוים סטרוקטור וואָס קוקט ווי אַ פלאָווטשאַרט, מיט יעדער ינערלעך נאָדע רעפּריזענטינג אַ פּראָבע אויף אַן אַטריביוט, יעדער צווייַג רעפּריזענטינג די מסקנא פון די פּראָבע, און יעדער בלאַט נאָדע (וואָקזאַל נאָדע) האלטן אַ קלאַס פירמע.

ווען די אָפענגיק וועריאַבאַלז טאָן ניט האָבן אַ לינעאַר שייכות מיט די פרייַ וועריאַבאַלז, ד"ה ווען לינעאַר ראַגרעשאַן טוט נישט פּראָדוצירן ריכטיק פיינדינגז, באַשלוס ביימער זענען וווילטויק. די DecisionTreeRegression() כייפעץ קען זיין געוויינט אין אַ ענלעך וועג צו נוצן אַ באַשלוס בוים פֿאַר ראַגרעשאַן.

באַשלוס טרי

6. טראַפ פאָרעסט

א ראנדאמע װאלד איז א מאַשין וויסן צוגאַנג פֿאַר סאַלווינג ראַגרעשאַן און קלאַסאַפאַקיישאַן ישוז. עס ניצט אַנסאַמבאַל לערנען, וואָס איז אַ טעכניק וואָס קאַמביינז קייפל קלאַססיפיערס צו סאָלווע קאָמפּליצירט פּראָבלעמס. א טראַפ - וואַלד אופֿן איז געמאכט פון אַ גרויס נומער פון באַשלוס ביימער. עס קען זיין גענוצט צו קאַטאַגערייז אַנטלייַען אַפּלאַקיישאַנז, דעטעקט פראָדזשאַלאַנט נאַטור און אַנטיסאַפּייט די ויסברוך פון קרענק.

טראַפ פאָרעסט

7. צעמישונג מאַטריץ

א צעמישונג מאַטריץ איז אַ טיש געניצט צו באַשרייַבן קלאַסאַפאַקיישאַן מאָדעל פאָרשטעלונג. די פאלגענדע פיר ווערטער זענען געניצט צו ונטערזוכן די צעמישונג מאַטריץ:

אמת positive: עס סיגנאַפייז אַז דער מאָדעל פּראַדזשעקטאַד אַ גינציק רעזולטאַט און עס איז געווען ריכטיק.
אמת נעגאַטיוו: עס סיגנאַפייז אַז דער מאָדעל פּראַדזשעקטאַד אַ שלעכט רעזולטאַט און עס איז געווען ריכטיק.
פאַלש positive: עס סיגנאַפייז אַז דער מאָדעל דערוואַרט אַ גינציק רעזולטאַט, אָבער עס איז טאַקע אַ נעגאַטיוו.
פאַלש נעגאַטיוו: עס סיגנאַפייז אַז דער מאָדעל דערוואַרט אַ נעגאַטיוו רעזולטאַט, בשעת די רעזולטאַט איז טאַקע positive.

צעמישונג מאַטריץ פאָטאָ

ימפּלאַמענטיישאַן פון צעמישונג מאַטריץ:

צעמישונג מעטריקס

פּראָס

עס ס פּשוט צו נוצן.
די Sikit-לערן פּעקל איז גאָר אַדאַפּטאַבאַל און נוציק, און דינען פאַקטיש-וועלט גאָולז אַזאַ ווי פּראָגנאָז פון קאַנסומער נאַטור, נעוראָימאַגע אַנטוויקלונג, און אַזוי אַרויס.
יוזערז וואָס ווילן צו פאַרבינדן די אַלגערידאַמז מיט זייער פּלאַטפאָרמס וועט געפֿינען דיטיילד אַפּי דאַקיומענטיישאַן אויף די Sikit-לערן וועבזייטל.
פילע מחברים, מיטאַרבעטער און אַ גרויס ווערלדווייד אָנליין קהל שטיצן און האַלטן Scikit-לערן דערהייַנטיקט.

קאָנס

דאָס איז נישט די ידעאַל אָפּציע פֿאַר טיף לערנען.

סאָף

Scikit-Learn איז אַ קריטיש פּעקל פֿאַר יעדער דאַטן געלערנטער צו האָבן אַ שטאַרק אָנכאַפּן און דערפאַרונג מיט. דער פירער זאָל העלפֿן איר מיט דאַטן מאַניפּיאַליישאַן ניצן סקלעאַרן. עס זענען פילע מער קייפּאַבילאַטיז פון Scikit-לערן אַז איר וועט אַנטדעקן ווען איר פּראָגרעס דורך דיין דאַטן וויסנשאַפֿט פּאַסירונג. ייַנטיילן דיין געדאנקען אין די באַמערקונגען.

א אָנהייבער ס גייד צו סקיקיט-לערנען

וואָס איז לערנען-לערנען?