טיש פון קאָנטענץ[באַהאַלטן][ווייַזן]
אין דער היינטיקער געזעלשאפט איז דאטא וויסנשאפט זייער וויכטיק!
אַזוי פיל אַז דאַטן געלערנטער איז קראַונד די "סעקסיעסט דזשאָב פון די XNUMX יאָרהונדערט," טראָץ קיין איינער דערוואַרטן גיקי דזשאָבס צו זיין סעקסי!
אָבער, ווייַל פון די ריזיק וויכטיקייט פון דאַטן, דאַטאַ וויסנשאַפֿט איז גאַנץ פאָלקס רעכט איצט.
פּיטהאָן, מיט זיין סטאַטיסטיש אַנאַליסיס, דאַטן מאָדעלינג און רידאַביליטי, איז איינער פון די בעסטער פּראָגראַממינג שפּראַכן פֿאַר יקסטראַקטינג ווערט פון דעם דאַטן.
פּיטהאָן קיינמאָל סיסיז צו אַמייז זייַן פּראָוגראַמערז ווען עס קומט צו אָוווערקאַמינג דאַטן וויסנשאַפֿט טשאַלאַנדזשיז. עס איז אַ וויידלי געוויינט, אָביעקט-אָריענטיד, אָפֿן-מקור, הויך-פאָרשטעלונג פּראָגראַממינג שפּראַך מיט אַ פאַרשיידנקייַט פון נאָך פֿעיִקייטן.
פּיטהאָן איז דיזיינד מיט מערקווירדיק לייברעריז פֿאַר דאַטן וויסנשאַפֿט וואָס פּראָוגראַמערז נוצן יעדער טאָג צו סאָלווע שוועריקייטן.
דאָ זענען די בעסטער פּיטהאָן לייברעריז צו באַטראַכטן:
1. פּאַנדאַס
Pandas איז אַ פּעקל דיזיינד צו אַרוישעלפן דעוועלאָפּערס אין ארבעטן מיט "לייבאַלד" און "ריליישאַנאַל" דאַטן אויף אַ נאַטירלעך שטייגער. עס איז געבויט אויף צוויי הויפּט דאַטן סטראַקטשערז: "סעריע" (איין-דימענשאַנאַל, ענלעך צו אַ רשימה פון אַבדזשעקץ) און "דאַטאַ ראָמען" (צוויי-דימענשאַנאַל, ווי אַ טיש מיט קייפל שפאלטן).
פּאַנדאַס שטיצן קאַנווערטינג דאַטן סטראַקטשערז צו דאַטאַפראַמע אַבדזשעקץ, האַנדלינג מיט פעלנדיק דאַטן, אַדינג / ויסמעקן שפאלטן פון דאַטאַפראַמע, ימפּיוטינג פעלנדיק טעקעס, און וויזשוואַלייזינג דאַטן ניצן כיסטאַגראַמז אָדער פּלאַנעווען באָקסעס.
עס אויך גיט אַ נומער פון מכשירים פֿאַר לייענען און שרייבן דאַטן צווישן אין-זיקאָרן דאַטן סטראַקטשערז און עטלעכע טעקע פֿאָרמאַטירונגען.
אין אַ נאַטשעל, עס איז ידעאַל פֿאַר גיך און פּשוט דאַטן פּראַסעסינג, דאַטן אַגגרעגאַטיאָן, דאַטן לייענען און שרייבן, און דאַטן וויזשוואַלאַזיישאַן. ווען איר שאַפֿן אַ דאַטן וויסנשאַפֿט פּרויעקט, איר וועט שטענדיק נוצן די Pandas חיה ביבליאָטעק צו שעפּן און אַנאַלייז דיין דאַטן.
2. נאַמפּי
NumPy (נומעריקאַל פּיטהאָן) איז אַ פאַנטאַסטיש געצייַג פֿאַר וויסנשאפטלעכע קאַמפּיאַטיישאַנז און יקערדיק און סאַפיסטאַקייטיד מענגע אַפּעריישאַנז.
די ביבליאָטעק גיט אַ נומער פון נוציק פֿעיִקייטן פֿאַר ארבעטן מיט n-ערייז און מאַטריסיז אין פּיטהאָן.
עס מאכט עס גרינגער צו פּראָצעס ערייז וואָס אַנטהאַלטן וואַלועס פון די זעלבע דאַטן טיפּ און דורכפירן אַריטמעטיק אַפּעריישאַנז אויף ערייז (אַרייַנגערעכנט וועקטאָריזאַטיאָן). אין פאַקט, ניצן די NumPy מענגע טיפּ צו וועקטוריזע מאַטאַמאַטיקאַל אַפּעריישאַנז ימפּרוווז פאָרשטעלונג און דיקריסאַז די דורכפירונג צייט.
די שטיצן פֿאַר מולטידימענסיאָנאַל ערייז פֿאַר מאַטאַמאַטיקאַל און לאַדזשיקאַל אַפּעריישאַנז איז די האַרץ שטריך פון דער ביבליאָטעק. NumPy פאַנגקשאַנז קענען ווערן גענוצט צו אינדעקס, סאָרט, רישאַפּע און יבערגעבן וויזשוואַלז און געזונט כוואליעס ווי אַ מולטידימענסיאָנאַל מענגע פון פאַקטיש נומערן.
3. matplotlib
אין די פּיטהאָן וועלט, Matplotlib איז איינער פון די מערסט געוויינט לייברעריז. עס איז געניצט צו דזשענערייט סטאַטיק, אַנימאַטעד און ינטעראַקטיוו דאַטן וויזשוואַלאַזיישאַנז. Matplotlib האט אַ פּלאַץ פון טשאַרטינג און קוסטאָמיזאַטיאָן אָפּציעס.
ניצן כיסטאַגראַמז, פּראָוגראַמערז קענען צעוואָרפן, טוויק און רעדאַגירן גראַפס. די אָפֿן-מקור ביבליאָטעק גיט אַן אָביעקט-אָריענטיד אַפּי פֿאַר אַדינג פּלאַץ אין מגילה.
ווען איר נוצן דעם ביבליאָטעק צו דזשענערייט קאָמפּלעקס וויזשוואַלאַזיישאַנז, דעוועלאָפּערס מוזן שרייַבן מער קאָד ווי נאָרמאַל.
עס איז כדאי צו באמערקן אַז פאָלקס טשאַרטינג לייברעריז קאָואַגזיסט מיט Matplotlib אָן אַ צוטשעפּען.
צווישן אנדערע זאכן, עס איז געניצט אין פּיטהאָן סקריפּס, פּיטהאָן און יפּיטהאָן שעלז, דזשופּיטער נאָוטבוקס, און וועב אַפּלאַקיישאַן סערווערס.
פּלאָץ, באַר טשאַרץ, פּיראָג טשאַרץ, כיסטאַגראַמז, צעוואָרפן פּלאָץ, טעות טשאַרץ, מאַכט ספּעקטראַ, סטעמפּלאָץ און קיין אנדערע סאָרט פון וויזשוואַלאַזיישאַן טשאַרט קענען זיין באשאפן מיט אים.
4. Seaborn
די Seaborn ביבליאָטעק איז געבויט אויף Matplotlib. Seaborn קענען ווערן גענוצט צו מאַכן מער אַטראַקטיוו און ינפאָרמאַטיוו סטאַטיסטיש גראַפס ווי Matplotlib.
Seaborn כולל אַן ינאַגרייטיד דאַטן שטעלן-אָריענטיד אַפּי פֿאַר ינוועסטאַגייטינג די ינטעראַקשאַנז צווישן פילע וועריאַבאַלז, אין אַדישאַן צו פול שטיצן פֿאַר דאַטן וויזשוואַלאַזיישאַן.
Seaborn אָפפערס אַ סטאַגערינג נומער פון אָפּציעס פֿאַר דאַטן וויזשוואַלאַזיישאַן, אַרייַנגערעכנט צייט-סעריע וויזשוואַלאַזיישאַן, שלאָס פּלאַץ, פֿידל דייאַגראַמז און פילע אנדערע.
עס ניצט סעמאַנטיק מאַפּינג און סטאַטיסטיש אַגגרעגאַטיאָן צו צושטעלן ינפאָרמאַטיוו וויזשוואַלאַזיישאַנז מיט טיף ינסייץ. עס כולל אַ נומער פון דאַטאַטאַס-אָריענטיד טשאַרטינג רוטינז וואָס אַרבעט מיט דאַטן ראָמען און ערייז וואָס אַנטהאַלטן גאַנץ דאַטאַסעץ.
זייַן דאַטן וויזשוואַלאַזיישאַנז קענען אַרייַננעמען באַר טשאַרץ, פּיראָג טשאַרץ, כיסטאַגראַמז, סקאַטערפּלאָץ, טעות טשאַרץ און אנדערע גראַפיקס. די פּיטהאָן דאַטן וויזשוואַלאַזיישאַן ביבליאָטעק אויך כולל מכשירים פֿאַר סאַלעקטינג קאָליר פּאַלעטטעס, וואָס העלפֿן צו ופדעקן טרענדס אין אַ דאַטאַסעט.
5. לערנען-לערנען
Scikit-Learn איז די גרעסטע פּיטהאָן ביבליאָטעק פֿאַר דאַטן מאָדעלינג און מאָדעל אַסעסמאַנט. עס איז איינער פון די מערסט נוציק פּיטהאָן לייברעריז. עס האט אַ שעפע פון קייפּאַבילאַטיז דיזיינד בלויז פֿאַר די ציל פון מאָדעלינג.
עס כולל אַלע סופּערווייזד און ונסופּערוויסעד מאַשין לערנען אַלגערידאַמז, ווי געזונט ווי גאָר-דיפיינד אַנסאַמבאַל לערנען און בוסטינג מאַשין לערנען פאַנגקשאַנז.
עס איז געניצט דורך דאַטן סייאַנטיס צו טאָן רוטין מאַשין וויסן און דאַטן מיינינג אַקטיוויטעטן אַזאַ ווי קלאַסטערינג, ראַגרעשאַן, מאָדעל סעלעקציע, דימענשאַנאַליטי רעדוקציע און קלאַסאַפאַקיישאַן. עס אויך קומט מיט פולשטענדיק דאַקיומענטיישאַן און פּערפאָרמז אַדמראַבלי.
Scikit-לערן קענען ווערן גענוצט צו שאַפֿן אַ פאַרשיידנקייַט פון סופּערווייזד און ונסופּערוויסעד מאַשין לערנען מאָדעלס אַזאַ ווי קלאַסאַפאַקיישאַן, רעגרעססיאָן, שטיצן וועקטאָר מאשינען, טראַפ פאָראַס, ניראַסט שכנים, נאַיוו בייעס, באַשלוס ביימער, קלאַסטערינג, און אַזוי אויף.
די פּיטהאָן מאַשין לערנען ביבליאָטעק כולל אַ פאַרשיידנקייַט פון פּשוט-נאָך עפעקטיוו מכשירים פֿאַר פּערפאָרמינג דאַטן אַנאַליסיס און מיינינג טאַסקס.
פֿאַר ווייַטער לייענען, דאָ ס אונדזער פירער אויף סקיקיט-לערן.
6. XGBoost
XGBoost איז אַ דיסטריביוטיד גראַדיענט בוסטינג טאָאָלקיט דיזיינד פֿאַר גיכקייַט, בייגיקייַט און פּאָרטאַביליטי. צו אַנטוויקלען ML אַלגערידאַמז, עס ניצט די גראַדיענט בוסטינג פריימווערק. XGBoost איז אַ שנעל און פּינטלעך פּאַראַלעל בוים בוסטינג טעכניק וואָס קענען סאָלווע אַ ברייט קייט פון דאַטן וויסנשאַפֿט פּראָבלעמס.
ניצן די גראַדיענט בוסטינג פריימווערק, די ביבליאָטעק קענען ווערן גענוצט צו שאַפֿן מאַשין לערנען אַלגערידאַמז.
עס כולל פּאַראַלעל בוים בוסטינג, וואָס אַידז טימז אין סאַלווינג אַ פאַרשיידנקייַט פון דאַטן וויסנשאַפֿט ישוז. אן אנדער נוץ איז אַז דעוועלאָפּערס קענען נוצן די זעלבע קאָד פֿאַר Hadoop, SGE און MPI.
עס איז אויך פאַרלאָזלעך אין ביידע פונאנדערגעטיילט און זיקאָרן קאַנסטריינד סיטואַטיאָנס.
7. טענסאָרפלאָוו
TensorFlow איז אַ פריי עפֿענען-מקור אַי פּלאַטפאָרמע מיט אַ גרויס קייט פון מכשירים, לייברעריז און רעסורסן. TensorFlow מוזן זיין באַקאַנט צו ווער עס יז וואָס אַרבעט אויף מאַשין לערנען פּראַדזשעקס אין פּיטהאָן.
עס איז אַן אָפֿן-מקור סימבאָליש מאַט מכשירים פֿאַר נומעריקאַל כעזשבן ניצן דאַטן לויפן גראַפס דעוועלאָפּעד דורך Google. די גראַפיק נאָודז פאַרטראַכטנ זיך די מאַטאַמאַטיקאַל פּראַסעסאַז אין אַ טיפּיש TensorFlow דאַטן לויפן גראַפיק.
די גראַפיק עדזשאַז, אויף די אנדערע האַנט, זענען די מולטידימענסיאָנאַל דאַטן ערייז, אויך באקאנט ווי טענסער, וואָס לויפן צווישן די נעץ נאָודז. עס לעץ פּראָוגראַמערז פאַרשפּרייטן פּראַסעסינג צווישן איינער אָדער מער קפּוס אָדער גפּוס אויף אַ דעסקטאַפּ, רירעוודיק מיטל אָדער סערווער אָן טשאַנגינג קאָד.
TensorFlow איז דעוועלאָפּעד אין C און C ++. מיט TensorFlow, איר קענען פשוט פּלאַן און באַן מאַשין לערנען מאָדעלס ניצן הויך-מדרגה אַפּיס ווי קעראַס.
עס אויך האט פילע אַבסטראַקציע דיגריז, אַלאַוינג איר צו אויסקלייַבן די בעסטער לייזונג פֿאַר דיין מאָדעל. TensorFlow אויך אַלאַוז איר צו נוצן מאַשין לערנען מאָדעלס צו די וואָלקן, אַ בלעטערער אָדער דיין אייגענע מיטל.
עס איז די מערסט עפעקטיוו געצייַג פֿאַר דזשאָבס ווי כייפעץ דערקענונג, רעדע דערקענונג און פילע אנדערע. עס אַידז אין דער אַנטוויקלונג פון קינסטלעך נוראַל נעטוואָרקס וואָס מוזן האַנדלען מיט פילע דאַטן קוואלן.
דאָ איז אונדזער שנעל פירער אויף TensorFlow פֿאַר ווייַטער לייענען.
8. קעראַס
Keras איז אַ פריי און אָפֿן מקור פּיטהאָן-באזירט נעוראַל נעץ טאָאָלקיט פֿאַר קינסטלעך סייכל, טיף לערנען און דאַטן וויסנשאַפֿט אַקטיוויטעטן. נעוראַל נעטוואָרקס זענען אויך געניצט אין דאַטאַ וויסנשאַפֿט צו טייַטשן אָבסערוואַטיאָנאַל דאַטן (פאָטאָס אָדער אַודיאָ).
עס איז אַ זאַמלונג פון מכשירים פֿאַר קריייטינג מאָדעלס, גראַפינג דאַטן און יוואַליוייטינג דאַטן. עס אויך כולל פאַר-לייבאַלד דאַטאַסעץ וואָס קענען זיין ימפּאָרטיד און לאָודיד געשווינד.
עס איז גרינג צו נוצן, ווערסאַטאַל און ידעאַל פֿאַר יקספּלאָראַטאָרי פאָרשונג. דערצו, עס אַלאַוז איר צו שאַפֿן גאָר פארבונדן, קאָנוואָלוטיאָנאַל, פּולינג, ריקעראַנט, עמבעדדינג און אנדערע פארמען פון נעוראַל נעטוואָרקס.
די מאָדעלס קענען זיין מערדזשד צו בויען אַ פול-פלעדזשד נעוראַל נעטוואָרק פֿאַר ריזיק דאַטן שטעלט און ישוז. עס איז אַ פאַנטאַסטיש ביבליאָטעק פֿאַר מאָדעלינג און קריייטינג נעוראַל נעטוואָרקס.
עס איז פּשוט צו נוצן און גיט דעוועלאָפּערס אַ פּלאַץ פון בייגיקייט. קעראַס איז פויל אין פאַרגלייַך מיט אנדערע פּיטהאָן מאַשין לערנען פּאַקאַדזשאַז.
דאָס איז ווייַל עס ערשטער דזשענערייץ אַ קאַמפּיוטיישאַנאַל גראַפיק ניצן די באַקענד ינפראַסטראַקטשער און דערנאָך ניצט עס צו דורכפירן אַפּעריישאַנז. קעראַס איז ינקרעדאַבלי יקספּרעסיוו און אַדאַפּטאַבאַל ווען עס קומט צו טאן נייַע פאָרשונג.
9. פּיטאָרטש
PyTorch איז אַ פאָלקס פּיטהאָן פּעקל פֿאַר טיף לערנען און מאַשין לערנען. עס איז אַ פּיטהאָן-באזירט אָפֿן-מקור וויסנשאפטלעכע קאַמפּיוטינג ווייכווארג פֿאַר ימפּלאַמענינג דיפּ לערנען און נעוראַל נעטוואָרקס אויף ריזיק דאַטאַסעץ.
Facebook מאכט ברייט נוצן פון דעם טאָאָלקיט צו שאַפֿן נעוראַל נעטוואָרקס וואָס אַרוישעלפן אין אַקטיוויטעטן אַזאַ ווי פאַסיאַל דערקענונג און אַוטאָ-טאַגינג.
PyTorch איז אַ פּלאַטפאָרמע פֿאַר דאַטן סייאַנטיס וואָס ווילן צו פאַרענדיקן טיף לערנען דזשאָבס געשווינד. די געצייַג אַלאַוז טענטאָר חשבונות מיט גפּו אַקסעלעריישאַן.
עס איז אויך געניצט פֿאַר אנדערע טינגז, אַרייַנגערעכנט קאַנסטראַקטינג דינאַמיש קאַמפּיוטיישאַנאַל נעטוואָרקס און אויטאָמאַטיש קאַלקיאַלייטינג גראַדיענץ.
צומ גליק, PyTorch איז אַ פאַנטאַסטיש פּעקל וואָס אַלאַוז דעוועלאָפּערס צו לייכט יבערגאַנג פון טעאָריע און פאָרשונג צו טריינינג און אַנטוויקלונג ווען עס קומט צו מאַשין לערנען און טיף לערנען פאָרשונג צו געבן מאַקסימום בייגיקייט און גיכקייַט.
קסנומקס. NLTK
NLTK (Natural Language Toolkit) איז אַ פאָלקס פּיטהאָן פּעקל פֿאַר דאַטן סייאַנטיס. טעקסט טאַגינג, טאָקעניזאַטיאָן, סעמאַנטיק ריזאַנינג און אנדערע טאַסקס שייַכות צו נאַטירלעך שפּראַך פּראַסעסינג קענען זיין דורכגעקאָכט מיט NLTK.
NLTK קענען אויך זיין גענוצט צו פאַרענדיקן מער קאָמפּליצירט אַי (אַרטיפיסיאַל ינטעלליגענסע) דזשאָבס. NLTK איז ערידזשנאַלי באשאפן צו שטיצן פאַרשידענע אַי און מאַשין לערנען פּעראַדיימז, אַזאַ ווי די לינגגוויסטיק מאָדעל און קאַגניטיוו טעאָריע.
עס איז דערווייַל דרייווינג אַי אַלגערידאַם און לערנען מאָדעל אַנטוויקלונג אין די פאַקטיש וועלט. עס איז געווען יקסטענסיוולי עמברייסט פֿאַר נוצן ווי אַ לערנען געצייַג און ווי אַ יחיד לערנען געצייַג, אין אַדישאַן צו זיין יוטאַלייזד ווי אַ פּלאַטפאָרמע פֿאַר פּראָוטאַטייפּ און דעוועלאָפּינג פאָרשונג סיסטעמען.
קלאַסאַפאַקיישאַן, פּאַרסינג, סעמאַנטיק ריזאַנינג, סטעמינג, טאַגינג און טאָקעניזאַטיאָן זענען אַלע געשטיצט.
סאָף
דאָס פאַרענדיקן די שפּיץ צען פּיטהאָן לייברעריז פֿאַר דאַטן וויסנשאַפֿט. פּיטהאָן דאַטן וויסנשאַפֿט לייברעריז זענען דערהייַנטיקט אויף אַ רעגולער יקער ווי דאַטן וויסנשאַפֿט און מאַשין לערנען ווערן מער פאָלקס.
עס זענען עטלעכע פּיטהאָן לייברעריז פֿאַר דאַטאַ וויסנשאַפֿט, און די ברירה פון די באַניצער איז מערסטנס באשלאסן דורך די טיפּ פון פּרויעקט זיי אַרבעטן אויף.
לאָזן אַ ענטפֿערן