MultiModal-GPT: אַ נייַ פראָנטיער אין שפּראַך און זעאונג ינטעגראַטיאָן

האָבן איר אלץ געוואלט איר קענען שמועסן מיט אַ אַי וואָס באַגרענעצן ביידע גערעדט און וויזשאַוואַל דאַטן? די MultiModal-GPT פּאַראַדיגם קאַמביינז שפּראַך פּראַסעסינג מיט וויזשאַוואַל פארשטאנד.

עס אָפפערס די מעגלעכקייט פון פּינטלעך און דיווערסאַפייד מענטש-קאָמפּיוטער ינטעראַקשאַן. מולטימאָדאַל-גפּט קענען צושטעלן דיסקריפּטיוו קאַפּשאַנז, ציילן יחיד ייטאַמז און רעספּאָנד צו אַלגעמיין באַניצער פֿראגן.

אָבער, ווי טוט עס טאָן דאָס? און וואָס קענען איר טאָן מיט MultiModal-GPT?

לאָמיר נעמען די געשיכטע צו די אָנהייב און פֿאַרשטיין די פּאַסאַבילאַטיז פאָרויס פון אונדז.

מיט די ימערדזשאַנס פון שפּראַך מאָדעלס ווי GPT-4, נאַטירלעך שפּראַך פּראַסעסינג טעקנאַלאַדזשיז זענען וויטנאַסינג אַ רעוואָלוציע. ינאָווויישאַנז ווי ChatGPT האָבן שוין ינקאָרפּערייטיד אין אונדזער לעבן.

און, זיי ויסקומען צו האַלטן אויף קומען!

GPT-4 און זייַן לימיטיישאַנז

GPT-4 האט געוויזן אַמייזינג באַהאַוונטקייַט אין מולטימאָדאַל שמועסן מיט מענטשן. שטודיום האָבן געמאכט אַן מי צו דופּליקאַט דעם פאָרשטעלונג, אָבער ווייַל פון די פּאַטענטשאַלי הויך נומער פון בילד טאָקענס, אַרייַנגערעכנט מאָדעלס מיט גענוי וויזשאַוואַל אינפֿאָרמאַציע קענען זיין קאַמפּיוטישאַנאַלי טייַער.

עקסיסטינג מאָדעלס אויך טאָן ניט אַרייַננעמען שפּראַך לימעד טונינג אין זייער לערנען, וואָס ריסטריקץ זייער פיייקייט צו אָנטייל נעמען אין נול-שאָס מולטיטורן בילד-טעקסט שמועסן.

בילדינג אויף פלאַמינגאָ פראַמעוואָרק

א נייַע מאָדעל גערופן MultiModal-GPT איז דעוועלאָפּעד צו געבן קאָמוניקאַציע מיט מענטשן ניצן ביידע לינגגוויסטיק און וויזשאַוואַל קיוז.

די דעוועלאָפּערס געוויינט אַ פּראָגראַם גערופן די פלאַמינגאָ פריימווערק, וואָס איז געווען פריער טריינד צו באַגרייַפן ביידע טעקסט און וויזשוואַלז, צו מאַכן דעם פיזאַבאַל.

פלאַמינגאָ דאַרף עטלעכע ענדערונגען, אָבער, ווייַל עס קען נישט האָבן עקסטענדעד דיאַלאָגז וואָס אַרייַנגערעכנט טעקסט און וויזשוואַלז.

די דערהייַנטיקט MultiModal-GPT מאָדעל קענען קלייַבן דאַטן פון בילדער און מישן עס מיט שפּראַך צו באַגרייַפן און דורכפירן מענטשלעך קאַמאַנדז.

מולטימאָדאַל-גפּט

MultiModal-GPT איז אַ טיפּ פון אַי מאָדעל וואָס קענען נאָכגיין פאַרשידן מענטש ינקוועריז אַזאַ ווי דיסקרייבינג וויזשוואַלז, קאַונטינג זאכן און ענטפֿערן פֿראגן. עס פארשטייט און גייט אָרדערס ניצן אַ מישן פון וויזשאַוואַל און מינדלעך דאַטן.

רעסעאַרטשערס טריינד דעם מאָדעל ניצן ביידע וויזשאַוואַל און שפּראַך-בלויז דאַטן צו פאַרגרעסערן MultiModal-GPT ס קאַפּאַציטעט צו שמועסן מיט מענטשן. אין דערצו, עס געפֿירט אַ באמערקט פֿאַרבעסערונג אין די וועג פון זיין דיסקאָרס. עס אויך ריזאַלטיד אין אַ באמערקט פֿאַרבעסערונג אין זייַן שמועס פאָרשטעלונג.

זיי דיסקאַווערד אַז הויך-קוואַליטעט טריינינג דאַטן איז קריטיש פֿאַר גוט שמועס פאָרשטעלונג, ווייַל אַ קליין דאַטאַסעט מיט קורץ רעספּאָנסעס קען געבן די מאָדעל צו מאַכן קירצער רעספּאָנסעס צו קיין באַפֿעל.

וואָס קענען איר טאָן מיט MultiModal-GPT?

פאַרקנאַסט אין שמועסן

ווי די שפּראַך מאָדעלס וואָס זענען געווען פריער, איינער פון די הויפּט קעראַקטעריסטיקס פון MultiModal-GPT איז די פיייקייט צו אָנטייל נעמען אין נאַטירלעך שפּראַך דיסקוסיעס. דאָס ימפּלייז אַז קאָנסומערס קענען אָנטייל נעמען מיט די מאָדעל פּונקט ווי זיי וואָלט טאָן מיט אַ פאַקטיש מענטש.

פֿאַר בייַשפּיל, MultiModal-GPT קענען געבן קאַסטאַמערז אַ דיטיילד רעצעפּט פֿאַר מאכן לאָקשן אָדער רעקאָמענדירן מעגלעך רעסטראַנץ פֿאַר דיינינג. דער מאָדעל איז אויך טויגעוודיק צו ריספּאַנד צו דזשאַנעריק פֿראגן וועגן יוזערז 'רייזע ינטענטשאַנז.

Noodles

דערקענונג פון אַבדזשעקץ

MultiModal-GPT קענען דערקענען טינגז אין פאָטאָס און ריספּאַנד צו ינקוועריז וועגן זיי. פֿאַר בייַשפּיל, דער מאָדעל קענען דערקענען Freddie Mercury אין אַ בילד און ריספּאַנד צו פֿראגן וועגן אים.

עס קען אויך ציילן די נומער פון מענטשן און דערקלערן וואָס זיי טאָן אין אַ בילד. די פאַרמאָג לעגיטימאַציע קאַפּאַציטעט האט אַפּלאַקיישאַנז אין אַ פאַרשיידנקייַט פון פעלדער, אַרייַנגערעכנט E- האַנדל, כעלטקער און זיכערהייט.

Example

MultiModal-GPT קענען אויך דערקענען טעקסט אין דיגיטאַל בילדער. דאָס ימפּלייז אַז דער מאָדעל קענען לייענען די טעקסט אין פאָטאָס און עקסטראַקט נוציק דאַטן. עס קען, פֿאַר בייַשפּיל, דעטעקט די אותיות אין אַ בילד און ידענטיפיצירן דער מחבר פון אַ בוך.

עס איז אַ גאָר נוציק געצייַג פֿאַר דאָקומענט פאַרוואַלטונג, דאַטן אַרייַנשרייַב און אינהאַלט אַנאַליסיס.

Gandalf

ריזאַנינג און דור פון וויסן

מולטי-מאָדאַל-GPT קענען סיבה און פּראָדוצירן וויסן וועגן דער וועלט. דעם מיטל עס קענען צושטעלן פול דערקלערונגען פון פאָוטאַגראַפס און אפילו זאָגן זיי אין וואָס סעזאָן די בילד איז גענומען.

די סקילז איז נוציק אין אַ פאַרשיידנקייַט פון דיסאַפּלאַנז, אַרייַנגערעכנט ינווייראַנמענאַל מאָניטאָרינג, אַגריקולטורע און מעטעאָראָלאָגי. דער מאָדעל קענען אַדישנאַלי דזשענערייט שעפעריש שטאָפּן ווי פּאָעזיע, מעשיות און לידער, מאכן עס אַ ויסגעצייכנט געצייַג פֿאַר שעפעריש טאַסקס.

ינער ווערקינגז פון MultiModal-GPT

מוסטער פֿאַר וניפיעד ינסטרוקטיאָנס

די מאַנשאַפֿט גיט אַ איין מוסטער פֿאַר די ינטאַגריישאַן פון ונימאָדאַל לינגגוויסטיק דאַטן און מולטימאָדאַל זעאונג-און-שפּראַך דאַטן צו רעכט באַן די MultiModal-GPT מאָדעל אין אַ סינערגיסטיק שטייגער.

די קאַמביינד סטראַטעגיע פרווון צו פֿאַרבעסערן די פאָרשטעלונג פון די מאָדעל אַריבער אַ פאַרשיידנקייַט פון טאַסקס דורך עקספּלויטינג די קאַמפּלאַמענטשי קייפּאַבילאַטיז פון ביידע דאַטן מאַדזשאַלאַטיז און ינקעראַדזשינג אַ דיפּער קאַמפּריכענשאַן פון די אַנדערלייינג געדאנקען.

די דאַטאַסעץ פון דאַלי 15 ק און אַלפּאַקאַ גפּט 4 זענען געניצט דורך די מאַנשאַפֿט צו מעסטן די אַבילאַטיז נאָך לימעד בלויז אין שפּראַך. די דאַטאַסעץ אַקט ווי אַ פּינטלעך מוסטער פֿאַר סטראַקטשערינג דאַטאַסעט אַרייַנשרייַב צו גאַראַנטירן אַ קאָנסיסטענט ינסטרוקטיאָן-נאָכפאָלגן פֿאָרמאַט.

בילד: איבערבליק פון דאָלי 15 ק דאַטאַסעט

ווי טוט דער מאָדעל אַרבעט?

דריי שליסל קאַמפּאָונאַנץ מאַכן די MultiModal-GPT מאָדעל: אַ שפּראַך דעקאָדער, אַ פּערסעיווער ריסאַמפּלער און אַ זעאונג ענקאָדער. דער בילד איז גענומען דורך די זעאונג ענקאָדער, וואָס דאַן דזשענערייץ אַ זאַמלונג פון קעראַקטעריסטיקס וואָס קעראַקטערייז עס.

די שפּראַך דיקאָודער ניצט די אינפֿאָרמאַציע פון די זעאונג ענקאָדער צו שאַפֿן טעקסט וואָס באשרייבט די בילד מיט די הילף פון די פּערסייווער ריסאַמפּלער.

דער קאָמפּאָנענט פון דעם מאָדעל וואָס באַגרייַפן שפּראַך און פּראָדוצירן דעם טעקסט איז די שפּראַך דעקאָדער. צו פאָרויסזאָגן די פאלגענדע וואָרט אין אַ פראַזע, דער מאָדעל איז טריינד מיט ביידע שפּראַך-בלויז און זעאונג-פּלוס שפּראַך לימעד-נאָכפאָלגן דאַטן.

דאָס לערנט די מאָדעל ווי צו רעאַגירן צו קאַמאַנדז פון יומאַנז און גיט די פּאַסיק טעקסט פֿאַר בילד דיסקריפּשאַנז.

Model

מאַנשאַפֿט הינטער

די מולטימאָדאַל-גפּט איז געווען באשאפן דורך אַ קאָלעקטיוו פון מייקראָסאָפֿט פאָרשונג אזיע ריסערטשערז און ענדזשאַנירז געפירט דורך טאַו גאָנג, טשענגקי ליו און שילאָנג זשאַנג. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo און Kai Chen אַלע קאַנטריביוטיד צו די מאָדעל ס לערנען און אַנטוויקלונג.

נאַטירלעך שפּראַך פּראַסעסינג, קאָמפּיוטער זעאונג, און מאַשין לערנען זענען אַלע קאַמפּאַטינס געביטן פֿאַר די מאַנשאַפֿט. זיי האָבן עטלעכע אַרטיקלען ארויס אין העכסט-ריי קאַנפראַנסאַז און אויסגאבעס, ווי געזונט ווי פאַרשידן אַנערז און אַקאַליידז פֿאַר זייער וויסנשאפטלעכע השתדלות.

די פאָרשונג פון די מאַנשאַפֿט פאָוקיסיז אויף דער אַנטוויקלונג פון קאַטינג-ברעג מאָדעלס און אַפּראָוטשיז צו געבן מער נאַטירלעך און ינטעליגענט ינטעראַקשאַנז צווישן יומאַנז און טעכנאָלאָגיע.

מולטי-מאָדאַל-GPT אַנטוויקלונג איז אַ נאָוטווערדי דערגרייה אין דעם פעלד זינט עס איז איינער פון די ערשטער מאָדעלס צו פאַרבינדן זעאונג און שפּראַך אין אַ איין פריימווערק פֿאַר מאַלטי-קייַלעכיק דיסקוסיע.

די קאַנטראַביושאַנז פון די מאַנשאַפֿט צו MultiModal-GPT פאָרשונג און אַנטוויקלונג האָבן די פּאָטענציעל צו האָבן אַ היפּש השפּעה אויף דער צוקונפֿט פון נאַטירלעך שפּראַך פּראַסעסינג און מענטש-מאַשין ינטעראַקשאַנז.

ווי צו נוצן MultiModal-GPT

פֿאַר ביגינערז, די MultiModal-GPT געצייַג איז פּשוט. פשוט גיין צו https://mmgpt.openmmlab.org.cn/ און דריקן די "ופּלאָאַד בילד" קנעפּל.

קלייַבן די בילד טעקע צו ופּלאָאַד, און דעמאָלט אַרייַן די טעקסט פּינטלעך אין די טעקסט פעלד. צו שאַפֿן אַ ענטפער פון דעם מאָדעל, גיט די "פאָרלייגן" קנעפּל, וואָס וועט דערשייַנען אונטער די טעקסט פעלד.

איר קענט עקספּערימענט מיט פאַרשידענע פאָטאָס און ינסטראַקשאַנז צו לערנען מער וועגן די קייפּאַבילאַטיז פון די מאָדעל.

ינסטאַללינג

צו ינסטאַלירן די MultiModal-GPT פּעקל, נוצן די וואָקזאַל באַפֿעל "git clone https://github.com/open-mmlab/Multimodal-GPT.git" צו קלאָון די ריפּאַזאַטאָרי פֿון GitHub. איר קענט פשוט נאָכפאָלגן די סטעפּס:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

אַלטערנאַטיוועלי, נוצן conda env create -f environment.yml צו גרינדן אַ נייַע קאָנדאַ סוויווע. איר קענט לויפן די דעמאָ לאָוקאַלי נאָך ינסטאָלינג עס דורך דאַונלאָודינג די פאַר-טריינד ווייץ און סטאָרינג זיי אין די טשעקפּוינט טעקע.

די גראָדיאָ דעמאָ קען זיין לאָנטשט דורך לויפן די באַפֿעל "python app.py".

פּאָטענציעל דראָבאַקס

די MultiModal-GPT מאָדעל נאָך האט פלאָז און פּלאַץ פֿאַר אַנטוויקלונג טראָץ זייַן ויסגעצייכנט פאָרשטעלונג.

פֿאַר בייַשפּיל, ווען דילינג מיט קאָמפּליצירט אָדער אַמביגיואַס וויזשאַוואַל ינפּוץ, דער מאָדעל קען נישט שטענדיק קענען צו דערקענען און באַגרייַפן דעם קאָנטעקסט פון די אַרייַנשרייַב. דאָס קען פירן צו ומפּינקטלעך פֿאָרויסזאָגן אָדער ריאַקשאַנז פון די מאָדעל.

אַדדיטיאָנאַללי, ספּעציעל ווען די אַרייַנשרייַב איז קאָמפּליצירט אָדער אָפֿן-געענדיקט, דער מאָדעל קען נישט שטענדיק פּראָדוצירן די בעסטער אָפּרוף אָדער רעזולטאַט. דער ענטפער פון דעם מאָדעל, פֿאַר בייַשפּיל, קען זיין ימפּאַקטיד דורך ווי ענלעך די קאָווערס פון די צוויי ביכער געקוקט אין דעם פאַל פון די פאַלש לעגיטימאַציע פון אַ בוך דעקן.

סאָף

קוילעלדיק, די MultiModal-GPT מאָדעל רעפּראַזענץ אַ גרויס שריט פאָרויס אין נאַטירלעך שפּראַך פּראַסעסינג און מאַשין לערנען. און עס איז זייער יקסייטינג צו נוצן עס און עקספּערימענט מיט אים. אַזוי, איר זאָל פּרובירן עס אָדער!

אָבער, עס האט לימאַץ, ווי אַלע מאָדעלס, און ריקווייערז נאָך ראַפינירן און ענכאַנסמאַנט צו באַקומען מאַקסימום פאָרשטעלונג אין אַ פאַרשיידנקייַט פון אַפּלאַקיישאַנז און דאָומיינז.