Ị nwetụla mgbe ị ga-enwe ike ịkparịta ụka na AI nke ghọtara ma okwu ọnụ na data anya? Usoro MultiModal-GPT na-ejikọta nhazi asụsụ na nghọta anya.
Ọ na-enye ohere nke mmekọrịta mmadụ na kọmputa dị iche iche na nke ziri ezi. MultiModal-GPT nwere ike ịnye nkọwa nkọwa, gụọ ihe ndị dị n'otu n'otu, ma zaghachi ajụjụ ndị ọrụ izugbe.
Ma, olee otú o si eme nke ahụ? Ma, gịnị ka ị ga-eme na MultiModal-GPT?
Ka anyị buru akụkọ a na mbido wee ghọta ohere dị n'ihu anyị.
Site na nputa ụdị asụsụ dị ka GPT-4, teknụzụ nhazi asụsụ eke na-ahụ mgbanwe. Ewebatalarị ihe ọhụrụ dị ka ChatGPT na ndụ anyị.
Ma, ọ dị ka ha na-aga n'ihu na-abịa!
GPT-4 na oke ya
GPT-4 egosila nka dị ịtụnanya na mkparịta ụka multimodal na ndị mmadụ. Ọmụmụ ihe emeela mgbalị iji megharịa arụmọrụ a, mana n'ihi ọnụọgụ foto nwere ike dị elu, gụnyere ụdị nwere ozi a na-ahụ anya nwere ike ịdị ọnụ ọnụ.
Ụdị dị adị adịghị agụnyekwa nlegharị anya ntuzi asụsụ n'ime ọmụmụ ha, nke na-egbochi ike ha isonye na mkparịta ụka ederede-ederede efu.
Iwuli n'elu Flamingo Framework
Emepụtara ụdị ọhụrụ akpọrọ MultiModal-GPT iji mee ka mmadụ na ndị mmadụ nwee nkwurịta okwu na-eji ma asụsụ na ihe ngosi.
Ndị mmepe ahụ were mmemme akpọrọ the Flamingo framework, nke a zụrụ na mbụ ịghọta ma ederede ma ọhụhụ, iji mee ka nke a kwe omume.
Flamingo chọrọ mgbanwe ụfọdụ, n'agbanyeghị, n'ihi na ọ nweghị ike inwe mkparịta ụka agbatịkwu nke gụnyere ederede na ihe ngosi.
Ụdị MultiModal-GPT emelitere nwere ike ịnakọta data site na foto wee gwakọta ya na asụsụ iji ghọta na mezuo iwu mmadụ.
MultiModal-GPT
MultiModal-GPT bụ ụdị ụdị AI nke nwere ike ịgbaso ajụjụ dị iche iche nke mmadụ dị ka ịkọwa ihe ngosi, ịgụta ihe, na ịza ajụjụ. Ọ na-aghọta ma na-agbaso iwu site na iji ngwakọta nke data anya na ọnụ.
Ndị na-eme nchọpụta zụrụ ihe nlereanya site na iji ma data anya na asụsụ naanị iji mee ka MultiModal-GPT nwee ike ịkparịta ụka n'etiti ndị mmadụ. Ọzọkwa, o mere ka e nwee ọganihu pụtara ìhè n'ụzọ e si ekwu okwu ya. Ọ rụpụtakwara mmụba pụtara ìhè na arụmọrụ mkparịta ụka ya.
Ha chọpụtara na ịnweta data ọzụzụ dị elu dị oke mkpa maka ịrụ ọrụ mkparịta ụka dị mma, n'ihi na obere dataset nwere nzaghachi dị mkpirikpi nwere ike ime ka ihe nlereanya ahụ mepụta nzaghachi dị mkpirikpi na iwu ọ bụla.
Kedu ihe ị nwere ike ime na MultiModal-GPT?
Na-etinye aka na Mkparịta ụka
Dịka ụdị asụsụ ndị bịara na mbụ, otu n'ime njirimara bụ isi nke MultiModal-GPT bụ ikike ya itinye aka na mkparịta ụka asụsụ eke. Nke a pụtara na ndị na-azụ ahịa nwere ike itinye aka na ihe nlereanya ahụ dịka ha na onye n'ezie ga-eme.
Dịka ọmụmaatụ, MultiModal-GPT nwere ike inye ndị ahịa usoro nhazi zuru ezu maka ịme noodles ma ọ bụ kwadoro ụlọ oriri na ọṅụṅụ ndị nwere ike ime maka iri nri. Ụdị ahụ nwekwara ike ịza ajụjụ ọnụ gbasara ebumnobi njem ndị ọrụ.
Nghọta ihe
MultiModal-GPT nwere ike ịmata ihe dị na foto wee zaa ajụjụ gbasara ha. Dịka ọmụmaatụ, ihe nlereanya ahụ nwere ike ịmata Freddie Mercury na onyonyo wee zaa ajụjụ gbasara ya.
Ọ nwekwara ike ịgụta ọnụ ọgụgụ ndị mmadụ ma kọwaa ihe ha na-eme na foto. Ikike njirimara ihe a nwere ngwa n'ụdị dị iche iche, gụnyere azụmahịa e-commerce, ahụike na nchekwa.
MultiModal-GPT nwekwara ike ịmata ederede n'ime foto dijitalụ. Nke a pụtara na ihe nlereanya ahụ nwere ike ịgụ ederede na foto ma wepụ data bara uru. Ọ nwere ike, dịka ọmụmaatụ, chọpụta mkpụrụedemede dị na onyonyo wee chọpụta onye dere akwụkwọ.
Ọ bụ ngwá ọrụ bara uru nke ukwuu maka njikwa akwụkwọ, ntinye data, na nyocha ọdịnaya.
Reasoning na Ọgbọ nke Ọmụma
Multi-modal-GPT nwere ike ịtụgharị uche ma mepụta ihe ọmụma gbasara ụwa. Nke a pụtara na ọ nwere ike ịnye nkọwa zuru oke nke foto yana ọbụna gwa ha oge e sere foto a.
Nkà a bara uru n'ọzụzụ dị iche iche, gụnyere nlekota gburugburu ebe obibi, ọrụ ugbo, na meteorology. Ihe nlereanya ahụ nwekwara ike iwepụta ihe okike dị ka abụ uri, akụkọ ifo na egwu, na-eme ka ọ bụrụ ezigbo ngwa maka ọrụ okike.
Ọrụ ime nke MultiModal-GPT
Template maka ntuziaka jikọtara ọnụ
Ndị otu ahụ na-enye otu ndebiri maka ijikọ data asụsụ unimodal na data ọhụụ-na asụsụ multimodal iji zụọ nke ọma ụdị MultiModal-GPT n'ụzọ dị nro.
Usoro a jikọtara ọnụ na-anwa ịkwalite arụmọrụ ihe nlereanya n'ofe ọrụ dị iche iche site n'iji ike mmekọ nke usoro data abụọ ahụ na-agba ume nghọta miri emi nke echiche ndị dị n'okpuru.
Ndị otu ahụ na-eji dataset Dolly 15k na Alpaca GPT4 tụọ nkuzi naanị asụsụ. Ntọala data ndị a na-arụ ọrụ dị ka ndebiri ngwa ngwa maka ịhazi ntinye dataset iji kwe nkwa usoro nkuzi na-aga n'ihu.
Foto: Nchịkọta nke Doly 15k dataset
Kedu ka Model si arụ ọrụ?
Isi ihe atọ mejupụtara ụdị MultiModal-GPT: ihe ngbanwe asụsụ, onye nrụpụta ihe na-ahụta, na ihe ngbanwe ọhụụ. A na-ewere ihe onyonyo a site na ihe ngbanwe ọhụụ, nke na-ewepụta mkpokọta njirimara na-egosipụta ya.
Ihe ngbanwe asụsụ na-eji ozi sitere na ngbanwe ọhụụ mepụta ederede na-akọwa onyonyo a site n'enyemaka nke onye na-ahụta ihe nlegharị anya.
Akụkụ nke ihe nlereanya ahụ na-aghọta asụsụ ma na-emepụta ederede bụ ihe ngbanwe asụsụ. Iji buo okwu na-esonụ na nkebiokwu, a zụrụ ihe nlere anya site na iji ma asụsụ naanị na ọhụụ-gbakwunyere nkuzi asụsụ na-eso data.
Nke a na-akụziri ihe nlereanya ka esi emeghachi omume na iwu mmadụ ma na-enye ederede anabatara maka nkọwa foto.
Otu n'azụ
MultiModal-GPT bụ ndị otu Microsoft Research Asia na-eme nchọpụta na ndị injinia nke Tao Gong, Chengqi Lyu, na Shilong Zhang duziri. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, na Kai Chen niile nyere aka n'ọmụmụ ihe na mmepe nke ihe nlereanya ahụ.
Nhazi asụsụ eke, ọhụụ kọmputa, na mmụta igwe bụ akụkụ niile nke ntozu maka otu. Ha nwere ọtụtụ akụkọ e bipụtara na ọgbakọ na akwụkwọ dị elu, yana nkwanye ugwu na nkwanye ugwu dị iche iche maka mbọ sayensị ha.
Nchọpụta nke otu ahụ na-elekwasị anya na mmepe nke ụdị dị mma na ụzọ iji mee ka mmekọrịta ndị ọzọ eke na ọgụgụ isi dị n'etiti ụmụ mmadụ na nkà na ụzụ.
Multi-modal-GPT mmepe bụ ihe kwesịrị ịrịba ama n'ọhịa ebe ọ bụ otu n'ime ụdị mbụ iji jikọta ọhụụ na asụsụ n'otu usoro maka mkparịta ụka ọtụtụ gburugburu.
Onyinye otu a na nyocha na mmepe MultiModal-GPT nwere ike inwe mmetụta dị ukwuu na ọdịnihu nhazi asụsụ okike na mmekọrịta mmadụ na igwe.
Otu esi eji MultiModal-GPT
Maka ndị mbido, iji MultiModal-GPT ngwaọrụ dị mfe. Naanị gaa https://mmgpt.openmmlab.org.cn/ wee pịa bọtịnụ "Bulite Foto".
Họrọ faịlụ foto ka ị bulite, wee pịnye ozugbo ederede n'ime mpaghara ederede. Iji mepụta nzaghachi site na ihe nlereanya, pịa bọtịnụ "Nyefee", nke ga-apụta n'okpuru mpaghara ederede.
Ị nwere ike ịnwale foto na ntuziaka dị iche iche iji mụtakwuo maka ike ihe nlereanya ahụ.
wụnye
Iji tinye ngwungwu MultiModal-GPT, jiri iwu njedebe "git clone https://github.com/open-mmlab/Multimodal-GPT.git" mechie ebe nchekwa na GitHub. Ị nwere ike ịgbaso usoro ndị a naanị:
git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .
Nhọrọ, jiri conda env create -f environment.yml
iji guzobe gburugburu conda ọhụrụ. Ị nwere ike ịme ngosi ngosi na mpaghara mgbe ị wụnyechara ya site na nbudata ihe ọ̀tụ̀tụ̀ a zụrụ azụ ma chekwaa ya na nchekwa ebe nlele.
Enwere ike ịmalite ihe ngosi Gradio site na iji iwu "python app.py".
Ihe ndọghachi azụ nwere ike ime
Ụdị MultiModal-GPT ka nwere ntụpọ na ohere maka mmepe n'agbanyeghị ọmarịcha arụmọrụ ya.
Dịka ọmụmaatụ, mgbe ị na-eme ihe ntinye anya gbagwojuru anya ma ọ bụ nke na-edoghị anya, ihe nlereanya ahụ nwere ike ọ gaghị enwe ike ịmata mgbe niile na ịghọta ọnọdụ nke ntinye ahụ. Nke a nwere ike bute amụma na-ezighi ezi ma ọ bụ mmeghachi omume sitere na ụdị.
Na mgbakwunye, karịsịa mgbe ntinye ahụ gbagwojuru anya ma ọ bụ meghere ya, ihe nlereanya ahụ nwere ike ọ gaghị emepụta mmeghachi omume ma ọ bụ nsonaazụ kacha mma mgbe niile. Azịza nke ihe nlereanya ahụ, dịka ọmụmaatụ, nwere ike inwe mmetụta dịka mkpuchi akwụkwọ abụọ ahụ si lee anya n'ihe gbasara njirimara ezighi ezi nke mkpuchi akwụkwọ.
mmechi
N'ozuzu, ụdị MultiModal-GPT na-anọchite anya nnukwu nzọpụ ụkwụ na nhazi asụsụ eke na mmụta igwe. Na, ọ bụ ihe na-akpali akpali iji ya na ịnwale ya. Yabụ, ị ga-anwale ya ma!
Otú ọ dị, ọ nwere oke, dị ka ụdị ọ bụla, na-achọkwa nchacha na nkwalite iji nweta arụmọrụ kachasị na ngwa na ngalaba dị iche iche.
Nkume a-aza