An robh thu a-riamh ag iarraidh gum b’ urrainn dhut bruidhinn ri AI a thuigeas an dà chuid dàta labhairteach agus lèirsinneach? Tha am paradigm MultiModal-GPT a’ cothlamadh giollachd cànain le tuigse lèirsinneach.
Tha e a’ toirt cothrom air eadar-obrachadh daonna-coimpiutair ceart agus eugsamhail. Ioma-mhodal-GPT is urrainn dhaibh fo-thiotalan tuairisgeulach a thoirt seachad, nithean fa leth a chunntadh, agus freagairt a thoirt do cheistean coitcheann luchd-cleachdaidh.
Ach, ciamar a nì e sin? Agus, dè as urrainn dhut a dhèanamh le MultiModal-GPT?
Bheir sinn an sgeulachd chun toiseach agus tuigidh sinn na cothroman a tha romhainn.
Le nochdadh mhodalan cànain leithid GPT-4, tha teicneòlasan giollachd cànain nàdarra a’ faicinn tionndadh. Tha innleachdan leithid ChatGPT air an toirt a-steach do ar beatha mar-thà.
Agus, tha e coltach gu bheil iad a’ cumail a’ tighinn!
GPT-4 agus na crìochan aige
Tha GPT-4 air comas iongantach a nochdadh ann an còmhraidhean ioma-mhodhail le daoine. Tha sgrùdaidhean air oidhirp a dhèanamh an coileanadh seo a dhùblachadh, ach air sgàth an àireamh àrd de chomharran dhealbhan a dh’ fhaodadh a bhith ann, faodaidh modalan le fiosrachadh lèirsinneach mionaideach a bhith daor a thaobh àireamhachadh.
Chan eil modailean a th’ ann mar-thà cuideachd a’ toirt a-steach gleusadh stiùireadh cànain san sgrùdadh aca, rud a tha a’ cuingealachadh an comas pàirt a ghabhail ann an còmhraidhean teacsa-ìomhaigh ioma-dhealbhach neoni.
Togail air Frèam Flamingo
Chaidh modal ùr leis an t-ainm MultiModal-GPT a leasachadh gus conaltradh a chomasachadh le daoine a’ cleachdadh an dà chuid cuisean cànanach agus lèirsinneach.
Chleachd an luchd-leasachaidh prògram ris an canar an frèam Flamingo, a bha roimhe so air a thrèanadh gus an dà chuid teacsa agus dealbhan a thuigsinn, gus seo a dhèanamh comasach.
Bha feum aig Flamingo air beagan atharrachaidhean, ge-tà, leis nach b’ urrainn dha còmhraidhean leudaichte a bhith ann a bha a’ toirt a-steach teacsa agus dealbhan.
Faodaidh am modal MultiModal-GPT ùraichte dàta a chruinneachadh bho dhealbhan agus a mheasgachadh le cànan gus òrdughan daonna a thuigsinn agus a choileanadh.
Ioma-mhodal-GPT
Is e seòrsa de mhodail AI a th’ ann am MultiModal-GPT a dh’ fhaodas grunn cheistean daonna a leantainn leithid a bhith a’ toirt cunntas air dealbhan lèirsinneach, a’ cunntadh nithean, agus a’ freagairt cheistean. Bidh e a’ tuigsinn agus a’ leantainn òrdughan a’ cleachdadh measgachadh de dhàta lèirsinneach is beòil.
Rinn luchd-rannsachaidh trèanadh air a’ mhodail a’ cleachdadh an dà chuid dàta lèirsinneach agus cànain a-mhàin gus comas MultiModal-GPT a bhith a’ conaltradh ri daoine a mheudachadh. A bharrachd air an sin, dh’ adhbhraich e adhartas mòr anns an dòigh anns an deach a chòmhradh a dhèanamh. Dh'adhbhraich e cuideachd adhartas mòr ann an coileanadh còmhraidh.
Fhuair iad a-mach gu bheil dàta trèanaidh àrd-inbhe deatamach airson deagh choileanadh còmhraidh, oir dh’ fhaodadh dàta beag le freagairtean goirid leigeil leis a’ mhodail freagairtean nas giorra a chruthachadh do dh’ àithne sam bith.
Dè as urrainn dhut a dhèanamh le MultiModal-GPT?
A 'dol an sàs ann an còmhraidhean
Coltach ris na modalan cànain a thàinig roimhe, is e aon de phrìomh fheartan MultiModal-GPT a chomas a dhol an sàs ann an còmhraidhean cànain nàdarra. Tha seo a’ ciallachadh gum faod luchd-cleachdaidh a dhol an sàs leis a’ mhodail dìreach mar a dhèanadh iad le fìor dhuine.
Mar eisimpleir, faodaidh MultiModal-GPT reasabaidh mhionaideach a thoirt do luchd-ceannach airson nòtan a dhèanamh no taighean-bìdh a mholadh airson biadh a-muigh. Tha am modail cuideachd comasach air ceistean coitcheann a fhreagairt mu rùintean turas luchd-cleachdaidh.
Aithneachadh Rudan
Is urrainn dha MultiModal-GPT rudan aithneachadh ann an dealbhan agus freagairt a thoirt do cheistean mun deidhinn. Mar eisimpleir, is urrainn don mhodail Freddie Mercury aithneachadh ann an ìomhaigh agus freagairt a thoirt do cheistean mu dheidhinn.
Faodaidh e cuideachd an àireamh de dhaoine fa leth a chunntadh agus mìneachadh dè tha iad a’ dèanamh ann an dealbh. Tha an comas aithneachaidh nì seo air a chleachdadh ann an grunn raointean, a’ gabhail a-steach e-malairt, cùram slàinte agus tèarainteachd.
Faodaidh MultiModal-GPT cuideachd teacsa aithneachadh taobh a-staigh dealbhan didseatach. Tha seo a’ ciallachadh gun urrainn don mhodail an teacsa ann an dealbhan a leughadh agus dàta feumail a tharraing. Faodaidh e, mar eisimpleir, na caractaran ann an ìomhaigh a lorg agus ùghdar leabhar aithneachadh.
Tha e na inneal air leth feumail airson riaghladh sgrìobhainnean, cuir a-steach dàta, agus mion-sgrùdadh susbaint.
Adhbhar agus Cruthachadh Eòlais
Faodaidh ioma-modal-GPT reusanachadh agus eòlas a thoirt air an t-saoghal. Tha seo a’ ciallachadh gun urrainn dha làn mhìneachadh a thoirt seachad air dealbhan agus eadhon innse dhaibh dè an ràithe a chaidh an dealbh a thogail.
Tha an sgil seo feumail ann an grunn chuspairean, a’ gabhail a-steach sgrùdadh àrainneachd, àiteachas, agus eòlas-sìde. Faodaidh am modail cuideachd stuth cruthachail a ghineadh leithid bàrdachd, sgeulachdan, agus òrain, ga dhèanamh na inneal sàr-mhath airson gnìomhan cruthachail.
Obraichean a-staigh de MultiModal-GPT
Teamplaid airson stiùireadh aonaichte
Bidh an sgioba a’ taisbeanadh aon teamplaid airson dàta cànanach aon-mhodhail agus dàta lèirsinn is cànan ioma-mhodhail a thoirt còmhla gus am modal MultiModal-GPT a thrèanadh gu ceart ann an dòigh synergistic.
Tha an ro-innleachd aonaichte seo a’ feuchainn ri coileanadh a’ mhodail a leasachadh thar grunn ghnìomhan le bhith a’ cleachdadh comasan co-phàirteach an dà chuid modhan dàta agus a’ brosnachadh tuigse nas doimhne air na bun-bheachdan.
Bidh an sgioba a’ cleachdadh na stòran-dàta Dolly 15k agus Alpaca GPT4 gus comasan a thomhas a rèir stiùireadh cànain a-mhàin. Bidh na stòran-dàta sin nan teamplaid sgiobalta airson cuir a-steach stòr-dàta a structaradh gus gealltainn gum bi cruth cunbhalach a’ leantainn stiùireadh.
Ìomhaigh: Sealladh farsaing air dàta Doly 15k
Ciamar a tha am Modail ag obair?
Tha trì prìomh phàirtean a’ dèanamh suas a’ mhodail MultiModal-GPT: decoder cànain, ath-shamhlaiche mothachaidh, agus encoder lèirsinn. Tha an ìomhaigh air a thoirt a-steach leis an encoder lèirsinn, a bhios an uairsin a’ gineadh cruinneachadh de fheartan a tha ga chomharrachadh.
Bidh an decoder cànain a’ cleachdadh an fhiosrachaidh bhon encoder lèirsinn gus teacsa a chruthachadh a bheir cunntas air an ìomhaigh le taic bhon ath-shamhlaiche mothachaidh.
Is e am pàirt den mhodail a tha a’ tuigsinn cànan agus a’ dèanamh an teacsa an decoder cànain. Gus am facal a leanas ann an abairt a ro-innse, tha am modail air a thrèanadh a’ cleachdadh an dà chuid cànan a-mhàin agus stiùireadh cànain lèirsinn a bharrachd - a’ leantainn dàta.
Bidh seo a’ teagasg don mhodail mar a dhèiligeas iad ri òrdughan bho dhaoine agus a’ toirt seachad an teacsa iomchaidh airson tuairisgeulan dhealbhan.
Sgioba air a chùlaibh
Chaidh an MultiModal-GPT a chruthachadh le sgioba de luchd-rannsachaidh agus innleadairean Microsoft Research Asia air an stiùireadh le Tao Gong, Chengqi Lyu, agus Shilong Zhang. Chuir Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, agus Kai Chen uile ri sgrùdadh agus leasachadh a’ mhodail.
Làimhseachadh cànain nàdarra, lèirsinn coimpiutair, agus ionnsachadh innealan uile nan raointean comais don sgioba. Tha grunn artaigilean aca air am foillseachadh ann an co-labhairtean agus foillseachaidhean àrd-ìre, a bharrachd air grunn urraman agus dhuaisean airson an oidhirpean saidheansail.
Tha rannsachadh na sgioba a’ cuimseachadh air leasachadh mhodalan agus dhòighean-obrach ùr-nodha gus eadar-obrachaidhean nas nàdarra agus nas tuigseach a chomasachadh eadar daoine agus teicneòlas.
Tha leasachadh ioma-modal-GPT na choileanadh sònraichte san raon leis gur e seo aon de na ciad mhodalan gus lèirsinn agus cànan a thoirt còmhla ann an aon fhrèam airson deasbad ioma-chuairt.
Tha comas aig tabhartasan na sgioba do rannsachadh agus leasachadh MultiModal-GPT buaidh mhòr a thoirt air àm ri teachd giollachd cànain nàdarra agus eadar-obrachadh inneal-daonna.
Mar a chleachdas tu MultiModal-GPT
Do luchd-tòiseachaidh, tha cleachdadh an inneal MultiModal-GPT sìmplidh. Dìreach rachaibh gu https://mmgpt.openmmlab.org.cn/ agus brùth air a’ phutan “Luchdaich suas ìomhaigh”.
Tagh am faidhle dealbh airson a luchdachadh suas, agus an uairsin cuir a-steach an teacsa gu sgiobalta a-steach don raon teacsa. Gus freagairt a chruthachadh bhon mhodail, cliog air a’ phutan “Cuir a-steach”, a nochdas fon raon teacsa.
Faodaidh tu diofar dhealbhan agus stiùireadh fheuchainn gus barrachd ionnsachadh mu chomasan a’ mhodail.
A 'stàlachadh
Gus am pasgan MultiModal-GPT a chuir a-steach, cleachd an àithne crìochnachaidh “git clone https://github.com/open-mmlab/Multimodal-GPT.git” gus an stòr a chlò-bhualadh bho GitHub. Faodaidh tu dìreach na ceumannan seo a leantainn:
git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .
Air neo, cleachd conda env create -f environment.yml
gus àrainneachd conda ùr a stèidheachadh. Faodaidh tu an demo a ruith gu h-ionadail às deidh dhut a stàladh le bhith a’ luchdachadh sìos na cuideaman ro-thrèanadh agus gan stòradh sa phasgan puingean-seic.
Faodar an demo Gradio a chuir air bhog an uairsin le bhith a’ ruith an àithne “python app.py”.
Eas-bhuannachdan a dh’fhaodadh a bhith ann
Tha lochdan fhathast aig a’ mhodail MultiModal-GPT agus àite airson leasachadh a dh’ aindeoin a choileanadh sàr-mhath.
Mar eisimpleir, nuair a thathar a’ dèiligeadh ri cuir a-steach lèirsinneach toinnte no teagmhach, is dòcha nach bi am modail an-còmhnaidh comasach air co-theacsa an in-chur aithneachadh agus a thuigsinn. Faodaidh seo leantainn gu ro-innse no ath-bheachdan mearachdach bhon mhodail.
A bharrachd air an sin, gu sònraichte nuair a tha an cuir a-steach iom-fhillte no fosgailte, is dòcha nach toir am modail an-còmhnaidh an fhreagairt no an toradh as fheàrr. Is dòcha gun tug an coltas gun tug còmhdach an dà leabhar buaidh air freagairt a’ mhodail, mar eisimpleir, gun deach còmhdach leabhair aithneachadh gu ceàrr.
Co-dhùnadh
Gu h-iomlan, tha am modal MultiModal-GPT a’ riochdachadh ceum mòr air adhart ann an giullachd cànain nàdarra agus ionnsachadh innealan. Agus, tha e glè inntinneach a bhith ga chleachdadh agus a’ feuchainn leis. Mar sin, bu chòir dhut feuchainn air an dàrna cuid!
Ach, tha crìochan aige, mar a tha a h-uile modal, agus tha feum air ùrachadh agus leasachadh a bharrachd gus an coileanadh as motha fhaighinn ann an grunn thagraidhean agus raointean.
Leave a Reply