Na u kile ua lakatsa eka u ka buisana le AI e utloisisang lintlha tse buuoang le tse bonoang? MultiModal-GPT paradigm e kopanya ts'ebetso ea puo le kutloisiso ea pono.
E fana ka monyetla oa tšebelisano e nepahetseng le e fapaneng ea likhomphutha tsa batho. MultiModal-GPT e ka fana ka litlhaloso tse hlalosang, ho bala lintho ka bomong, le ho araba lipotso tse akaretsang tsa basebelisi.
Empa, e etsa seo jwang? Mme, o ka etsa eng ka MultiModal-GPT?
Ha re ise pale qalong 'me re utloisise menyetla e ka pele ho rona.
Ka ho hlaha ha mefuta ea lipuo tse kang GPT-4, mahlale a puo ea tlhaho a bona phetoho. Lintho tse ncha tse kang ChatGPT li se li kenyelelitsoe bophelong ba rona.
'Me, ho bonahala eka ba tsoela pele ho tla!
GPT-4 le Meeli ea Eona
GPT-4 e bonts'itse bokhabane bo makatsang lipuisanong tsa multimodal le batho. Liphuputso li entse boiteko ba ho etsisa ts'ebetso ena, empa ka lebaka la palo e ka 'nang ea e-ba e phahameng ea li-tokens tsa litšoantšo, ho kenyelletsa le mehlala e nang le boitsebiso bo nepahetseng ba pono e ka ba theko e boima haholo.
Mehlala e teng hape ha e kenyeletse tokiso ea litaelo tsa puo thutong ea bona, e thibelang bokhoni ba bona ba ho nka karolo lipuisanong tsa mongolo oa litšoantšo tse ngata.
Ho aha holim'a Flamingo Framework
Moetso o mocha o bitsoang MultiModal-GPT o ile oa ntlafatsoa ho nolofalletsa batho ho buisana le batho ba sebelisang mekhoa ea lipuo le pono.
Bahlahisi ba sebelisitse lenaneo le bitsoang the Moralo oa Flamingo, eo pele e neng e koetliselitsoe ho utloisisa mongolo le litšoantšo, ho etsa hore sena se etsahale.
Flamingo e ne e hloka liphetoho tse itseng, leha ho le joalo, kaha e ne e sa khone ho ba le lipuisano tse atolositsoeng tse kenyelletsang mongolo le litšoantšo.
Moetso o ntlafalitsoeng oa MultiModal-GPT o ka bokella lintlha ho tsoa litšoantšong ebe oa li kopanya le puo ho utloisisa le ho phethahatsa litaelo tsa batho.
MultiModal-GPT
MultiModal-GPT ke mofuta oa mofuta oa AI o ka latelang lipotso tse fapaneng tsa batho joalo ka ho hlalosa lipono, ho bala lintho le ho araba lipotso. E utloisisa le ho latela litaelo e sebelisa motsoako oa lintlha tse bonoang le tsa mantsoe.
Bafuputsi ba koetlisitse mohlala ona ba sebelisa lintlha tse bonoang le tsa puo feela ho eketsa bokhoni ba MultiModal-GPT ba ho qoqa le batho. Ho phaella moo, e bakile ntlafatso e hlokomelehang tseleng eo puo ea eona e neng e etsoa ka eona. E boetse e hlahisitse ntlafatso e hlokomelehang ts'ebetsong ea eona ea puisano.
Ba fumane hore ho ba le boitsebiso ba boleng bo phahameng ba koetliso ho bohlokoa bakeng sa ts'ebetso e ntle ea moqoqo, hobane dataset e nyenyane e nang le likarabo tse khutšoanyane e ka thusa mohlala ho etsa likarabo tse khutšoanyane ho taelo leha e le efe.
U ka Etsa'ng ka MultiModal-GPT?
Ho Kopanela Lipuisanong
Joalo ka mehlala ea puo e tlileng pele, e 'ngoe ea litšobotsi tsa mantlha tsa MultiModal-GPT ke bokhoni ba eona ba ho kenya letsoho lipuisanong tsa puo ea tlhaho. Sena se bolela hore bareki ba ka sebelisana le mohlala joalo ka ha ba ka sebelisana le motho oa 'nete.
Mohlala, MultiModal-GPT e ka fa bareki risepe e qaqileng ea ho etsa li-noodle kapa ho khothaletsa lireschorente tse ka bang teng bakeng sa ho jella. Moetso ona o boetse o khona ho araba lipotso tse akaretsang mabapi le sepheo sa leeto la basebelisi.
Tlhokomeliso ea Lintho
MultiModal-GPT e khona ho lemoha lintho ka har'a lifoto le ho araba lipotso ka tsona. Mohlala, mohlala o ka lemoha Freddie Mercury setšoantšong mme o araba lipotso ka eena.
E ka boela ea bala palo ea batho ka bomong le ho hlalosa seo ba se etsang setšoantšong. Bokhoni bona ba ho tsebahatsa ntho bo na le ts'ebeliso likarolong tse fapaneng, ho kenyeletsoa khoebo ea e-commerce, tlhokomelo ea bophelo bo botle le polokeho.
MultiModal-GPT e ka boela ea lemoha mongolo ka har'a litšoantšo tsa dijithale. Sena se bolela hore mohlala o ka bala sengoloa lifotong mme oa ntša lintlha tse bohlokoa. Ka mohlala, e ka lemoha batho bao ho buuoang ka bona setšoantšong ebe e tseba hore na ke mang ea ngotseng buka.
Ke sesebelisoa sa bohlokoa haholo bakeng sa taolo ea litokomane, tlhahiso ea data, le tlhahlobo ea litaba.
Ho Bea Mabaka le Moloko oa Tsebo
Multi-modal-GPT e ka beha mabaka le ho hlahisa tsebo ka lefatše. Sena se bolela hore e ka fana ka litlhaloso tse felletseng tsa linepe esita le ho ba bolella hore na setšoantšo se nkuoe ka nako efe.
Tsebo ena e na le thuso lithutong tse fapaneng, ho kenyeletsoa tlhahlobo ea tikoloho, temo le thuto ea leholimo. Mohlala o ka boela oa hlahisa lintho tse qapiloeng joalo ka lithothokiso, lipale le lipina, ho e etsa sesebelisoa se setle sa mesebetsi ea boqapi.
Mesebetsi ea ka hare ea MultiModal-GPT
Template bakeng sa Litaelo Tse Kopanetsoeng
Sehlopha se fana ka template e le 'ngoe bakeng sa ho kopanngoa ha lintlha tsa lipuo tse sa tšoaneng le lintlha tse ngata tsa pono le lipuo ho koetlisa mokhoa oa MultiModal-GPT ka mokhoa o lumellanang.
Leano lena le kopaneng le leka ho ntlafatsa ts'ebetso ea mohlala mesebetsing e fapaneng ka ho sebelisa matla a tlatsetso a mekhoa ea data ka bobeli le ho khothaletsa kutloisiso e tebileng ea mehopolo ea motheo.
Li-dataset tsa Dolly 15k le Alpaca GPT4 li sebelisoa ke sehlopha ho lekanya bokhoni ba ho latela litaelo ka puo feela. Liphutheloana tsena tsa data li sebetsa e le thempleite ea kapele bakeng sa ho hlophisa tlhahiso ea datha ho netefatsa mokhoa o ts'oanang oa ho latela litaelo.
Setšoantšo: Kakaretso ea datha tsa Doly 15k
Mohlala o Sebetsa Joang?
Likarolo tse tharo tsa bohlokoa li etsa mohlala oa MultiModal-GPT: sesebelisoa sa puo, mochine oa ho lemoha, le mochine oa pono. Setšoantšo se nkiloe ke sehatisi sa pono, se hlahisang pokello ea litšobotsi tse se khethollang.
Sekhouto sa puo se sebelisa lintlha tse tsoang ho khouto ea pono ho etsa mongolo o hlalosang setšoantšo ka thuso ea lisampole tsa ho lemoha.
Karolwana ya mmotlolo e utlwisisang puo le ho hlahisa sengolwa ke dekhouda ya puo. Ho bolela esale pele lentsoe le latelang polelong, mohlala o koetlisetsoa ho sebelisa lintlha tse latelang puo-feela le pono-hammoho le taeo ea puo.
Sena se ruta mohlala mokhoa oa ho arabela litaelo tse tsoang ho batho 'me se fana ka temana e amohelehang bakeng sa litlhaloso tsa litšoantšo.
Sehlopha Ka morao
MultiModal-GPT e entsoe ke sehlopha sa bafuputsi ba Microsoft Research Asia le baenjiniere ba etelletsoeng pele ke Tao Gong, Chengqi Lyu, le Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, le Kai Chen kaofela ba kentse letsoho thutong le ntlafatsong ea mohlala.
Tšebeliso ea puo ea tlhaho, pono ea k'homphieutha, 'me ho ithuta ka mochine ke likarolo tsohle tsa bokhoni bakeng sa sehlopha. Ba na le lingoliloeng tse 'maloa tse hatisitsoeng likopanong le likhatisong tsa maemo a holimo, hammoho le litlotla le thoriso e fapaneng bakeng sa boiteko ba bona ba mahlale.
Patlisiso ea sehlopha e tsepamisitse maikutlo ho nts'etsopele ea mehlala ea maemo a holimo le mekhoa ea ho etsa hore ho be le likamano tsa tlhaho le tse bohlale lipakeng tsa batho le theknoloji.
Nts'etsopele ea Multi-modal-GPT ke katleho e hlokomelehang tšimong kaha ke e 'ngoe ea mehlala ea pele ea ho kopanya pono le puo ka moralo o le mong oa lipuisano tse ngata.
Menehelo ea sehlopha ho lipatlisiso le nts'etsopele ea MultiModal-GPT e na le monyetla oa ho ba le tšusumetso e kholo bokamosong ba ts'ebetso ea puo ea tlhaho le likamano tsa batho le mochini.
Mokhoa oa ho sebelisa MultiModal-GPT
Bakeng sa ba qalang, ho sebelisa MultiModal-GPT sesebelisoa ho bonolo. E-ea feela ho https://mmgpt.openmmlab.org.cn/ ebe o tobetsa konopo ea "Upload Image".
Khetha faele ea setšoantšo eo u tla e kenya, ebe u ngola molaetsa oa mongolo sebakeng sa mongolo. Ho theha karabo ho tsoa ho mohlala, tobetsa konopo ea "Submit", e tla hlaha ka tlase ho sebaka sa mongolo.
U ka etsa liteko ka linepe le litaelo tse fapaneng ho ithuta haholoanyane ka bokhoni ba mohlala.
kenya
Ho kenya sephutheloana sa MultiModal-GPT, sebelisa taelo ea "git clone https://github.com/open-mmlab/Multimodal-GPT.git" ho kopanya polokelo ho tloha GitHub. U ka latela mehato ena feela:
git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .
Ho seng joalo, sebelisa conda env create -f environment.yml
ho theha tikoloho e ncha ea conda. U ka tsamaisa demo sebakeng sa heno ka mor'a ho e kenya ka ho khoasolla litekanyo tse koetlisitsoeng esale pele le ho li boloka foldareng ea li-checkpoints.
Joale demo ea Gradio e ka qalisoa ka ho sebelisa taelo "python app.py".
Litšitiso tse ka 'nang tsa etsahala
Moetso oa MultiModal-GPT o ntse o e-na le liphoso le sebaka sa nts'etsopele ho sa tsotellehe ts'ebetso ea oona e babatsehang.
Mohlala, ha o sebetsana le litlatsetso tse rarahaneng kapa tse sa hlakang, mohlala o kanna oa se khone ho lemoha le ho utloisisa moelelo oa taba. Sena se ka fella ka likhakanyo tse sa nepahalang kapa maikutlo a tsoang ho mohlala.
Ho phaella moo, haholo-holo ha tlhahiso e rarahane kapa e bulehile, mohlala o ka 'na oa se ke oa hlahisa karabelo kapa sephetho se molemo ka ho fetisisa. Ka mohlala, karabo ea mohlala, e ka 'na ea angoa ke tsela eo likoahelo tsa libuka tse peli li neng li tšoana kateng tabeng ea ho tsebahatsa ho fosahetseng ha sekoahelo sa buka.
fihlela qeto e
Ka kakaretso, mohlala oa MultiModal-GPT o emela mohato o moholo oa tsoelo-pele ea ho sebetsa puo ea tlhaho le ho ithuta mochine. 'Me, ho monate haholo ho e sebelisa le ho etsa liteko ka eona. Kahoo, le uena u lokela ho e leka!
Leha ho le joalo, e na le meeli, joalo ka mefuta eohle, 'me e hloka ntlafatso e eketsehileng le ntlafatso ho fumana ts'ebetso e phahameng ka ho fetisisa lits'ebetsong le libakeng tse fapaneng.
Leave a Reply