የንግግር እና የእይታ ውሂብን ከሚረዳ AI ጋር ለመነጋገር ፈልገህ ታውቃለህ? የመልቲሞዳል-ጂፒቲ ፓራዳይም የቋንቋ አሰራርን ከእይታ ግንዛቤ ጋር ያጣምራል።
ትክክለኛ እና የተለያየ የሰው-ኮምፒውተር መስተጋብር እድል ይሰጣል። መልቲሞዳል-ጂፒቲ ገላጭ መግለጫ ፅሁፎችን ማቅረብ፣ ነጠላ እቃዎችን መቁጠር እና ለአጠቃላይ የተጠቃሚ ጥያቄዎች ምላሽ መስጠት ይችላል።
ግን፣ እንዴት ነው የሚያደርገው? እና፣ በ MultiModal-GPT ምን ማድረግ ይችላሉ?
ታሪኩን ወደ መጀመሪያው እንውሰደው እና ከፊታችን ያሉትን እድሎች እንረዳ።
እንደ GPT-4 ያሉ የቋንቋ ሞዴሎች ብቅ እያሉ፣ የተፈጥሮ ቋንቋ ማቀነባበሪያ ቴክኖሎጂዎች አብዮት እየታዩ ነው። እንደ ChatGPT ያሉ ፈጠራዎች ወደ ህይወታችን ገብተዋል።
እና እነሱ መምጣት የሚቀጥሉ ይመስላሉ!
GPT-4 እና ገደቦቹ
GPT-4 ከሰዎች ጋር በመልቲሞዳል ንግግሮች ውስጥ አስደናቂ ብቃት አሳይቷል። ጥናቶች ይህንን አፈጻጸም ለማባዛት ጥረት አድርገዋል፣ ነገር ግን ከፍተኛ ቁጥር ያላቸው የምስል ቶከኖች በመኖራቸው፣ ትክክለኛ የእይታ መረጃ ያላቸው ሞዴሎችን ጨምሮ በስሌት ውድ ሊሆኑ ይችላሉ።
ነባር ሞዴሎች እንዲሁ በጥናታቸው ውስጥ የቋንቋ ትምህርት ማስተካከልን አያካትቱም፣ ይህም በዜሮ-ሾት ባለብዙ ተርጓሚ ምስል-ጽሑፍ ንግግሮች ውስጥ የመሳተፍ ችሎታቸውን ይገድባል።
በፍላሚንጎ ማዕቀፍ ላይ መገንባት
መልቲሞዳል-ጂፒቲ የተባለ አዲስ ሞዴል ከሰዎች ጋር የቋንቋ እና የእይታ ምልክቶችን በመጠቀም መግባባትን ለማስቻል ተዘጋጅቷል።
ገንቢዎቹ የ የሚባል ፕሮግራም ቀጥረዋል። የፍላሚንጎ መዋቅር ፣ ይህንን ተግባራዊ ለማድረግ ቀደም ሲል ሁለቱንም ጽሑፎች እና ምስሎችን ለመረዳት የሰለጠነ።
ፍላሚንጎ ግን ጽሑፍ እና ምስሎችን ያካተቱ የተራዘሙ ንግግሮች ሊኖሩት ባለመቻሉ አንዳንድ ለውጦች ያስፈልጉታል።
የተሻሻለው የመልቲሞዳል-ጂፒቲ ሞዴል ከስዕሎች መረጃን ሰብስቦ ከቋንቋ ጋር በማዋሃድ የሰውን ትዕዛዝ ለመረዳት እና ለማስፈጸም ይችላል።
መልቲሞዳል-ጂፒቲ
መልቲሞዳል-ጂፒቲ የተለያዩ የሰው ልጅ ጥያቄዎችን ለምሳሌ ምስሎችን መግለጽ፣ እቃዎችን መቁጠር እና ጥያቄዎችን መመለስ የሚችል የ AI ሞዴል አይነት ነው። የእይታ እና የቃል ውሂብ ድብልቅን በመጠቀም ትዕዛዞችን ይረዳል እና ይከተላል።
ተመራማሪዎች መልቲ ሞዳል-ጂፒቲ ከሰዎች ጋር የመነጋገር አቅምን ለመጨመር ምስላዊ እና ቋንቋ-ብቻ መረጃን በመጠቀም ሞዴሉን አሰልጥነዋል። በተጨማሪም፣ ንግግሩ በሚካሄድበት መንገድ ላይ ጉልህ መሻሻል አድርጓል። በውይይት አፈፃፀሙ ላይም የሚታይ መሻሻል አሳይቷል።
ከፍተኛ ጥራት ያለው የሥልጠና መረጃ መኖሩ ለጥሩ የውይይት አፈጻጸም ወሳኝ መሆኑን ደርሰውበታል፣ ምክንያቱም ትንሽ ምላሾች ያሉት ትንሽ የመረጃ ስብስብ ሞዴሉ ለማንኛውም ትዕዛዝ አጭር ምላሾችን እንዲፈጥር ያስችለዋል።
በ MultiModal-GPT ምን ማድረግ ይችላሉ?
በውይይቶች ውስጥ መሳተፍ
ከዚህ በፊት እንደነበሩት የቋንቋ ሞዴሎች፣ ከመልቲ ሞዳል-ጂፒቲ ዋና ዋና ባህሪያት አንዱ በተፈጥሮ ቋንቋ ውይይቶች ላይ የመሳተፍ አቅሙ ነው። ይህ የሚያመለክተው ሸማቾች ከአምሳያው ጋር ልክ ከእውነተኛ ሰው ጋር እንደሚያደርጉት ነው።
ለምሳሌ፣መልቲሞዳል-ጂፒቲ ለደንበኞች ኑድል ለመሥራት ዝርዝር የምግብ አዘገጃጀት መመሪያ ሊሰጥ ወይም ሊመገቡ የሚችሉ ምግብ ቤቶችን ሊመክር ይችላል። ሞዴሉ የተጠቃሚዎችን የጉዞ ፍላጎት በተመለከተ ለአጠቃላይ ጥያቄዎችም ምላሽ መስጠት ይችላል።
የነገሮች እውቅና
መልቲሞዳል-ጂፒቲ ነገሮችን በፎቶዎች ውስጥ ለይቶ ማወቅ እና ስለእነሱ ለሚነሱ ጥያቄዎች ምላሽ መስጠት ይችላል። ለምሳሌ፣ ሞዴሉ ፍሬዲ ሜርኩሪን በምስሉ ለይቶ ማወቅ እና ስለ እሱ ለሚነሱ ጥያቄዎች ምላሽ መስጠት ይችላል።
እንዲሁም የግለሰቦችን ብዛት በመቁጠር በሥዕል ላይ ምን እንደሚሠሩ ማስረዳት ይችላል። ይህ የነገርን የመለየት አቅም የኢ-ኮሜርስ፣ የጤና እንክብካቤ እና ደህንነትን ጨምሮ በተለያዩ መስኮች አፕሊኬሽኖች አሉት።
መልቲ ሞዳል-ጂፒቲ በዲጂታል ሥዕሎች ውስጥ ጽሑፍን ማወቅ ይችላል። ይህ ሞዴል በፎቶዎች ውስጥ ያለውን ጽሑፍ ማንበብ እና ጠቃሚ መረጃዎችን ማውጣት እንደሚችል ያመለክታል. ለምሳሌ በምስሉ ውስጥ ያሉትን ገፀ-ባህሪያት ፈልጎ ማግኘት እና የመፅሃፉን ደራሲ መለየት ይችላል።
እጅግ በጣም ጠቃሚ መሳሪያ ነው ሰነድ አስተዳደር፣ የውሂብ ግቤት እና የይዘት ትንተና።
ማመዛዘን እና የእውቀት ማመንጨት
መልቲ-ሞዳል-ጂፒቲ ስለ ዓለም እውቀትን ማመዛዘን እና ማፍራት ይችላል። ይህ ማለት የፎቶግራፎችን ሙሉ ማብራሪያ ሊሰጥ አልፎ ተርፎም ምስሉ በየትኛው ወቅት እንደተነሳ ሊነገራቸው ይችላል።
ይህ ክህሎት በአካባቢ ጥበቃ፣ግብርና እና ሜትሮሎጂን ጨምሮ በተለያዩ ዘርፎች ጠቃሚ ነው። ሞዴሉ እንደ ግጥም፣ ተረቶች እና ዘፈኖች ያሉ የፈጠራ ስራዎችን ማፍራት ይችላል፣ ይህም ለፈጠራ ስራዎች ምርጥ መሳሪያ ያደርገዋል።
የብዙ ሞዳል-ጂፒቲ የውስጥ ስራዎች
ለተዋሃዱ መመሪያዎች አብነት
ቡድኑ የመልቲ ሞዳል-ጂፒቲ ሞዴልን በተቀናጀ መልኩ በትክክል ለማሰልጠን ነጠላ የቋንቋ መረጃን እና የመልቲሞዳል ራዕይ-እና-ቋንቋ ውሂብን ለማዋሃድ አንድ አብነት ያቀርባል።
ይህ የተቀናጀ ስትራቴጂ የሁለቱም የመረጃ ስልቶች ተጓዳኝ አቅምን በመጠቀም እና መሰረታዊ ሀሳቦችን በጥልቀት ለመረዳት በማበረታታት የአምሳያው አፈጻጸም በተለያዩ ስራዎች ላይ ለማሻሻል ይሞክራል።
የ Dolly 15k እና Alpaca GPT4 ዳታ ስብስቦች ቡድኑ ቋንቋ-ብቻ ትምህርትን የሚከተሉ ችሎታዎችን ለመለካት ጥቅም ላይ ይውላል። እነዚህ የውሂብ ስብስቦች ወጥነት ያለው መመሪያን ተከትለው ቅርጸትን ለማረጋገጥ የውሂብ ስብስብ ግብዓትን ለማዋቀር እንደ ፈጣን አብነት ይሰራሉ።
ምስል፡ የዶሊ 15k ዳታ ስብስብ አጠቃላይ እይታ
ሞዴሉ እንዴት ነው የሚሰራው?
ሶስት ቁልፍ አካላት የMultiModal-GPT ሞዴልን ያዘጋጃሉ፡ የቋንቋ ዲኮደር፣ የአስተዋይ ዳግም ናሙና እና የእይታ ኢንኮደር። ምስሉ በቪዥን ኢንኮደር ተወስዷል, ከዚያም ባህሪያቱን የሚያሳዩ ባህሪያት ስብስብ ይፈጥራል.
የቋንቋ ዲኮደር ከቪዥን ኢንኮደር የሚገኘውን መረጃ በመጠቀም ምስሉን የሚገልጽ ጽሑፍ በአስተዋይ ዳግም ናሙና እርዳታ ይጠቀማል።
የአምሳያው አካል ቋንቋን የሚረዳ እና ጽሑፉን የሚያወጣው የቋንቋ ዲኮደር ነው። በአረፍተ ነገር ውስጥ የሚከተለውን ቃል ለመተንበይ ሞዴሉ ሁለቱንም ቋንቋ-ብቻ እና ራዕይ-ፕላስ የቋንቋ መመሪያን በመጠቀም የሰለጠነ ነው።
ይህ ሞዴሉን ከሰዎች ለሚመጡ ትዕዛዞች እንዴት ምላሽ መስጠት እንዳለበት ያስተምራል እና ለሥዕል መግለጫዎች ተቀባይነት ያለው ጽሑፍ ያቀርባል.
ከኋላ ያለው ቡድን
መልቲ ሞዳል-ጂፒቲ የተፈጠረው በTao Gong፣ Chengqi Lyu እና Shilong Zhang በሚመሩ የማይክሮሶፍት ምርምር እስያ ተመራማሪዎች እና መሐንዲሶች ቡድን ነው። ዩዶንግ ዋንግ፣ ሚያኦ ዠንግ፣ ኪያን ዣኦ፣ ኩይኩን ሊዩ፣ ዌንዌይ ዣንግ፣ ፒንግ ሉኦ እና ካይ ቼን ለአምሳያው ጥናት እና እድገት አስተዋፅዖ አድርገዋል።
የተፈጥሮ ቋንቋ ሂደት ፣ የኮምፒተር ራዕይእና የማሽን መማር ሁሉም የቡድኑ የብቃት ዘርፎች ናቸው። በከፍተኛ ደረጃ ኮንፈረንስ እና ህትመቶች ላይ የታተሙ በርካታ መጣጥፎች፣ እንዲሁም ለሳይንሳዊ ጥረቶች ልዩ ልዩ ክብር እና ሽልማቶች አሏቸው።
የቡድኑ ጥናት በሰዎች እና በቴክኖሎጂ መካከል የበለጠ ተፈጥሯዊ እና ብልህ ግንኙነቶችን ለማስቻል እጅግ በጣም ጥሩ ሞዴሎችን እና አቀራረቦችን በማዘጋጀት ላይ ያተኩራል።
የመልቲ-ሞዳል-ጂፒቲ ልማት ራዕይን እና ቋንቋን በአንድ ማዕቀፍ ለብዙ ዙር ውይይት በማዋሃድ ከመጀመሪያዎቹ ሞዴሎች አንዱ በመሆኑ በዘርፉ ትኩረት የሚስብ ስኬት ነው።
ቡድኑ ለመልቲ ሞዳል-ጂፒቲ ምርምር እና ልማት የሚያበረክተው አስተዋፅኦ በተፈጥሮ ቋንቋ አቀነባበር እና በሰው-ማሽን መስተጋብር ላይ ትልቅ ተጽእኖ የመፍጠር አቅም አለው።
መልቲሞዳል-ጂፒቲ እንዴት መጠቀም እንደሚቻል
ለጀማሪዎች የMultiModal-GPT መሣሪያን መጠቀም ቀላል ነው። በቀላሉ ይሂዱ https://mmgpt.openmmlab.org.cn/ እና "ምስል ስቀል" የሚለውን ቁልፍ ይጫኑ.
የሚሰቅሉትን የምስል ፋይል ይምረጡ እና የጽሑፍ መጠየቂያውን በጽሑፍ መስኩ ውስጥ ያስገቡ። ከአምሳያው ምላሽ ለመፍጠር ከጽሑፍ መስኩ በታች የሚታየውን "አስገባ" ቁልፍን ጠቅ ያድርጉ።
ስለ ሞዴሉ አቅም የበለጠ ለማወቅ በተለያዩ ፎቶዎች እና መመሪያዎች መሞከር ትችላለህ።
በመጫን ላይ
የመልቲሞዳል-ጂፒቲ ፓኬጅ ለመጫን የተርሚናል ትዕዛዙን “git clone https://github.com/open-mmlab/Multimodal-GPT.git”ን በመጠቀም የጊትህብ ማከማቻውን ለመዝጋት ይጠቀሙ። በቀላሉ የሚከተሉትን ደረጃዎች መከተል ይችላሉ:
git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .
እንደ አማራጭ ይጠቀሙ conda env create -f environment.yml
አዲስ ኮንዳ አካባቢን ለመመስረት. ቀደም ሲል የሰለጠኑ ክብደቶችን በማውረድ እና በፍተሻ ነጥቦች አቃፊ ውስጥ በማከማቸት ከጫኑት በኋላ ማሳያውን በአካባቢው ማሄድ ይችላሉ።
የግራዲዮ ማሳያው "python app.py" የሚለውን ትዕዛዝ በማስኬድ ሊጀመር ይችላል።
ሊሆኑ የሚችሉ ድክመቶች
የመልቲሞዳል-ጂፒቲ ሞዴል እጅግ በጣም ጥሩ አፈጻጸም ቢኖረውም አሁንም ጉድለቶች እና ለልማት ቦታ አለው።
ለምሳሌ፣ ከተወሳሰቡ ወይም አሻሚ ከሆኑ የእይታ ግብአቶች ጋር ሲገናኝ፣ ሞዴሉ ሁልጊዜ የግብአቱን አውድ ማወቅ እና መረዳት ላይችል ይችላል። ይህ ከአምሳያው የተሳሳቱ ትንበያዎችን ወይም ምላሾችን ሊያስከትል ይችላል።
በተጨማሪም፣ በተለይም ግብአቱ የተወሳሰበ ወይም ክፍት ከሆነ፣ ሞዴሉ ሁልጊዜ ጥሩ ምላሽ ወይም ውጤት ላያመጣ ይችላል። የአምሳያው መልስ፣ ለምሳሌ፣ የሁለቱ መጽሃፍ ሽፋኖች የመፅሃፍ ሽፋን ትክክል ባልሆነ መለያ ሁኔታ ላይ ምን ያህል ተመሳሳይነት እንዳለው ተጽዕኖ ሊያሳድር ይችላል።
መደምደሚያ
በአጠቃላይ፣ የመልቲሞዳል-ጂፒቲ ሞዴል በተፈጥሮ ቋንቋ ሂደት እና በማሽን መማር ትልቅ እርምጃን ይወክላል። እና እሱን መጠቀም እና እሱን መሞከር በጣም አስደሳች ነው። ስለዚህ, እርስዎም ይሞክሩት!
ሆኖም ግን፣ ልክ እንደ ሁሉም ሞዴሎች ገደብ አለው፣ እና በተለያዩ አፕሊኬሽኖች እና ጎራዎች ውስጥ ከፍተኛ አፈፃፀም ለማግኘት ተጨማሪ ማጣራት እና ማሻሻያ ይፈልጋል።
መልስ ይስጡ