በቅርብ ዓመታት ውስጥ, ጥልቅ-ትምህርት ሞዴሎች የሰውን ቋንቋ በመረዳት ረገድ የበለጠ ውጤታማ እየሆኑ መጥተዋል.
እንደ ፕሮጀክቶች አስቡ GPT-3አሁን ሙሉ ጽሁፎችን እና ድር ጣቢያዎችን መፍጠር የሚችል። GitHub በቅርቡ አስተዋውቋል GitHub ረዳት አብራሪየሚፈልጉትን የኮድ አይነት በመግለጽ ሙሉ የኮድ ቅንጣቢዎችን የሚያቀርብ አገልግሎት።
በOpenAI፣ Facebook እና Google ያሉ ተመራማሪዎች ሌላ ተግባር ለመፈፀም ጥልቅ ትምህርትን ለመጠቀም መንገዶችን ሲሰሩ ቆይተዋል፡ ምስሎችን የመግለጽ። በሚሊዮኖች የሚቆጠሩ ምዝግቦችን የያዘ ትልቅ የውሂብ ስብስብ በመጠቀም የተወሰኑትን ይዘው መጥተዋል። አስገራሚ። ውጤቶች.
በቅርብ ጊዜ, እነዚህ ተመራማሪዎች ተቃራኒውን ተግባር ለማከናወን ሞክረዋል-ምስሎችን ከመግለጫ ፅሁፎች መፍጠር. አሁን ከማብራሪያው ውስጥ ሙሉ ለሙሉ አዲስ ምስል መፍጠር ይቻላል?
ይህ መመሪያ ሁለቱን በጣም የላቁ የጽሑፍ-ወደ-ምስል ሞዴሎችን ይዳስሳል፡- OpenAI's DALL-E 2 እና Google's Imagen AI። እያንዳንዳቸው እነዚህ ፕሮጀክቶች እኛ እንደምናውቀው ማህበረሰቡን ሊለውጡ የሚችሉ መሰረታዊ ዘዴዎችን አስተዋውቀዋል።
በመጀመሪያ ግን ከጽሑፍ ወደ ምስል ትውልድ ስንል ምን ማለታችን እንደሆነ እንረዳ።
ከጽሑፍ ወደ ምስል ማመንጨት ምንድነው?
የጽሑፍ-ወደ-ምስል ሞዴሎች ኮምፒውተሮች በጥያቄዎች ላይ በመመስረት አዲስ እና ልዩ ምስሎችን እንዲፈጥሩ ፍቀድ። ሰዎች አሁን ለመስራት የሚፈልጉትን ምስል የጽሁፍ መግለጫ ማቅረብ ይችላሉ፣ እና ሞዴሉ በተቻለ መጠን ከዚህ መግለጫ ጋር የሚዛመድ ምስላዊ ለመፍጠር ይሞክራል።
የማሽን መማሪያ ሞዴሎች አፈፃፀሙን የበለጠ ለማሻሻል የምስል መግለጫ ጥንዶችን የያዙ ትላልቅ የውሂብ ስብስቦችን መጠቀም ችለዋል።
አብዛኛው ጽሑፍ-ወደ-ምስል ሞዴሎች ትራንስፎርመር ቋንቋ ሞዴል ይጠቀማሉ ጥያቄዎችን ለመተርጎም. የዚህ ዓይነቱ ሞዴል ሀ የነርቭ ኔትወርክ የተፈጥሮ ቋንቋን አውድ እና የትርጉም ትርጉም ለመማር የሚሞክር።
በመቀጠል እንደ አመንጪ ሞዴሎች የስርጭት ሞዴሎች እና አመንጪ ተከራካሪ ኔትወርኮች ለምስል ውህደት ጥቅም ላይ ይውላሉ።
DALLE 2 ምንድን ነው?
ዳኤል-ኢ2 በኤፕሪል 2022 የተለቀቀው በOpenAI የኮምፒዩተር ሞዴል ነው። ሞዴሉ ቃላትን እና ሀረጎችን ከምስሎች ጋር ለማያያዝ በሚሊዮኖች በሚቆጠሩ ምስሎች ዳታቤዝ ላይ ሰልጥኗል።
ተጠቃሚዎች ቀለል ያለ ሀረግ መተየብ ይችላሉ፣ ለምሳሌ “ድመት ላዛኛ እየበላች”፣ እና DALL-E 2 ሐረጉን ለመግለጽ እየሞከረ ያለውን የራሱን ትርጓሜ ይፈጥራል።
ከባዶ ምስሎችን ከመፍጠር በተጨማሪ DALL-E 2 ነባር ምስሎችን ማርትዕ ይችላል። ከታች ባለው ምሳሌ DALL-E የተጨመረው ሶፋ ያለው ክፍል የተሻሻለ ምስል መፍጠር ችሏል።
DALL-E 2 OpenAI ባለፉት ጥቂት አመታት ከለቀቀው ከብዙ ተመሳሳይ ፕሮጀክቶች ውስጥ አንዱ ነው። የOpenAI's GPT-3 የተለያየ ዘይቤ ያላቸውን ጽሑፎች የሚያመነጭ በሚመስል ጊዜ ለዜና ተስማሚ ሆኗል።
በአሁኑ ጊዜ፣ DALL-E 2 አሁንም በቅድመ-ይሁንታ ሙከራ ላይ ነው። ፍላጎት ያላቸው ተጠቃሚዎች ለእነርሱ መመዝገብ ይችላሉ። የመጠባበቂያ ዝርዝር እና ለመድረስ ይጠብቁ.
እንዴት ነው የሚሰራው?
የDALL-E 2 ውጤቶች አስደናቂ ቢሆኑም፣ ሁሉም እንዴት እንደሚሰራ እያሰቡ ይሆናል።
DALL-E 2 የ OpenAI's GPT-3 ፕሮጀክት የመልቲሞዳል ትግበራ ምሳሌ ነው።
በመጀመሪያ የተጠቃሚው የጽሑፍ መጠየቂያ መጠየቂያውን ወደ ውክልና ቦታ በሚያዘጋጅ የጽሑፍ ኢንኮደር ውስጥ ይቀመጣል። DALL-E 2 ከተፈጥሮ ቋንቋ የትርጉም መረጃ ለማግኘት CLIP (ተቃራኒ ቋንቋ-ምስል ቅድመ-ስልጠና) የተባለ ሌላ የOpenAI ሞዴል ይጠቀማል።
ቀጥሎ, ሞዴል በመባል ይታወቃል በፊት የጽሑፍ ኢንኮዲንግ ወደ ምስል ኢንኮዲንግ ያዘጋጃል። ይህ የምስል ኢንኮዲንግ በጽሑፍ ኢንኮዲንግ ደረጃ ላይ የሚገኘውን የትርጉም መረጃ መያዝ አለበት።
ትክክለኛውን ምስል ለመፍጠር DALL-E 2 የፍቺ መረጃን እና የምስል ኢንኮዲንግ ዝርዝሮችን በመጠቀም ምስላዊ ለማመንጨት የምስል ዲኮደርን ይጠቀማል። OpenAI የተሻሻለውን ስሪት ይጠቀማል ግላይድ ምስል ማመንጨትን ለማከናወን ሞዴል. GLIDE በ ሀ የስርጭት ሞዴል ምስሎችን ለመፍጠር.
የ GLIDE ወደ DALL-E 2 ሞዴል መጨመሩ የበለጠ የፎቶ እውነታዊ ውፅዓት አስችሏል። የ GLIDE ሞዴል ስቶካስቲክ ወይም በዘፈቀደ የሚወሰን ስለሆነ፣ የ DALL-E 2 ሞዴል ሞዴሉን ደጋግሞ በማሄድ በቀላሉ ልዩነቶችን መፍጠር ይችላል።
ገደቦች
የ DALL-E 2 ሞዴል አስደናቂ ውጤቶች ቢኖሩም, አሁንም አንዳንድ ገደቦች ያጋጥሙታል.
የፊደል አጻጻፍ ጽሑፍ
DALL-E 2 ጽሑፍ እንዲያመነጭ ለማድረግ የሚሞክሩ ጥያቄዎች ቃላትን መጻፍ መቸገሩን ያሳያሉ። ባለሙያዎች ይህ ሊሆን የሚችለው የፊደል አጻጻፍ መረጃ አካል ስላልሆነ ሊሆን ይችላል ብለው ይገምታሉ የስልጠና መረጃ ስብስብ.
የአጻጻፍ ማመዛዘን
ተመራማሪዎች DALL-E 2 አሁንም በቅንጅት የማመዛዘን ችግር እንዳለበት አስተውለዋል። በቀላል አነጋገር ሞዴሉ አሁንም በእነዚህ ገጽታዎች መካከል ያለውን ግንኙነት ለማወቅ ሲቸገር የምስሉን ግለሰባዊ ገፅታዎች ሊረዳ ይችላል።
ለምሳሌ፣ “በሰማያዊ ኪዩብ ላይ ቀይ ኪዩብ” የሚል ጥያቄ ከተሰጠው DALL-E ሰማያዊ ኪዩብ እና ቀይ ኪዩብ በትክክል ያመነጫል ነገርግን በትክክል ማስቀመጥ አልቻለም። ሞዴሉ የተወሰኑ የቁሳቁሶች ብዛት እንዲወጣ የሚጠይቁ ጥቆማዎች ሲቸገሩም ተስተውለዋል።
በውሂብ ስብስብ ውስጥ አድልዎ
መጠየቂያው ሌላ ዝርዝሮች ከሌለው DALL-E ነጭ ወይም ምዕራባዊ ሰዎችን እና አካባቢዎችን ለማሳየት ተስተውሏል. ይህ ውክልና አድሎአዊነት የሚከሰተው በምዕራባውያን ማዕከላዊ ምስሎች በመረጃ ቋቱ ውስጥ በብዛት በመኖራቸው ነው።
ሞዴሉ የስርዓተ-ፆታ አመለካከቶችን ሲከተል ተስተውሏል. ለምሳሌ፣ “የበረራ አስተናጋጅ” የሚለውን ፈጣን መተየብ በአብዛኛው የሴት የበረራ አስተናጋጆች ምስሎችን ይፈጥራል።
Google Imagen AI ምንድን ነው?
የ Google ምስል AI ከግቤት ጽሑፍ የፎቶግራፍ ምስሎችን ለመፍጠር ያለመ ሞዴል ነው። ከDALL-E ጋር በሚመሳሰል መልኩ ሞዴሉ ጽሑፉን ለመረዳት የትራንስፎርመር ቋንቋ ሞዴሎችን ይጠቀማል እና ከፍተኛ ጥራት ያላቸውን ምስሎች ለመፍጠር በስርጭት ሞዴሎችን ይጠቀማል።
ከኢምጅን ጎን ለጎን፣ ጎግል ድራውቤንች ለሚባለው ከጽሑፍ ወደ ምስል ሞዴሎችም መለኪያ አውጥቷል። DrawBench ን በመጠቀም የሰው ተቆጣጣሪዎች የምስልን ውፅዓት ከ DALL-E 2 ን ጨምሮ ከሌሎች ሞዴሎች እንደሚመርጡ ለመመልከት ችለዋል።
እንዴት ነው የሚሰራው?
ከDALL-E ጋር በሚመሳሰል መልኩ ኢሜጂን በመጀመሪያ የተጠቃሚ መጠየቂያውን በታሰረ የጽሑፍ ኢንኮደር ወደ ጽሑፍ መክተት ይለውጠዋል።
ኢማን የጩኸት ጥለትን ወደ ምስሎች እንዴት መለወጥ እንደሚቻል የሚማር የማሰራጫ ሞዴል ይጠቀማል። የእነዚህ ምስሎች የመጀመሪያ ውፅዓት ዝቅተኛ ጥራት ያለው ሲሆን በኋላ ላይ የመጨረሻውን ምስል ጥራት ለመጨመር እጅግ በጣም ከፍተኛ ጥራት ያለው ስርጭት ሞዴል ተብሎ በሚታወቀው ሌላ ሞዴል በኩል ይለፋሉ. የመጀመሪያው የስርጭት ሞዴል 64 × 64 ፒክስል ምስል ያወጣል እና በኋላ ወደ ከፍተኛ ጥራት 1024 × 1024 ምስል ይነፋል ።
በምስል ዳታ ላይ ብቻ የሰለጠኑ ትላልቅ የቀዘቀዙ የቋንቋ ሞዴሎች አሁንም ከጽሑፍ ወደ ምስል ማመንጨት በጣም ውጤታማ የጽሑፍ ማቀፊያዎች ናቸው።
ጥናቱ የተለዋዋጭ ገደብ ጽንሰ-ሀሳብንም ያስተዋውቃል። ይህ ዘዴ ምስሉን በሚፈጥሩበት ጊዜ የመመሪያ ክብደቶችን በመጨመር ምስሎች የበለጠ ፎቶ-እውነታዎች እንዲመስሉ ያስችላቸዋል።
የDALLE 2 vs Imagen አፈጻጸም
ከGoogle መለኪያ የመጀመሪያ ደረጃ ውጤቶች እንደሚያሳዩት የሰው ምላሽ ሰጪዎች በImagen የተፈጠሩ ምስሎችን ከDALL-E 2 እና ከጽሑፍ ወደ ምስል ሞዴሎች እንደ Latent Diffusion እና VQGAN+CLIP ይመርጣሉ።
ከኢሜን ቡድን የተገኘው ውጤትም ሞዴላቸው በፊደል አጻጻፍ ላይ የተሻለ አፈጻጸም እንዳለው አሳይቷል ይህም የ DALL-E 2 ሞዴል ድክመት ይታወቃል።
ሆኖም ጎግል ሞዴሉን ለህዝብ ይፋ ስላላደረገ የጎግል መለኪያዎች ምን ያህል ትክክል እንደሆኑ አሁንም መታየት አለበት።
መደምደሚያ
እነዚህ ሞዴሎች ለሥነ ምግባር የጎደለው ጥቅም የበሰሉ በመሆናቸው የፎቶግራፍ-ወደ-ምስል ሞዴሎች መነሳት አከራካሪ ነው።
ቴክኖሎጂው ግልጽ የሆነ ይዘት እንዲፈጠር ወይም የመረጃ ማሰራጫ መሳሪያ ሊሆን ይችላል። ከሁለቱም ጎግል እና ኦፕንአይአይ የተውጣጡ ተመራማሪዎች ይህንን ያውቃሉ፣ ይህም በከፊል እነዚህ ቴክኖሎጂዎች አሁንም ለሁሉም ሰው የማይደርሱበት ምክንያት ነው።
የጽሑፍ-ወደ-ምስል ሞዴሎችም ጉልህ ኢኮኖሚያዊ አንድምታዎች አሏቸው። እንደ DALL-E ያሉ ሞዴሎች ዋና ከሆኑ እንደ ሞዴሎች፣ ፎቶግራፍ አንሺዎች እና አርቲስቶች ያሉ ሙያዎች ይጎዳሉ?
በአሁኑ ጊዜ እነዚህ ሞዴሎች አሁንም ገደቦች አሏቸው. ማንኛውንም በ AI የመነጨ ምስልን ለመመርመር መያዙ ጉድለቶቹን ያሳያል። ሁለቱም OpenAI እና Google በጣም ውጤታማ ለሆኑ ሞዴሎች ሲወዳደሩ፣ እውነተኛ ፍፁም የሆነ ውጤት ከመፈጠሩ በፊት የጊዜ ጉዳይ ሊሆን ይችላል፡ ከእውነተኛው ነገር የማይለይ ምስል።
ቴክኖሎጂ ያን ያህል ርቀት ሲሄድ ምን ይሆናል ብለው ያስባሉ?
መልስ ይስጡ