ምናልባት ኮምፒዩተር ሥዕልን ሊገልጽ እንደሚችል ያውቃሉ።
ለምሳሌ ውሻ ከልጆችዎ ጋር ሲጫወት የሚያሳይ ምስል 'ውሻ እና በአትክልቱ ውስጥ ያሉ ልጆች' ተብሎ ሊተረጎም ይችላል. ግን ተቃራኒው መንገድ አሁን የሚቻል መሆኑን ያውቃሉ? አንዳንድ ቃላትን ትተይባለህ፣ እና ማሽኑ አዲስ ምስል ይፈጥራል።
ነባር ፎቶግራፎችን ከሚፈልግ ጎግል ፍለጋ በተለየ ይህ ሁሉ ትኩስ ነው። በቅርብ ዓመታት ውስጥ, OpenAI አስደናቂ ውጤቶችን ሪፖርት በማድረግ ግንባር ቀደም ድርጅቶች አንዱ ነው.
ስልተ ቀመራቸውን በግዙፍ የፅሁፍ እና የስዕል ዳታቤዝ ያሰለጥናሉ። በመቶ ሚሊዮኖች በሚቆጠሩ ፎቶዎች ላይ የሰለጠኑ የ GLIDE ምስል ሞዴላቸው ላይ ወረቀት አሳትመዋል። ከፎቶሪያሊዝም አንፃር፣ ከቀድሞው 'DALL-E' ሞዴል ይበልጣል።
በዚህ ልኡክ ጽሁፍ ላይ፣ በጽሁፍ በሚመሩ የስርጭት ሞዴሎች የፎቶ እውነታዊ ምስሎችን ለመስራት እና ለመለወጥ የታለሙ ከበርካታ አስደናቂ ውጥኖች መካከል አንዱ የሆነውን OpenAI's GLIDEን እንመለከታለን። እንጀምር.
ምንድነው AI Glideን ይክፈቱ?
አብዛኛዎቹ ምስሎች በቃላት ሊገለጹ ቢችሉም, ምስሎችን ከጽሑፍ ግብዓቶች መፍጠር ልዩ እውቀትን እና ከፍተኛ ጊዜን ይጠይቃል.
የ AI ወኪል ከተፈጥሯዊ ቋንቋ የሚነሱ የፎቶ እውነታዊ ምስሎችን እንዲያቀርብ መፍቀድ ሰዎች የበለጸጉ እና የተለያዩ ምስላዊ ነገሮችን እንዲፈጥሩ ብቻ ሳይሆን ከዚህ በፊት ታይቶ በማይታወቅ ሁኔታ ቀላል በሆነ መልኩ ማሻሻያ እና የተፈጠሩ ምስሎችን በጥሩ ሁኔታ ለመቆጣጠር ያስችላል።
GLIDE አዳዲስ ነገሮችን ለማስገባት፣ ጥላዎችን እና ነጸብራቆችን ለመፍጠር እና ለማከናወን የተፈጥሮ ቋንቋ የጽሁፍ ጥያቄዎችን በመጠቀም ነባር ፎቶዎችን ለማርትዕ መጠቀም ይቻላል። ምስል መቀባት, እናም ይቀጥላል.
እንዲሁም መሰረታዊ የመስመሮች ንድፎችን ወደ ፎቶግራፎች ሊለውጠው ይችላል, እና ለየት ያለ ዜሮ-ናሙና የማምረት እና ውስብስብ ሁኔታዎችን የመጠገን ችሎታዎች አሉት.
በቅርብ ጊዜ የተደረጉ ጥናቶች እንደሚያሳዩት በተመጣጣኝ ሁኔታ ላይ የተመሰረቱ የስርጭት ሞዴሎች ከፍተኛ ጥራት ያላቸውን ሰው ሰራሽ ምስሎች በተለይም ልዩነትን እና ታማኝነትን ከሚያስተካክል መመሪያ ጋር ሲጣመሩ።
OpenAI አሳተመ የተመራ ስርጭት ሞዴል በግንቦት ውስጥ፣ የስርጭት ሞዴሎች በክላሲፋየር መለያዎች ላይ ሁኔታዊ እንዲሆኑ ያስችላቸዋል። GLIDE በጽሑፍ ሁኔታዊ ምስል መፍጠር ላይ የተመራ ስርጭትን በማምጣት በዚህ ስኬት ላይ ያሻሽላል።
በተፈጥሮ ቋንቋ መግለጫዎች ላይ የጽሑፍ ኢንኮደርን በመጠቀም የ3.5 ቢሊዮን መለኪያ GLIDE ስርጭት ሞዴልን ካሰለጠኑ በኋላ ተመራማሪዎቹ ሁለት አማራጭ የመመሪያ ስልቶችን ሞክረዋል፡ CLIP መመሪያ እና ክላሲፋየር-ነጻ መመሪያ።
CLIP ምስሉ ወደ መግለጫ ጽሁፍ ምን ያህል ቅርብ እንደሆነ ላይ በመመስረት ነጥብ የሚያቀርብ የጽሑፍ እና የሥዕሎች የጋራ ውክልናዎችን ለመማር ሊለካ የሚችል ዘዴ ነው።
ቡድኑ ይህንን ስልት በስርጭት ሞዴሎቻቸው ውስጥ የተጠቀመው ክላሲፋየር ሞዴሎቹን "በሚመራው" በ CLIP ሞዴል በመተካት ነው። ይህ በእንዲህ እንዳለ፣ ክላሲፋየር-ነጻ መመሪያ የተለየ ክላሲፋየር ሥልጠናን የማያካትቱ የስርጭት ሞዴሎችን የመምራት ስልት ነው።
GLIDE አርክቴክቸር
የ GLIDE አርክቴክቸር ሶስት አካላትን ያቀፈ ነው፡- 64 × 64 ምስል ለማመንጨት የሰለጠነ Ablated Diffusion Model (ADM)፣ የፅሁፍ ሞዴል (ትራንስፎርመር) በፅሁፍ መጠየቂያ ምስል ማመንጨት ላይ ተጽእኖ የሚያሳድር እና የእኛን ትንሽ 64 × 64 የሚቀይር ትልቅ ሞዴል ምስሎች የበለጠ ሊተረጎሙ የሚችሉ 256 x 256 ፒክሰሎች።
የመጀመሪያዎቹ ሁለቱ አካላት የሥዕል ማመንጨት ሂደትን በመቆጣጠር የጽሑፍ መጠየቂያውን በተገቢው መንገድ እንዲያንፀባርቁ ሲሠሩ የኋለኛው ደግሞ እኛ የምንፈጥራቸውን ምስሎች በቀላሉ ለመረዳት ይፈለጋል። የ GLIDE ፕሮጀክት አነሳሽነት በኤ በ2021 የታተመ ዘገባ ያ የሚያሳየው የኤዲኤም ቴክኒኮች በአሁኑ ጊዜ ታዋቂ ከሆኑ ዘመናዊ አመንጪ ሞዴሎች በምስል ናሙና ጥራት ይበልጣል።
ለኤዲኤም፣ የGLIDE ደራሲዎች እንደ ዳሪዋል እና ኒኮል ተመሳሳይ ImageNet 64 x 64 ሞዴልን ተጠቅመዋል፣ ነገር ግን ከ 512 ይልቅ 64 ቻናሎች ያሉት። የImageNet ሞዴል በዚህ ምክንያት በግምት 2.3 ቢሊዮን መለኪያዎች አሉት።
የGLIDE ቡድን ከዳሪዋል እና ኒኮል በተለየ መልኩ በስዕሉ አመራረት ሂደት ላይ የበለጠ ቀጥተኛ ቁጥጥር እንዲኖራቸው ፈልጎ ነበር፣በመሆኑም ምስላዊ ሞዴሉን በትኩረት ከነቃ ትራንስፎርመር ጋር አጣምረዋል። GLIDE የጽሑፍ ግቤት ጥያቄዎችን በማስኬድ በሥዕሉ የማመንጨት ሂደት ላይ የተወሰነ ቁጥጥር ይሰጥዎታል።
ይህ የትራንስፎርመር ሞዴሉን በተገቢው ትልቅ የፎቶዎች ስብስብ እና መግለጫ ፅሁፎች ላይ በማሰልጠን ነው (በDALL-E ፕሮጀክት ውስጥ ከተቀጠረው ጋር ተመሳሳይ)።
ጽሑፉ መጀመሪያ ላይ ሁኔታውን ለማስተካከል ወደ ተከታታይ ኬ ቶከኖች ተቀምጧል። ከዚያ በኋላ ቶከኖቹ ወደ ትራንስፎርመር ሞዴል ይጫናሉ. የትራንስፎርመሩን ውጤት በሁለት መንገድ መጠቀም ይቻላል. ለኤዲኤም ሞዴል፣ የመጨረሻው ማስመሰያ መክተት ከክፍል መክተት ይልቅ ጥቅም ላይ ይውላል።
ሁለተኛ፣ የማስመሰያ መክተቻዎች የመጨረሻ ንብርብር - ተከታታይ የባህሪ ቬክተር - በኤዲኤም ሞዴል ውስጥ ላለው እያንዳንዱ የትኩረት ሽፋን ልኬቶች ለብቻው ተቀርጿል እና ከእያንዳንዱ ትኩረት አውድ ጋር ተጣምሯል።
እንደ እውነቱ ከሆነ፣ ይህ የኤዲኤም ሞዴል የግብአት ቃላቶችን እና ተዛማጅ ምስሎቻቸውን በተማረው ግንዛቤ መሰረት በልዩ እና በፎቶ እውነታዊ ፋሽን ከአዳዲስ ተመሳሳይ የጽሑፍ ቶከኖች ውህዶች ምስል እንዲያዘጋጅ ያስችለዋል። ይህ የጽሑፍ ኢንኮዲንግ ትራንስፎርመር 1.2 ቢሊዮን መለኪያዎችን የያዘ ሲሆን በ 24 ስፋት 2048 የተረፈ ብሎኮችን ይጠቀማል።
በመጨረሻም፣ የኡሳምፕለር ስርጭቱ ሞዴል ወደ 1.5 ቢሊዮን የሚጠጉ መለኪያዎችን ያካትታል እና ከመሰረታዊ ሞዴሉ የሚለያይ በመሆኑ የጽሑፍ ኢንኮደሩ ያነሰ፣ ወርድ 1024 እና 384 ቤዝ ሰርጦች፣ ከመሠረታዊ ሞዴል ጋር ሲነጻጸር። ይህ ሞዴል, ስሙ እንደሚያመለክተው, ለሁለቱም ማሽኖች እና ሰዎች አተረጓጎም ለማሻሻል ናሙናውን ለማሻሻል ይረዳል.
የስርጭት ሞዴል
GLIDE የራሱን የ ADM (ADM-G ለ "የተመራ") በመጠቀም ምስሎችን ያመነጫል. የኤዲኤም-ጂ ሞዴል የስርጭት ዩ-ኔት ሞዴል ማሻሻያ ነው። የስርጭት ዩ-ኔት ሞዴል እንደ VAE፣ GAN እና ትራንስፎርመሮች ካሉ በጣም ከተለመዱት የምስል ውህደት ቴክኒኮች በእጅጉ ይለያል።
ቀስ በቀስ የዘፈቀደ ድምጽን ወደ መረጃው ውስጥ ለማስገባት የማርኮቭ ሰንሰለትን የማሰራጨት እርምጃዎችን ይገነባሉ እና ከዚያ የማሰራጨት ሂደቱን መቀልበስ እና አስፈላጊውን የውሂብ ናሙናዎች ከድምጽ ብቻ እንደገና መገንባት ይማራሉ ። በሁለት ደረጃዎች ይሠራል: ወደ ፊት እና ወደ ኋላ ማሰራጨት.
ከናሙናው እውነተኛ ስርጭት የውሂብ ነጥብ የተሰጠው ወደፊት የማሰራጨት ዘዴ፣ አስቀድሞ በተዘጋጀ ተከታታይ ደረጃዎች ላይ ትንሽ ድምጽን ወደ ናሙናው ይጨምራል። ደረጃዎቹ በመጠን ሲጨመሩ እና ወደ ማለቂያነት ሲቃረቡ, ናሙናው ሁሉንም ሊታወቁ የሚችሉ ባህሪያትን ያጣል እና ቅደም ተከተላቸው ከ isotropic Gaussian ጥምዝ ጋር መምሰል ይጀምራል.
በኋለኛው ስርጭት ወቅት ደረጃ, የስርጭት ሞዴል የተጨመረው ጫጫታ በሥዕሎቹ ላይ ያለውን ተጽእኖ ለመቀልበስ ይማራል እና የተመረተውን ምስል የመጀመሪያውን የግብአት ናሙና ስርጭትን ለመምሰል በመሞከር ወደ መጀመሪያው ቅርጽ ይመራል።
የተጠናቀቀ ሞዴል በእውነተኛ Gaussian ጫጫታ ግብዓት እና በጥያቄ ሊሰራ ይችላል። የኤዲኤም-ጂ ዘዴ ከቀዳሚው ይለያያል፣ አንድም ሞዴል፣ CLIP ወይም ብጁ ትራንስፎርመር፣ የገቡትን የጽሑፍ መጠየቂያ ቶከኖች በመጠቀም ወደ ኋላ የማሰራጨት ደረጃ ላይ ተጽዕኖ ያሳድራል።
የማንሸራተት ችሎታዎች
1. የምስል ማመንጨት
በጣም ታዋቂ እና በሰፊው ጥቅም ላይ የዋለው የ GLIDE አጠቃቀም ምናልባት የምስል ውህደት ሊሆን ይችላል። ምንም እንኳን ስዕሎቹ መጠነኛ ቢሆኑም GLIDE በእንስሳት/በሰው ቅርጾች ላይ ችግር ቢኖረውም፣ የአንድ-ምት ምስል የማምረት እድሉ ማለቂያ የለውም።
የእንስሳትን, የታዋቂዎችን, የመሬት አቀማመጦችን, ሕንፃዎችን እና ሌሎችንም ፎቶግራፎችን መፍጠር ይችላል, እና በተለያዩ የጥበብ ዘይቤዎች እንዲሁም በፎቶ-በእውነታዊነት ሊያደርገው ይችላል. የተመራማሪዎቹ ደራሲዎች GLIDE ከዚህ በታች ባሉት ናሙናዎች እንደታየው የተለያዩ የፅሁፍ ግብአቶችን ወደ ምስላዊ ፎርማት መተርጎም እና ማስተካከል የሚችል መሆኑን አስረግጠው ተናግረዋል።
2. ተንሸራታች ቀለም መቀባት
የ GLIDE አውቶማቲክ የፎቶ ሥዕል በጣም ማራኪ አጠቃቀም ነው ሊባል ይችላል። GLIDE ነባሩን ምስል እንደ ግብአት ያንሳል፣ የጽሑፍ መጠየቂያውን በአእምሮው ውስጥ መቀየር ለሚፈልጉ ቦታዎች ማስኬድ እና ከዚያም በእነዚያ ክፍሎች ላይ ንቁ ማሻሻያዎችን ማድረግ ይችላል።
የተሻለ ውጤት ለማምጣት እንደ ኤስዲዲት ካሉ የአርትዖት ሞዴል ጋር አብሮ ጥቅም ላይ መዋል አለበት። ለወደፊቱ፣ እንደነዚህ ያሉ ችሎታዎችን የሚጠቀሙ መተግበሪያዎች ከኮድ-ነጻ ስዕል-መቀየር አቀራረቦችን ለማዘጋጀት ወሳኝ ሊሆኑ ይችላሉ።
መደምደሚያ
አሁን ሂደቱን ካለፍን በኋላ፣ GLIDE እንዴት እንደሚሰራ፣ እንዲሁም የችሎታውን ስፋት በምስል መፍጠር እና በምስል ማሻሻያ ላይ መረዳት አለቦት።
መልስ ይስጡ