ዝርዝር ሁኔታ[ደብቅ][አሳይ]
አዲሱ እና የተሻሻለው AI ችሎታዎችን, ግንዛቤን እና ከፍተኛ ጥራት ያላቸውን ምስሎችን የማምረት አቅምን አሻሽሏል. በቅርብ ጊዜ በበይነመረቡ ዙሪያ የሚንሳፈፉ አንዳንድ እንግዳ እና አዝናኝ ምስሎች አጋጥመውዎት ይሆናል።
የሺባ ኢኑ ውሻ በበረት እና ጥቁር ኤሊ ለብሷል። እና የባህር ኦተር በሆላንዳዊው ሰዓሊ ቬርሜር “የፐርል የጆሮ ጌጥ ያለች ልጃገረድ” አይነት። እና የሱፍ ጭራቅ የሚመስል የሾርባ ኩባያ አለ።
እነዚህ ምስሎች በሰው አርቲስት አልተፈጠሩም።
በምትኩ, DALL-E 2, የጽሑፍ መግለጫዎችን ወደ ምስሎች የሚቀይር አዲስ AI ስርዓት ፈጥሯቸዋል.
በቀላሉ ማየት የሚፈልጉትን ይፃፉ እና AI ለእርስዎ ይፈጥርልዎታል - በግልፅ ዝርዝር ፣ ጥሩ ጥራት እና ፣ በአንዳንድ ሁኔታዎች ፣ እውነተኛ ፈጠራ። በዚህ ልጥፍ፣ የOpenAI የቅርብ ጊዜ ጥናት፣ DALL.E 2፣ እንዲሁም እንዴት እንደሚሰራ እና ሌሎችንም በጥልቀት እንመለከታለን። እንጀምር.
ስለዚህ ፣ በትክክል ምንድን ነው ዳኤል.ኢ 2?
DALL-E 2 በግቤት ውሂብ ላይ ትንበያ ወይም ምደባ ተግባራትን ከማከናወን ይልቅ የተወሳሰበ ውጤትን የሚያመነጭ የማሽን መማሪያ ስልተ ቀመር “የማመንጨት ሞዴል” ነው።
DALL-E 2 በጽሑፍ መግለጫ ያቀርቡታል, እና ከእሱ ጋር የሚዛመድ ምስል ይፈጥራል. ጽንሰ-ሀሳቦችን፣ ጥራቶችን እና ቅጦችን በማጣመር የOpenAI's DALLE 2 ከመሰረታዊ የቋንቋ ገለፃ ፈጠራ፣እውነታዊ ግራፊክስ እና ጥበብን መፍጠር ይችላል።
የቅርብ ጊዜ እትም DALLE 2፣ የበለጠ ሁለገብ ነው ተብሏል። ለምሳሌ፣ ከታች ያሉት ምስሎች (ከDALL-E 2 ብሎግ ልጥፍ) የተፈጠሩት “ፈረስ የሚጋልብ ጠፈርተኛ” በሚለው መግለጫ ነው።
አንደኛው መግለጫ “እንደ እርሳስ ንድፍ” ሲደመድም ሌላኛው ደግሞ “በፎቶ እውነታዊነት” ይደመድማል።
እንዲሁም ያሉትን ፎቶግራፎች በሚያስደንቅ ትክክለኛነት ሊለውጥ ይችላል። ስለዚህ፣ ቀለሞችን፣ ነጸብራቆችን እና ጥላዎችን እየጠበቁ ሳሉ ኤለመንቶችን ማከል ወይም መሰረዝ ይችላሉ፣ ሁሉም ዋናውን የምስል ገጽታ እየጠበቁ ናቸው።
እንዴት ነው የሚሰራው?
DALL-E 2 ሁለት የተራቀቁ CLIP እና ስርጭት ሞዴሎችን ይጠቀማል ጥልቀት ያለው ትምህርት በቅርብ ዓመታት ውስጥ የተገነቡ አቀራረቦች. ሆኖም ግን, ልክ እንደሌሎች ጥልቅ ሀሳቦች ተመሳሳይ ነው የነርቭ አውታረ መረቦች; የውክልና ትምህርት. CLIP በአንድ ጊዜ ሁለት ያሠለጥናል የነርቭ ኔትወርኮች በስዕሎች እና መግለጫ ጽሑፎች ላይ.
አንዱ አውታር በሥዕሉ ላይ የሚታዩትን ምስሎች ይማራል, ሌላኛው ደግሞ የጽሑፍ መግለጫዎችን ይማራል. በስልጠና ወቅት ሁለቱ ኔትወርኮች ተነጻጻሪ ስዕሎች እና መግለጫዎች ተመሳሳይ መክተቻዎችን እንዲፈጥሩ ግቤቶቻቸውን ለማሻሻል ይሞክራሉ።
የሥልጠና ናሙናዎቹን ቀስ በቀስ በጩኸት እና በመካድ ሥዕሎችን መሥራትን የሚማር “Diffusion” በDALL-E 2 ውስጥ ጥቅም ላይ የሚውለው ሌላው የማሽን መማሪያ አካሄድ ነው። ውክልናን በመክተት እና በመቀጠል ዋናውን ውሂብ ለመፍጠር የመክተት መረጃን ይጠቀሙ።
OpenAI ን በመጠቀም የቋንቋ ሞዴል CLIP፣ የጽሑፍ መግለጫዎችን ከፎቶግራፎች ጋር ማገናኘት የሚችል፣ በመጀመሪያ የጽሑፍ መጠየቂያውን ወደ መካከለኛ ቅጽ ይተረጉመዋል፣ ይህም ምስል ከጥያቄው ጋር ማዛመድ ያለበትን ወሳኝ ባህሪያትን ያካትታል (በCLIP መሠረት)።
ሁለተኛ፣ DALL-E 2 CLIP-compliant ይፈጥራል የስርጭት ሞዴል በመጠቀም ምስል, እሱም የነርቭ ኔትወርክ ነው.
በዘፈቀደ ፒክሰሎች በተዛቡ ፎቶዎች ላይ፣ የስርጭት ሞዴሎች ይማራሉ። የፎቶዎቹን የመጀመሪያ ቅጽ እንዴት ወደነበረበት መመለስ እንደሚችሉ ይማራሉ. የስርጭት ሞዴሎች ከፍተኛ ጥራት ያላቸውን ሰው ሰራሽ ምስሎችን ሊያዘጋጁ ይችላሉ, በተለይም ከብዝሃነት ትክክለኛነት ቅድሚያ ከሚሰጠው መመሪያ ጋር ተያይዞ ጥቅም ላይ ሲውል.
በውጤቱም ፣ እ.ኤ.አ. የስርጭት ሞዴል የዘፈቀደ ፒክሰሎችን ወስዶ CLIPን ይጠቀማል ወደ አዲስ ምስል ከቃሉ መጠየቂያው ጋር የሚዛመድ። በስርጭት ፅንሰ-ሀሳብ ምክንያት፣ DALL-E 2 ከDALL-E በበለጠ ፍጥነት ከፍተኛ ጥራት ያላቸውን ምስሎች መፍጠር ይችላል።
DALL.E 2 አጠቃቀም መያዣ
ባለፉት ሃያ ዓመታት ውስጥ እ.ኤ.አ. የኮምፒተር ራዕይ ቴክኖሎጂ ከቀላል አስተሳሰብ ወደ ትልቅ ስኬት አድጓል። ምንም እንኳን እነዚህ እድገቶች ቢኖሩም ፣ የምስል እና የነገር መለያ ሞዴሎች አሁንም በዕለት ተዕለት ሕይወት ውስጥ ጉልህ መሰናክሎች ያጋጥሟቸዋል። የመረጃ ስብስቦች አለመኖር የምስል ማወቂያ እና የኮምፒዩተር እይታ በጣም አስፈላጊ ከሆኑት ጉድለቶች አንዱ ነው። በሁለቱም በኩል የመረጃ እጥረት ስላለ፣ 100 በመቶ ትክክለኛ ውጤቶችን ለመስጠት የምስል ማወቂያ ሞዴሎችን ማሰልጠን ከባድ ነው።
እንደ እድል ሆኖ፣ የOpenAI አዲሱ የማሽን መማሪያ ሞዴል በቴክኖሎጂ ውስጥ ያለውን ክፍተት ማቃለል ይችላል። DALLE 2 በጽሁፍ መግለጫዎች ላይ ተመስርተው አስደናቂ ምስሎችን መፍጠር ይችላል። ይህ የውሸት ምስል ማምረት በፍላጎታቸው መሰረት ለምስል ማወቂያ ሞዴሎች መረጃን ሊያቀርብ ይችላል። የመረጃ አለመኖር ለዕቃ እና ምስል መለያ ጉልህ ማሰናከያ ነው።
በዲጂታል ዘመን የውሂብ ስብስቦች በሁሉም ቦታ ይገኛሉ ነገርግን አሁንም የ AI ሞዴልን ለመመገብ አቋራጮችን እንፈልጋለን, ስለዚህ ጥሩ ውጤቶችን ያቀርባል. ይሁን እንጂ የምስል ማወቂያ ሞዴልን ማሰልጠን ቀላል አይደለም. ብዙ ቁጥር ያላቸው የውሂብ ስብስቦችን በትንሹ ልዩነት ያስፈልገዋል፣ ይህም በቀላሉ ልናመጣው አልቻልንም።
ስለዚህ መልሱ ምንድን ነው፡ መልሱ DALLE 2 ነው። የOpenAI picture ጄኔሬተር ከጽሁፎች ምስሎችን የማዘጋጀት እና ያሉትን የመቀየር አቅሙ ክፍተቱን ለማስተካከል ይረዳል። ይህ ተጨማሪ የሥልጠና መረጃን ለማመንጨት ይረዳል እንዲሁም አስፈላጊውን የሰው መለያ ምልክት መጠን ይቀንሳል። ምንም እንኳን ከፍተኛ ጥቅም ቢኖረውም, የተጭበረበሩ ምስሎችን ማምረት እና ማካተትን የሚያካትቱ ምስሎችን ማወቅ አለብዎት. ይህ የተዛባ ውጤቶችን ወደሚሰጡ የምስል ፍለጋ ዘዴዎች ሊያመራ ይችላል።
ገደቦች
DALL.E 2 በተሳሳተ እጆች ውስጥ ከወደቀ ጎጂ ተጽእኖ ሊኖረው ይችላል, እንደ OpenAI. በዛሬው ጥልቅ የውሸት ዓለም ውስጥ፣ ሞዴሉ በቀላሉ የውሸት መረጃን ወይም የዘረኝነት ምስሎችን ለማሰራጨት ጥቅም ላይ ሊውል ይችላል፣ ለዚህም ነው OpenAI ገንቢዎች DALL.2ን በግብዣ ብቻ እንዲጠቀሙ የሚፈቅደው። አምሳያው ለምታገኛቸው ጥቆማዎች ሁሉ ጥብቅ የይዘት ገደብን ማክበር አለበት።
DALL.E 2 ማንኛውንም ጠበኛ ወይም ጥቃት አድራጊ ምስሎችን ለመፍጠር ያለውን አቅም ለማስቀረት የመረጃ ቋቱ ያለ ምንም ገዳይ መሳሪያ ተፈጠረ። OpenAI ወደፊት ወደ ኤፒአይ ለመቀየር ማቀዱን ቢገልጽም፣ በDALL.E 2 ጉዳይ፣ በጥንቃቄ ለመቀጠል ፈቃደኛ ነው።
መደምደሚያ
DALL-E 2 ለአዳዲስ አፕሊኬሽኖች በር የሚከፍት ሌላ አስደሳች የOpenAI ምርምር ግኝት ነው።
አንድ ምሳሌ ከኮምፒዩተር ራዕይ ዋና ማነቆዎች-መረጃ አንዱን ለማሟላት ግዙፍ የውሂብ ስብስቦችን መፍጠር ነው። የብዙ DALL-E-ተኮር መተግበሪያዎች ኢኮኖሚያዊ ጉዳይ OpenAI ለኤፒአይ ተጠቃሚዎቹ በሚያወጣው ዋጋ እና ፖሊሲዎች የሚወሰን ቢሆንም፣ ሁሉም የምስል ምርትን እንደሚያሳድጉ ጥርጥር የለውም።
መልስ ይስጡ