ഉള്ളടക്ക പട്ടിക[മറയ്ക്കുക][കാണിക്കുക]
പുതിയതും മെച്ചപ്പെടുത്തിയതുമായ AI മെച്ചപ്പെട്ട കഴിവുകളും ഗ്രഹണശേഷിയും ഉയർന്ന മിഴിവുള്ള ചിത്രങ്ങൾ നിർമ്മിക്കാനുള്ള ശേഷിയും മെച്ചപ്പെടുത്തിയിട്ടുണ്ട്. ഇന്റർനെറ്റിൽ ചുറ്റിക്കറങ്ങുന്ന വിചിത്രവും രസകരവുമായ ചില ചിത്രങ്ങൾ നിങ്ങൾ ഈയിടെ കണ്ടിട്ടുണ്ടാകാം.
ഒരു ഷിബ ഇനു നായ ബെററ്റും കറുത്ത കടലാമയും ധരിച്ചിരിക്കുന്നു. ഡച്ച് ചിത്രകാരൻ വെർമീറിന്റെ "പേൾ കമ്മലുള്ള പെൺകുട്ടി" എന്ന രീതിയിലുള്ള കടൽ ഒട്ടറും. ഒപ്പം ഒരു കമ്പിളി രാക്ഷസനെപ്പോലെ തോന്നിക്കുന്ന ഒരു കപ്പ് സൂപ്പുമുണ്ട്.
ഈ ചിത്രങ്ങൾ ഒരു മനുഷ്യ കലാകാരൻ സൃഷ്ടിച്ചതല്ല.
പകരം, വാചക വിവരണങ്ങളെ ചിത്രങ്ങളാക്കി മാറ്റാൻ കഴിയുന്ന ഒരു പുതിയ AI സിസ്റ്റമായ DALL-E 2 അവ സൃഷ്ടിച്ചു.
നിങ്ങൾ കാണാൻ ആഗ്രഹിക്കുന്നത് ലളിതമായി എഴുതുക, AI അത് നിങ്ങൾക്കായി സൃഷ്ടിക്കും - വ്യക്തമായ വിശദാംശങ്ങളിലും മികച്ച നിലവാരത്തിലും ചില സന്ദർഭങ്ങളിൽ യഥാർത്ഥ കണ്ടുപിടുത്തത്തിലും. ഈ പോസ്റ്റിൽ, OpenAI-യുടെ ഏറ്റവും പുതിയ പഠനമായ DALL.E 2, അത് എങ്ങനെ പ്രവർത്തിക്കുന്നു, കൂടാതെ മറ്റു പലതും ഞങ്ങൾ ആഴത്തിൽ പരിശോധിക്കും. നമുക്ക് തുടങ്ങാം.
അതിനാൽ, കൃത്യമായി എന്താണ് DALL.E 2?
DALL-E 2 എന്നത് ഒരു "ജനറേറ്റീവ് മോഡൽ" ആണ്, ഇത് ഇൻപുട്ട് ഡാറ്റയിൽ പ്രവചനമോ വർഗ്ഗീകരണ ജോലികളോ ചെയ്യുന്നതിനുപകരം സങ്കീർണ്ണമായ ഔട്ട്പുട്ട് സൃഷ്ടിക്കുന്ന ഒരു തരം മെഷീൻ ലേണിംഗ് അൽഗോരിതം ആണ്.
നിങ്ങൾ ഒരു രേഖാമൂലമുള്ള വിവരണത്തോടെ DALL-E 2 നൽകുന്നു, അതിന് അനുയോജ്യമായ ഒരു ചിത്രം അത് സൃഷ്ടിക്കുന്നു. ആശയങ്ങളും ഗുണങ്ങളും ശൈലികളും സംയോജിപ്പിച്ച്, OpenAI-യുടെ DALLE 2-ന് അടിസ്ഥാന ഭാഷാ വിവരണത്തിൽ നിന്ന് നൂതനവും റിയലിസ്റ്റിക് ഗ്രാഫിക്സും കലയും സൃഷ്ടിക്കാൻ കഴിയും.
ഏറ്റവും പുതിയ പതിപ്പായ DALLE 2, കൂടുതൽ വൈവിധ്യമാർന്നതാണെന്നും, ഉയർന്ന റെസല്യൂഷനുകളിലും ക്രിയേറ്റീവ് ശൈലികളുടെ വിശാലമായ സ്പെക്ട്രത്തിലും അടിക്കുറിപ്പുകളിൽ നിന്ന് ചിത്രങ്ങൾ നിർമ്മിക്കാൻ കഴിവുള്ളതാണെന്നും പറയപ്പെടുന്നു. ഉദാഹരണത്തിന്, ചുവടെയുള്ള ചിത്രങ്ങൾ (DALL-E 2 ബ്ലോഗ് പോസ്റ്റിൽ നിന്ന്) "ഒരു ബഹിരാകാശയാത്രികൻ കുതിരപ്പുറത്ത് കയറുന്നു" എന്ന വിവരണത്താൽ സൃഷ്ടിച്ചതാണ്.
ഒരു വിവരണം "പെൻസിൽ സ്കെച്ച് പോലെ" അവസാനിക്കുന്നു, മറ്റൊന്ന് "ഫോട്ടോറിയലിസ്റ്റിക് രീതിയിൽ" എന്ന് ഉപസംഹരിക്കുന്നു.
വിസ്മയിപ്പിക്കുന്ന കൃത്യതയോടെ നിലവിലുള്ള ഫോട്ടോഗ്രാഫുകൾ മാറ്റാനും ഇതിന് കഴിയും. അതിനാൽ, യഥാർത്ഥ ചിത്രത്തിന്റെ രൂപഭാവം നിലനിർത്തിക്കൊണ്ട്, നിറങ്ങൾ, പ്രതിഫലനങ്ങൾ, നിഴലുകൾ എന്നിവ നിലനിർത്തിക്കൊണ്ട് നിങ്ങൾക്ക് ഘടകങ്ങൾ ചേർക്കാനോ ഇല്ലാതാക്കാനോ കഴിയും.
അതെങ്ങനെയാണ് പ്രവര്ത്തിക്കുന്നത്?
DALL-E 2 CLIP, ഡിഫ്യൂഷൻ മോഡലുകൾ ഉപയോഗിക്കുന്നു, രണ്ട് അത്യാധുനിക ആഴത്തിലുള്ള പഠനം സമീപ വർഷങ്ങളിൽ വികസിപ്പിച്ച സമീപനങ്ങൾ. എന്നിരുന്നാലും, ഇത് മറ്റെല്ലാ ആഴത്തിലുള്ള അതേ ആശയത്തെ അടിസ്ഥാനമാക്കിയുള്ളതാണ് ന്യൂറൽ നെറ്റ്വർക്കുകൾ: പ്രാതിനിധ്യ പഠനം. CLIP ഒരേസമയം രണ്ടുപേരെ പരിശീലിപ്പിക്കുന്നു ന്യൂറൽ നെറ്റ്വർക്കുകൾ ചിത്രങ്ങളിലും അടിക്കുറിപ്പുകളിലും.
ഒരു നെറ്റ്വർക്ക് ചിത്രത്തിലെ വിഷ്വൽ പ്രാതിനിധ്യങ്ങൾ പഠിക്കുന്നു, മറ്റൊന്ന് ടെക്സ്റ്റ് പ്രാതിനിധ്യങ്ങൾ പഠിക്കുന്നു. പരിശീലന വേളയിൽ, രണ്ട് നെറ്റ്വർക്കുകളും അവയുടെ പാരാമീറ്ററുകൾ പരിഷ്ക്കരിക്കാൻ ശ്രമിക്കുന്നു, അതുവഴി താരതമ്യപ്പെടുത്താവുന്ന ചിത്രങ്ങളും വിവരണങ്ങളും സമാനമായ ഉൾച്ചേർക്കലിന് കാരണമാകുന്നു.
"ഡിഫ്യൂഷൻ", അതിന്റെ പരിശീലന സാമ്പിളുകൾ ക്രമേണ ശബ്ദമുണ്ടാക്കി ചിത്രങ്ങളെടുക്കാൻ പഠിക്കുന്ന ഒരു തരം ജനറേറ്റീവ് മോഡൽ, DALL-E 2-ൽ ഉപയോഗിക്കുന്ന മറ്റൊരു മെഷീൻ ലേണിംഗ് സമീപനമാണ്. ഡിഫ്യൂഷൻ മോഡലുകൾ ഓട്ടോഎൻകോഡറുകൾക്ക് സമാനമാണ്, അവ ഇൻപുട്ട് ഡാറ്റയെ രൂപാന്തരപ്പെടുത്തുന്നു. പ്രാതിനിധ്യം ഉൾച്ചേർക്കുക, തുടർന്ന് യഥാർത്ഥ ഡാറ്റ പുനഃസൃഷ്ടിക്കുന്നതിന് ഉൾച്ചേർക്കൽ വിവരങ്ങൾ ഉപയോഗിക്കുക.
OpenAI-കൾ ഉപയോഗിക്കുന്നു ഭാഷാ മാതൃക വാചക വിവരണങ്ങളെ ഫോട്ടോഗ്രാഫുകളുമായി ബന്ധിപ്പിക്കാൻ കഴിയുന്ന CLIP, അത് ആദ്യം രേഖാമൂലമുള്ള പ്രോംപ്റ്റിനെ ഒരു ഇന്റർമീഡിയറ്റ് രൂപത്തിലേക്ക് വിവർത്തനം ചെയ്യുന്നു, അത് ഒരു ചിത്രത്തിന് ആ പ്രോംപ്റ്റുമായി പൊരുത്തപ്പെടേണ്ട നിർണായക സവിശേഷതകൾ ഉൾക്കൊള്ളുന്നു (CLIP അനുസരിച്ച്).
രണ്ടാമതായി, DALL-E 2 ഒരു CLIP-കംപ്ലയന്റ് സൃഷ്ടിക്കുന്നു ഒരു ഡിഫ്യൂഷൻ മോഡൽ ഉപയോഗിച്ചുള്ള ചിത്രം, ഇത് ഒരു ന്യൂറൽ നെറ്റ്വർക്ക് ആണ്.
ക്രമരഹിതമായ പിക്സലുകളുള്ള വികലമായ ഫോട്ടോകളിൽ, ഡിഫ്യൂഷൻ മോഡലുകൾ പഠിക്കുന്നു. ഫോട്ടോകളുടെ യഥാർത്ഥ രൂപം എങ്ങനെ പുനഃസ്ഥാപിക്കാമെന്ന് അവർ പഠിക്കുന്നു. ഡിഫ്യൂഷൻ മോഡലുകൾക്ക് ഉയർന്ന നിലവാരമുള്ള സിന്തറ്റിക് ഇമേജുകൾ നിർമ്മിക്കാൻ കഴിയും, പ്രത്യേകിച്ചും വൈവിധ്യത്തേക്കാൾ കൃത്യതയ്ക്ക് മുൻഗണന നൽകുന്ന ഒരു മാർഗ്ഗനിർദ്ദേശ സമീപനവുമായി സംയോജിച്ച് ഉപയോഗിക്കുമ്പോൾ.
അനന്തരഫലമായി, ദി വ്യാപന മാതൃക റാൻഡം പിക്സലുകൾ എടുത്ത് CLIP ഉപയോഗിച്ച് അവയെ വേഡ് പ്രോംപ്റ്റുമായി പൊരുത്തപ്പെടുന്ന ഒരു പുതിയ ചിത്രമാക്കി മാറ്റുന്നു. ഡിഫ്യൂഷൻ ആശയം കാരണം, DALL-E 2-ന് DALL-E-നേക്കാൾ വേഗത്തിൽ ഉയർന്ന റെസല്യൂഷൻ ചിത്രങ്ങൾ നിർമ്മിക്കാൻ കഴിയും.
DALL.E 2 ഉപയോഗ കേസ്
കഴിഞ്ഞ ഇരുപത് വർഷങ്ങളിൽ, കമ്പ്യൂട്ടർ ദർശനം സാങ്കേതികവിദ്യ ഒരു ലളിതമായ സങ്കൽപ്പത്തിൽ നിന്ന് ഒരു വലിയ മുന്നേറ്റത്തിലേക്ക് പുരോഗമിച്ചു. ഈ പുരോഗതികൾ ഉണ്ടായിരുന്നിട്ടും, ചിത്രവും ഒബ്ജക്റ്റ് തിരിച്ചറിയൽ മോഡലുകളും ഇപ്പോഴും ദൈനംദിന ജീവിതത്തിൽ കാര്യമായ തടസ്സങ്ങൾ നേരിടുന്നു. ഡാറ്റാസെറ്റുകളുടെ അഭാവം ഇമേജ് തിരിച്ചറിയലിന്റെയും കമ്പ്യൂട്ടർ കാഴ്ചയുടെയും ഏറ്റവും പ്രധാനപ്പെട്ട പോരായ്മകളിലൊന്നാണ്. രണ്ടറ്റത്തും ഡാറ്റാ ക്ഷാമം ഉള്ളതിനാൽ, 100 ശതമാനം കൃത്യമായ ഫലങ്ങൾ നൽകുന്നതിന് ഇമേജ് തിരിച്ചറിയൽ മോഡലുകൾ പരിശീലിപ്പിക്കാൻ ഏറെക്കുറെ ബുദ്ധിമുട്ടാണ്.
ഭാഗ്യവശാൽ, ഓപ്പൺഎഐയുടെ പുതിയ മെഷീൻ ലേണിംഗ് മോഡലിന് സാങ്കേതികവിദ്യയിലെ വിടവ് നികത്താനാകും. ടെക്സ്റ്റ് വിവരണങ്ങളെ അടിസ്ഥാനമാക്കി അതിശയകരമായ ചിത്രങ്ങൾ സൃഷ്ടിക്കാൻ DALLE 2-ന് കഴിയും. ഈ വ്യാജ ചിത്ര നിർമ്മാണത്തിന് ഇമേജ് തിരിച്ചറിയൽ മോഡലുകൾക്ക് അവയുടെ ആവശ്യകതകളെ അടിസ്ഥാനമാക്കി ഡാറ്റ നൽകാൻ കഴിയും. ഡാറ്റയുടെ അഭാവം ഒബ്ജക്റ്റിനെയും ചിത്രത്തെയും തിരിച്ചറിയുന്നതിനുള്ള ഒരു പ്രധാന തടസ്സമാണ്.
ഡിജിറ്റൽ യുഗത്തിൽ, ഡാറ്റാസെറ്റുകൾ സർവ്വവ്യാപിയാണ്, എന്നിട്ടും ഞങ്ങൾ AI മോഡലിനെ ഫീഡ് ചെയ്യുന്നതിനുള്ള കുറുക്കുവഴികൾ തേടുകയാണ്, അതിനാൽ ഇതിന് നല്ല ഫലങ്ങൾ നൽകാൻ കഴിയും. എന്നിരുന്നാലും, ഒരു ഇമേജ് തിരിച്ചറിയൽ മോഡൽ പരിശീലിപ്പിക്കുന്നത് ലളിതമല്ല. ഇതിന് ചെറിയ വ്യത്യാസങ്ങളുള്ള ധാരാളം ഡാറ്റാ സെറ്റുകൾ ആവശ്യമാണ്, അത് നമുക്ക് ലളിതമായി വീണ്ടെടുക്കാൻ കഴിഞ്ഞേക്കില്ല.
അതിനാൽ, എന്താണ് ഉത്തരം: DALLE 2 ആണ് ഉത്തരം. ടെക്സ്റ്റുകളിൽ നിന്ന് ചിത്രങ്ങൾ നിർമ്മിക്കാനും നിലവിലുള്ളവ മാറ്റാനുമുള്ള ശേഷിയുള്ള OpenAI പിക്ചർ ജനറേറ്ററിന്, വിടവ് നികത്താൻ സഹായിക്കും. ആവശ്യമായ ഹ്യൂമൻ ലേബലിംഗിന്റെ അളവ് കുറയ്ക്കുന്നതിനൊപ്പം അധിക പരിശീലന ഡാറ്റ സൃഷ്ടിക്കുന്നതിനും ഇത് സഹായിക്കും. കാര്യമായ പ്രയോജനം ഉണ്ടായിരുന്നിട്ടും, വഞ്ചനാപരമായ ഇമേജ് പ്രൊഡക്ഷനുകളെക്കുറിച്ചും ഉൾപ്പെടുത്തൽ ഒഴിവാക്കുന്ന ചിത്രങ്ങളെക്കുറിച്ചും നിങ്ങൾ അറിഞ്ഞിരിക്കണം. പക്ഷപാതപരമായ ഫലങ്ങൾ സൃഷ്ടിക്കുന്ന ഇമേജ് കണ്ടെത്തൽ രീതികളിലേക്ക് ഇത് നയിച്ചേക്കാം.
പരിമിതികൾ
OpenAI പ്രകാരം, DALL.E 2 തെറ്റായ കൈകളിൽ അകപ്പെട്ടാൽ ദോഷകരമായ സ്വാധീനം ചെലുത്തിയേക്കാം. ആഴത്തിലുള്ള വ്യാജങ്ങളുടെ ഇന്നത്തെ ലോകത്ത്, തെറ്റായ വിവരങ്ങളോ വംശീയ ഇമേജറിയോ പ്രചരിപ്പിക്കാൻ മോഡൽ എളുപ്പത്തിൽ ഉപയോഗിക്കാനാകും, അതുകൊണ്ടാണ് ഓപ്പൺഎഐ ഡെവലപ്പർമാരെ ക്ഷണപ്രകാരം DALL.2 ഉപയോഗിക്കാൻ അനുവദിക്കുന്നത്. മോഡൽ അവൾക്ക് ലഭിക്കുന്ന എല്ലാ നിർദ്ദേശങ്ങൾക്കും കർശനമായ ഉള്ളടക്ക നിയന്ത്രണം പാലിക്കണം.
DALL.E 2-ന്റെ ഏതെങ്കിലും ശത്രുതാപരമായ അല്ലെങ്കിൽ അക്രമാസക്തമായ ചിത്രങ്ങൾ സൃഷ്ടിക്കുന്നതിനുള്ള സാധ്യതകൾ ഒഴിവാക്കാൻ, മാരകമായ ആയുധങ്ങളൊന്നുമില്ലാതെയാണ് ഡാറ്റാസെറ്റ് സൃഷ്ടിച്ചത്. ഭാവിയിൽ ഇത് ഒരു API ആയി മാറ്റാൻ പദ്ധതിയിടുന്നതായി OpenAI പ്രസ്താവിച്ചിട്ടുണ്ടെങ്കിലും, DALL.E 2 ന്റെ കാര്യത്തിൽ, അത് ജാഗ്രതയോടെ മുന്നോട്ട് പോകാൻ തയ്യാറാണ്.
തീരുമാനം
പുതിയ ആപ്ലിക്കേഷനുകളിലേക്കുള്ള വാതിൽ തുറക്കുന്ന രസകരമായ മറ്റൊരു OpenAI ഗവേഷണ കണ്ടെത്തലാണ് DALL-E 2.
കമ്പ്യൂട്ടർ ദർശനത്തിന്റെ പ്രധാന തടസ്സങ്ങളിലൊന്നായ ഡാറ്റയെ നേരിടാൻ വലിയ ഡാറ്റാസെറ്റുകൾ സൃഷ്ടിക്കുന്നതാണ് ഒരു ഉദാഹരണം. പല DALL-E- അധിഷ്ഠിത ആപ്പുകളുടെയും സാമ്പത്തിക സാഹചര്യം നിർണ്ണയിക്കുന്നത് അതിന്റെ API ഉപയോക്താക്കൾക്കായി OpenAI സ്ഥാപിക്കുന്ന വിലയും നയങ്ങളും അനുസരിച്ചായിരിക്കും, അവയെല്ലാം ചിത്ര നിർമ്മാണം മുന്നോട്ട് കൊണ്ടുപോകും.
നിങ്ങളുടെ അഭിപ്രായങ്ങൾ രേഖപ്പെടുത്തുക