ഉള്ളടക്ക പട്ടിക[മറയ്ക്കുക][കാണിക്കുക]
തന്നിരിക്കുന്ന ടെക്സ്റ്റ് പ്രോംപ്റ്റിൽ നിന്ന് ഉയർന്ന നിലവാരമുള്ളതും വൈവിധ്യപൂർണ്ണവുമായ ചിത്ര സമന്വയം സൃഷ്ടിച്ച് AI-യുടെ വികസനത്തിൽ വലിയ ടെക്സ്റ്റ്-ടു-ഇമേജ് മോഡലുകൾ ഗണ്യമായ പുരോഗതി കൈവരിച്ചു.
വിവിധ ക്രമീകരണങ്ങളിൽ വിഷയങ്ങളുടെ തനതായ പ്രാതിനിധ്യങ്ങൾ സമന്വയിപ്പിക്കാനോ തന്നിരിക്കുന്ന റഫറൻസ് സെറ്റിലെ വിഷയങ്ങളുടെ രൂപം പകർത്താനോ ഈ മോഡലുകൾക്ക് കഴിയില്ല.
OpenAI-യുടെ DALL.E2 അല്ലെങ്കിൽ StabilityAI പോലുള്ള പുതുതായി പുറത്തിറക്കിയ സാങ്കേതികവിദ്യകൾ സ്ഥിരതയുള്ള വ്യാപനം മിഡ്ജോർണിയും ഇതിനകം തന്നെ ഇന്റർനെറ്റിൽ കൊടുങ്കാറ്റായി മാറിയിരിക്കുന്നു. ഫലങ്ങൾ ഇഷ്ടാനുസൃതമാക്കാനുള്ള സമയമാണിത്. എന്നിട്ടും എങ്ങനെ?
Google DreamBooth AI എത്തി.
DreamBooth-ന് ഒരു ചിത്രത്തിന്റെ വിഷയം തിരിച്ചറിയാനും അതിന്റെ യഥാർത്ഥ സന്ദർഭത്തിൽ നിന്ന് അതിനെ പുനർനിർമ്മിക്കാനും തുടർന്ന് ആവശ്യമുള്ള ഒരു പുതിയ സന്ദർഭത്തിലേക്ക് കൃത്യമായി സമന്വയിപ്പിക്കാനുമുള്ള കഴിവുണ്ട്. കൂടാതെ, നിലവിലുള്ള AI പിക്ചർ ജനറേറ്ററുകൾക്കൊപ്പം ഇത് ഉപയോഗിക്കാം.
ഈ ലേഖനത്തിൽ, ഡ്രീംബൂത്ത്, അതിന്റെ ഉപയോഗം, ട്യൂട്ടോറിയൽ, പരിമിതികൾ എന്നിവയും അതിലേറെയും ഞങ്ങൾ ആഴത്തിൽ പരിശോധിക്കും.
എന്താണ് ഡ്രീംബൂത്ത്?
ഡ്രീംബൂത്ത്, ഒരു പുതിയ ടെക്സ്റ്റ്-ടു-ഇമേജ് ഡിഫ്യൂഷൻ മോഡൽ, Google അവതരിപ്പിച്ചു. വ്യത്യസ്ത ക്രമീകരണങ്ങളിൽ ഉപയോക്താവ് തിരഞ്ഞെടുത്ത വിഷയത്തിന്റെ വിപുലമായ ഫോട്ടോകൾ സൃഷ്ടിക്കുന്നതിന് Google DreamBooth AI-യുടെ മാർഗ്ഗനിർദ്ദേശമായി ഒരു രേഖാമൂലമുള്ള നിർദ്ദേശം ഉപയോഗിക്കാനാകും.
ബോസ്റ്റൺ യൂണിവേഴ്സിറ്റിയിൽ നിന്നും ഗൂഗിളിൽ നിന്നുമുള്ള ഒരു ഗവേഷക സംഘം ഡ്രീംബൂത്ത് വികസിപ്പിച്ചെടുത്തിട്ടുണ്ട്, വിപുലമായ പ്രീ-ട്രെയിനിംഗിന് വിധേയമായ ടെക്സ്റ്റ്-ടു-ഇമേജ് മോഡലുകൾ മാറ്റുന്നതിനുള്ള അത്യാധുനിക സാങ്കേതികത.
മൊത്തത്തിലുള്ള ആശയം വളരെ ലളിതമാണ്: ഉപയോക്താക്കൾക്ക് നിർവചിക്കാൻ കഴിയുന്ന ഇഷ്ടാനുസൃത വിഷയങ്ങളുമായി അസാധാരണമായ ടോക്കൺ ഐഡികൾ ബന്ധപ്പെട്ടിരിക്കുന്ന തരത്തിൽ ഭാഷാ-ദർശന നിഘണ്ടു വർദ്ധിപ്പിക്കാൻ അവർ ആഗ്രഹിക്കുന്നു.
എന്നതിലേക്ക് ഉപയോക്താക്കളെ ബന്ധിപ്പിക്കുക എന്നതാണ് മോഡലിന്റെ പ്രധാന ലക്ഷ്യം ടെക്സ്റ്റ്-ടു-ഇമേജ് ഡിഫ്യൂഷൻ മോഡൽ അവർ തിരഞ്ഞെടുത്ത വിഷയത്തിന്റെ ഉദാഹരണങ്ങളുടെ ഫോട്ടോറിയലിസ്റ്റിക് പ്രതിനിധാനം നിർമ്മിക്കുന്നതിന് ആവശ്യമായ വിഭവങ്ങൾ അവർക്ക് നൽകിക്കൊണ്ട്.
അനന്തരഫലമായി, വിവിധ സാഹചര്യങ്ങളിൽ വെല്ലുവിളികൾ സംഗ്രഹിക്കുന്നതിന് ഈ സാങ്കേതികവിദ്യ നന്നായി പ്രവർത്തിക്കുന്നതായി തോന്നുന്നു.
Google-ന്റെ DreamBooth മുമ്പത്തെ ടെക്സ്റ്റ്-ടു-ഇമേജ് ടൂളുകളിൽ നിന്ന് വ്യത്യസ്തമാണ് DALL-E2, സ്ഥിരതയുള്ള വ്യാപനം, ഒപ്പം മധ്യയാത്ര, ടെക്സ്റ്റ് അധിഷ്ഠിത ഇൻപുട്ടുകൾ ഉപയോഗിച്ച് ഡിഫ്യൂഷൻ മോഡൽ കൈകാര്യം ചെയ്യാൻ ഉപയോക്താക്കളെ അനുവദിക്കുന്നതിന് മുമ്പ് വിഷയ ചിത്രത്തിന്മേൽ ഇത് ഉപയോക്താക്കൾക്ക് കൂടുതൽ നിയന്ത്രണം നൽകുന്നു.
സവിശേഷതകൾ
- DreamBooth AI 3-5 ചിത്രങ്ങളുള്ള ഒരു ടെക്സ്റ്റ്-ടു-ഇമേജ് മോഡൽ മെച്ചപ്പെടുത്തിയേക്കാം.
- ഡ്രീംബൂത്ത് AI ഉപയോഗിച്ച് യഥാർത്ഥ ഫോട്ടോറിയലിസ്റ്റിക് ഫോട്ടോകൾ സൃഷ്ടിക്കാൻ കഴിയും.
- കൂടാതെ, DreamBooth AI-ക്ക് ഒന്നിലധികം കോണുകളിൽ നിന്ന് ഒരു വിഷയത്തിന്റെ ഫോട്ടോകൾ സൃഷ്ടിക്കാൻ കഴിയും.
അപേക്ഷ
ആർട്ട് റെൻഡേഷനുകൾ
ഈ ടാസ്ക്, സ്റ്റൈൽ ട്രാൻസ്ഫറിൽ നിന്ന് പ്രത്യേകമായി വ്യത്യാസപ്പെട്ടിരിക്കുന്നു, ഇത് യഥാർത്ഥ സീനിലേക്ക് മറ്റൊരു ചിത്രത്തിന്റെ ശൈലി സംയോജിപ്പിക്കുമ്പോൾ സോഴ്സ് സീനിന്റെ സെമാന്റിക്സ് നിലനിർത്തുന്നു.
ക്രിയേറ്റീവ് സമീപനത്തെ അടിസ്ഥാനമാക്കി, ഐഡന്റിഫിക്കേഷനും വിഷയ സംഭവത്തിന്റെ പ്രത്യേകതകളും നിലനിർത്തിക്കൊണ്ട് AI-ക്ക് കാര്യമായ രംഗം മാറ്റങ്ങൾ വരുത്താൻ കഴിയും.
പ്രോപ്പർട്ടി പരിഷ്ക്കരണം
വിഷയ സംഭവത്തിന്റെ സവിശേഷതകൾ DreamBooth AI-ന് പരിഷ്ക്കരിക്കാനാകും.
ആക്സസറൈസേഷൻ
ജനറേഷൻ മോഡലിന് മുമ്പുള്ള ശക്തമായ ഘടനയാണ് ഡ്രീംബൂത്ത് AI-യുടെ വസ്തുക്കളെ അലങ്കരിക്കാനുള്ള കഴിവിനെ വളരെ രസകരമാക്കുന്നത്.
പുനഃക്രമീകരണം
പരിശീലനം ലഭിച്ച മോഡലിന് അദ്വിതീയ ഐഡന്റിഫയറും ക്ലാസ് നാമവും ഉൾപ്പെടുന്ന ഒരു വാക്യം നൽകിക്കൊണ്ട് DreamBooth AI-ന് ഒരു പ്രത്യേക വിഷയ ഉദാഹരണത്തിനായി വ്യതിരിക്തമായ ചിത്രങ്ങൾ നിർമ്മിക്കാൻ കഴിയും.
ചുറ്റുപാടുകൾ മാറ്റുന്നതിനുപകരം അതുല്യവും മുമ്പ് കേട്ടിട്ടില്ലാത്തതുമായ ഭാവങ്ങൾ, ഉച്ചാരണങ്ങൾ, ദൃശ്യഘടന എന്നിവയിൽ വിഷയം സൃഷ്ടിക്കാൻ ഇതിന് കഴിയും. റിയലിസ്റ്റിക് പ്രതിഫലനങ്ങളും നിഴലുകളും അതുപോലെ വിഷയവും ചുറ്റുമുള്ള വസ്തുക്കളും തമ്മിലുള്ള ഇടപെടലുകൾ.
ഡ്രീംബൂത്ത് ട്യൂട്ടോറിയൽ
ഈ ട്യൂട്ടോറിയലിൽ, ഞങ്ങൾ പിന്തുടരുന്നത് ഗൂഗിൾ കൊളാബ് നോട്ട്ബുക്ക്, ഞാൻ നിങ്ങളെ അതിലൂടെ നയിക്കും, അത് നിങ്ങളെ മനസിലാക്കുകയും സ്വന്തമായി ഉപയോഗിക്കുകയും ചെയ്യും.
GPU സജ്ജീകരിക്കുകയും ലൈബ്രറികൾ ഇൻസ്റ്റാൾ ചെയ്യുകയും ചെയ്യുന്നു
ഏതൊക്കെ GPU, VRAM തരങ്ങൾ ലഭ്യമാണെന്ന് കണ്ടെത്തുന്നത് ആദ്യപടിയാണ്. കുറച്ച് ആവശ്യകതകളും ഡിപൻഡൻസികളും ഇൻസ്റ്റാൾ ചെയ്യേണ്ടത് ആവശ്യമാണ്. പ്ലേ ബട്ടൺ അമർത്തുക, തുടർന്ന് അത് പൂർത്തിയാകുന്നതുവരെ കാത്തിരിക്കുക.
Huggingface-ൽ ഒരു അക്കൗണ്ട് സൃഷ്ടിച്ച് ഒരു ടോക്കൺ സൃഷ്ടിക്കുക
ഹഗ്ഗിംഗ്ഫേസ് അക്കൗണ്ടിനായി രജിസ്റ്റർ ചെയ്യുക എന്നതാണ് അടുത്ത ഘട്ടം. നിങ്ങൾ പൂർത്തിയാക്കുമ്പോൾ, മുകളിൽ വലത് കോണിലുള്ള ക്രമീകരണങ്ങളിൽ ക്ലിക്കുചെയ്യുക. നിങ്ങൾ അടുത്ത പേജിൽ എത്തും.
ഇവിടെ നിന്ന് ആവശ്യപ്പെട്ട പ്രകാരം ടോക്കണും പേരും സൃഷ്ടിക്കുക. താഴെയുള്ള സെല്ലിലെ ഗൂഗിൾ കൊളാബിലേക്ക് ടോക്കൺ പകർത്തി ഒട്ടിക്കണം.
xformers ഇൻസ്റ്റാൾ ചെയ്യുക
ഈ ഘട്ടത്തിൽ, റൺടൈമിൽ ക്ലിക്കുചെയ്ത് xformers ഇൻസ്റ്റാൾ ചെയ്യാൻ നിങ്ങൾക്ക് പ്ലേ ബട്ടൺ അമർത്താം.
ഡ്രൈവിലേക്ക് കണക്റ്റ് ചെയ്യുക
ഇപ്പോൾ, ഗൂഗിൾ ഡ്രൈവിലേക്ക് കണക്റ്റ് ചെയ്യാൻ നിങ്ങൾ ഈ സെൽ പ്രവർത്തിപ്പിച്ചാൽ മതി.
നിർദ്ദേശം നൽകുക
ഇനിപ്പറയുന്ന സെല്ലിൽ, നിങ്ങൾ പ്രോംപ്റ്റ് നൽകിയാൽ മതി.
ചിത്രങ്ങൾ അപ്ലോഡ് ചെയ്യുന്നു
ഈ ഘട്ടത്തിൽ, നിങ്ങൾ പരിശീലിപ്പിക്കാൻ ആഗ്രഹിക്കുന്ന ചിത്രങ്ങൾ അപ്ലോഡ് ചെയ്യേണ്ടതുണ്ട്.
ട്രെയിൻ AI മോഡൽ
നിങ്ങൾ സമർപ്പിച്ച എല്ലാ റഫറൻസ് ഫോട്ടോഗ്രാഫുകളും അടിസ്ഥാനമാക്കി ഒരു പുതിയ AI മോഡൽ പരിശീലിപ്പിക്കാൻ നിങ്ങൾ DreamBooth ഉപയോഗിക്കുന്നതിനാൽ ഇത് ഏറ്റവും പ്രധാനപ്പെട്ട ഘട്ടമാണ്. രണ്ട് ഇൻപുട്ട് ഫീൽഡുകളിലേക്ക് നിങ്ങളുടെ ശ്രദ്ധ പരിമിതപ്പെടുത്തണം. "-ഉദാഹരണ പ്രോംപ്റ്റ്" ആണ് ആദ്യത്തെ പാരാമീറ്റർ. നിങ്ങൾ ഇവിടെ വളരെ വ്യത്യസ്തമായ ഒരു പേര് നൽകണം.
'–കൺസെപ്റ്റ് ലിസ്റ്റ്' ആർഗ്യുമെന്റ് രണ്ടാമത്തെ നിർണ്ണായക ഇൻപുട്ട് ഫീൽഡാണ്. 'പ്രോംപ്റ്റ് മാറ്റുക' വിഭാഗത്തിൽ ഉപയോഗിച്ചിരിക്കുന്നതുമായി പൊരുത്തപ്പെടുന്നതിന് ഇത് പുനർനാമകരണം ചെയ്യണം.
AI ഇമേജുകൾ സൃഷ്ടിക്കുക
ഈ ഘട്ടത്തിൽ AI ചിത്രങ്ങൾ സൃഷ്ടിക്കപ്പെടും, അവിടെ നിങ്ങൾക്ക് ടെക്സ്റ്റ് നിർദ്ദേശങ്ങൾ നൽകാം.
ഡ്രീംബൂത്ത് പരിമിതികൾ
- വിഷയത്തിൽ ഉയർന്ന വിശദാംശങ്ങളോടെ ആവർത്തനങ്ങൾ നടത്തുന്നതിന് കമാൻഡ് പ്രോംപ്റ്റ് ഒരു തടസ്സമായി മാറുന്നു. ഡ്രീംബൂത്തിന് വിഷയത്തിന്റെ സന്ദർഭം മാറ്റാൻ കഴിയും, എന്നാൽ മോഡൽ വിഷയം തന്നെ മാറ്റാൻ ആഗ്രഹിക്കുന്നുവെങ്കിൽ, ഫ്രെയിമിൽ പ്രശ്നങ്ങളുണ്ട്.
- ഇൻപുട്ട് ഇമേജിലേക്ക് ഔട്ട്പുട്ട് ചിത്രം അമിതമായി ഘടിപ്പിക്കുന്നതാണ് മറ്റൊരു പ്രശ്നം. മതിയായ ചിത്രങ്ങൾ നൽകിയിട്ടില്ലെങ്കിൽ, വിഷയം പരിഗണിക്കപ്പെടില്ല അല്ലെങ്കിൽ സമർപ്പിച്ച ചിത്രങ്ങളുടെ സന്ദർഭവുമായി ലയിപ്പിക്കാം. ഒരു വിചിത്ര തലമുറയ്ക്കുള്ള സന്ദർഭം ചോദിക്കുമ്പോൾ, അതേ കാര്യം സംഭവിക്കുന്നു.
തീരുമാനം
ഒരൊറ്റ ടെക്സ്റ്റ് ഇൻപുട്ടിൽ നിന്ന് ഔട്ട്പുട്ടുകൾ നിർമ്മിക്കുന്നതിന്, ടെക്സ്റ്റ്-ടു-ഇമേജ് മോഡലുകളുടെ ബൾക്ക് ദശലക്ഷക്കണക്കിന് പാരാമീറ്ററുകളും ലൈബ്രറികളും ആവശ്യമാണ്.
ഡ്രീംബൂത്ത് ഉപഭോക്താക്കൾക്ക് ഉള്ളടക്കം ഏറ്റെടുക്കലും ഉപയോഗവും ലളിതമാക്കുന്നു, മൂന്ന് മുതൽ അഞ്ച് വിഷയ ഫോട്ടോഗ്രാഫുകൾ ഒരു ടെക്സ്ച്വൽ പശ്ചാത്തലത്തോടൊപ്പം ഇൻപുട്ട് ചെയ്യേണ്ടതുണ്ട്.
നിങ്ങളുടെ അഭിപ്രായങ്ങൾ രേഖപ്പെടുത്തുക