ഞങ്ങൾ ഒരു പുതിയ ജനറേറ്റീവ് AI വിപ്ലവത്തിന്റെ തുടക്കത്തിലാണ്.
ജനറേറ്റീവ് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് എന്നത് ഉള്ളടക്കം സൃഷ്ടിക്കാൻ കഴിവുള്ള അൽഗോരിതങ്ങളെയും മോഡലുകളെയും സൂചിപ്പിക്കുന്നു. അത്തരം മോഡലുകളുടെ ഔട്ട്പുട്ടിൽ ടെക്സ്റ്റ്, ഓഡിയോ, ഇമേജുകൾ എന്നിവ ഉൾപ്പെടുന്നു, അവ പലപ്പോഴും യഥാർത്ഥ മനുഷ്യ ഔട്ട്പുട്ടായി തെറ്റിദ്ധരിക്കപ്പെടുന്നു.
പോലുള്ള അപ്ലിക്കേഷനുകൾ ചാറ്റ് GPT ജനറേറ്റീവ് AI കേവലം പുതുമയല്ലെന്ന് തെളിയിച്ചിട്ടുണ്ട്. AI ഇപ്പോൾ വിശദമായ നിർദ്ദേശങ്ങൾ പാലിക്കാൻ പ്രാപ്തമാണ്, കൂടാതെ ലോകം എങ്ങനെ പ്രവർത്തിക്കുന്നു എന്നതിനെക്കുറിച്ച് ആഴത്തിലുള്ള ധാരണയുണ്ടെന്ന് തോന്നുന്നു.
എന്നാൽ നമ്മൾ എങ്ങനെയാണ് ഈ അവസ്ഥയിലെത്തിയത്? ഈ ഗൈഡിൽ, പുതിയതും ആവേശകരവുമായ ഈ ജനറേറ്റീവ് AI വിപ്ലവത്തിന് വഴിയൊരുക്കിയ AI ഗവേഷണത്തിലെ ചില പ്രധാന മുന്നേറ്റങ്ങളിലൂടെ ഞങ്ങൾ കടന്നുപോകും.
ന്യൂറൽ നെറ്റ്വർക്കുകളുടെ ഉയർച്ച
ആധുനിക AI-യുടെ ഉത്ഭവം ഗവേഷണത്തിലൂടെ നിങ്ങൾക്ക് കണ്ടെത്താനാകും ആഴത്തിലുള്ള പഠനവും ന്യൂറൽ നെറ്റ്വർക്കുകളും 2012 ലെ.
ആ വർഷം, ടൊറന്റോ സർവകലാശാലയിലെ അലക്സ് ക്രിഷെവ്സ്കിക്കും സംഘത്തിനും വസ്തുക്കളെ തരംതിരിക്കാൻ കഴിയുന്ന വളരെ കൃത്യമായ ഒരു അൽഗോരിതം നേടാൻ കഴിഞ്ഞു.
ദി അത്യാധുനിക ന്യൂറൽ നെറ്റ്വർക്ക്, ഇപ്പോൾ AlexNet എന്നറിയപ്പെടുന്നു, ഇമേജ് നെറ്റ് വിഷ്വൽ ഡാറ്റാബേസിലെ ഒബ്ജക്റ്റുകളെ റണ്ണർ-അപ്പിനെക്കാൾ വളരെ കുറഞ്ഞ പിശക് നിരക്കിൽ തരംതിരിക്കാൻ കഴിഞ്ഞു.
ന്യൂറൽ നെറ്റ്വർക്കുകൾ ചില പരിശീലന ഡാറ്റയെ അടിസ്ഥാനമാക്കി ഒരു പ്രത്യേക സ്വഭാവം പഠിക്കാൻ ഗണിതശാസ്ത്ര പ്രവർത്തനങ്ങളുടെ ഒരു ശൃംഖല ഉപയോഗിക്കുന്ന അൽഗോരിതങ്ങളാണ്. ഉദാഹരണത്തിന്, ക്യാൻസർ പോലുള്ള ഒരു രോഗം നിർണ്ണയിക്കാൻ മോഡലിനെ പരിശീലിപ്പിക്കുന്നതിന് നിങ്ങൾക്ക് ഒരു ന്യൂറൽ നെറ്റ്വർക്ക് മെഡിക്കൽ ഡാറ്റ നൽകാം.
ന്യൂറൽ നെറ്റ്വർക്ക് ഡാറ്റയിലെ പാറ്റേണുകൾ സാവധാനം കണ്ടെത്തുകയും പുതിയ ഡാറ്റ നൽകുമ്പോൾ കൂടുതൽ കൃത്യത കൈവരിക്കുകയും ചെയ്യുമെന്നാണ് പ്രതീക്ഷ.
A യുടെ ഒരു മികച്ച ആപ്ലിക്കേഷനായിരുന്നു AlexNet കൺവെൻഷണൽ ന്യൂറൽ നെറ്റ്വർക്ക് അല്ലെങ്കിൽ CNN-കൾ. "കൺവല്യൂഷണൽ" കീവേഡ്, പരസ്പരം അടുത്തിരിക്കുന്ന ഡാറ്റയ്ക്ക് കൂടുതൽ ഊന്നൽ നൽകുന്ന കൺവല്യൂഷണൽ ലെയറുകളുടെ കൂട്ടിച്ചേർക്കലിനെ സൂചിപ്പിക്കുന്നു.
1980-കളിൽ CNN-കൾ ഇതിനകം തന്നെ ഒരു ആശയമായിരുന്നെങ്കിലും, ഏറ്റവും പുതിയ GPU സാങ്കേതികവിദ്യ സാങ്കേതികവിദ്യയെ പുതിയ ഉയരങ്ങളിലേക്ക് എത്തിച്ചപ്പോൾ 2010-കളുടെ തുടക്കത്തിൽ മാത്രമാണ് അവ ജനപ്രീതി നേടാൻ തുടങ്ങിയത്.
ഈ രംഗത്ത് CNN-കളുടെ വിജയം കമ്പ്യൂട്ടർ ദർശനം ന്യൂറൽ നെറ്റ്വർക്കുകളുടെ ഗവേഷണത്തിൽ കൂടുതൽ താൽപര്യം ജനിപ്പിക്കാൻ കാരണമായി.
ഗൂഗിളും ഫേസ്ബുക്കും പോലുള്ള ടെക് ഭീമൻമാർ അവരുടെ സ്വന്തം AI ചട്ടക്കൂടുകൾ പൊതുജനങ്ങൾക്കായി പുറത്തിറക്കാൻ തീരുമാനിച്ചു. പോലുള്ള ഉയർന്ന തലത്തിലുള്ള API-കൾ കേരസ് ആഴത്തിലുള്ള ന്യൂറൽ നെറ്റ്വർക്കുകൾ പരീക്ഷിക്കുന്നതിന് ഉപയോക്താക്കൾക്ക് ഒരു ഉപയോക്തൃ-സൗഹൃദ ഇന്റർഫേസ് നൽകി.
ഇമേജ് തിരിച്ചറിയൽ, വീഡിയോ വിശകലനം എന്നിവയിൽ CNN-കൾ മികച്ചതായിരുന്നു, എന്നാൽ ഭാഷാധിഷ്ഠിത പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നതിൽ പ്രശ്നങ്ങളുണ്ടായിരുന്നു. സ്വാഭാവിക ഭാഷാ പ്രോസസ്സിംഗിൽ ഈ പരിമിതി നിലനിൽക്കാം, കാരണം ചിത്രങ്ങളും വാചകങ്ങളും യഥാർത്ഥത്തിൽ അടിസ്ഥാനപരമായി വ്യത്യസ്തമായ പ്രശ്നങ്ങളാണ്.
ഉദാഹരണത്തിന്, ഒരു ഇമേജിൽ ട്രാഫിക് ലൈറ്റ് ഉണ്ടോ എന്ന് തരംതിരിക്കുന്ന ഒരു മോഡൽ നിങ്ങൾക്കുണ്ടെങ്കിൽ, സംശയാസ്പദമായ ട്രാഫിക്ക് ലൈറ്റ് ചിത്രത്തിൽ എവിടെയും ദൃശ്യമാകും. എന്നിരുന്നാലും, ഈ തരത്തിലുള്ള മൃദുത്വം ഭാഷയിൽ നന്നായി പ്രവർത്തിക്കുന്നില്ല. "ബോബ് മത്സ്യം തിന്നു", "മത്സ്യം ബോബ് തിന്നു" എന്നീ വാക്യങ്ങൾക്ക് ഒരേ പദങ്ങൾ ഉപയോഗിച്ചിട്ടും വളരെ വ്യത്യസ്തമായ അർത്ഥങ്ങളുണ്ട്.
മനുഷ്യ ഭാഷയുമായി ബന്ധപ്പെട്ട പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നതിന് ഗവേഷകർ ഒരു പുതിയ സമീപനം കണ്ടെത്തേണ്ടതുണ്ടെന്ന് വ്യക്തമായിരുന്നു.
ട്രാൻസ്ഫോമറുകൾ എല്ലാം മാറ്റുന്നു
എൺപതാം, ഒരു ഗവേഷണ പ്രബന്ധം "ശ്രദ്ധയാണ് നിങ്ങൾക്ക് വേണ്ടത്" എന്ന തലക്കെട്ടിൽ ഒരു പുതിയ തരം നെറ്റ്വർക്ക് നിർദ്ദേശിച്ചു: ട്രാൻസ്ഫോർമർ.
ഒരു ഇമേജിന്റെ ചെറിയ ഭാഗങ്ങൾ ആവർത്തിച്ച് ഫിൽട്ടർ ചെയ്തുകൊണ്ട് CNN-കൾ പ്രവർത്തിക്കുമ്പോൾ, ട്രാൻസ്ഫോർമറുകൾ ഡാറ്റയിലെ എല്ലാ ഘടകങ്ങളെയും മറ്റെല്ലാ ഘടകങ്ങളുമായി ബന്ധിപ്പിക്കുന്നു. ഗവേഷകർ ഈ പ്രക്രിയയെ "സ്വയം ശ്രദ്ധ" എന്ന് വിളിക്കുന്നു.
വാക്യങ്ങൾ പാഴ്സ് ചെയ്യാൻ ശ്രമിക്കുമ്പോൾ, CNN-കളും ട്രാൻസ്ഫോർമറുകളും വളരെ വ്യത്യസ്തമായി പ്രവർത്തിക്കുന്നു. ഒരു CNN പരസ്പരം അടുത്തുള്ള വാക്കുകളുമായി കണക്ഷനുകൾ രൂപീകരിക്കുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുമ്പോൾ, ഒരു ട്രാൻസ്ഫോർമർ ഒരു വാക്യത്തിലെ ഓരോ വാക്കും തമ്മിൽ കണക്ഷനുകൾ സൃഷ്ടിക്കും.
മനുഷ്യ ഭാഷ മനസ്സിലാക്കുന്നതിന്റെ അവിഭാജ്യ ഘടകമാണ് സ്വയം ശ്രദ്ധാ പ്രക്രിയ. സൂം ഔട്ട് ചെയ്ത് മുഴുവൻ വാക്യവും എങ്ങനെ യോജിക്കുന്നുവെന്ന് നോക്കുന്നതിലൂടെ, യന്ത്രങ്ങൾക്ക് വാക്യത്തിന്റെ ഘടനയെക്കുറിച്ച് വ്യക്തമായ ധാരണ ലഭിക്കും.
ആദ്യത്തെ ട്രാൻസ്ഫോർമർ മോഡലുകൾ പുറത്തിറങ്ങിക്കഴിഞ്ഞാൽ, ഇന്റർനെറ്റിൽ കണ്ടെത്തിയ ടെക്സ്റ്റ് ഡാറ്റയുടെ അവിശ്വസനീയമായ തുക പ്രയോജനപ്പെടുത്താൻ ഗവേഷകർ ഉടൻ തന്നെ പുതിയ വാസ്തുവിദ്യ ഉപയോഗിച്ചു.
GPT-3, ഇന്റർനെറ്റ്
2020-ൽ, OpenAI-യുടെ ജിപിടി -3 ട്രാൻസ്ഫോർമറുകൾ എത്രത്തോളം ഫലപ്രദമാകുമെന്ന് മോഡൽ കാണിച്ചുതന്നു. GPT-3 ന് ഒരു മനുഷ്യനിൽ നിന്ന് വേർതിരിച്ചറിയാൻ കഴിയാത്ത ടെക്സ്റ്റ് ഔട്ട്പുട്ട് ചെയ്യാൻ കഴിഞ്ഞു. ഉപയോഗിച്ച പരിശീലന ഡാറ്റയുടെ അളവാണ് GPT-3-നെ ഇത്ര ശക്തമാക്കിയതിന്റെ ഒരു ഭാഗം. 400 ബില്യണിലധികം ടോക്കണുകളുള്ള കോമൺ ക്രാൾ എന്നറിയപ്പെടുന്ന ഒരു ഡാറ്റാസെറ്റിൽ നിന്നാണ് മോഡലിന്റെ പ്രീ-ട്രെയിനിംഗ് ഡാറ്റാസെറ്റിന്റെ ഭൂരിഭാഗവും വരുന്നത്.
റിയലിസ്റ്റിക് ഹ്യൂമൻ ടെക്സ്റ്റ് സൃഷ്ടിക്കാനുള്ള GPT-3 ന്റെ കഴിവ് സ്വന്തമായി വിപ്ലവകരമായിരുന്നു, അതേ മോഡലിന് മറ്റ് ജോലികൾ എങ്ങനെ പരിഹരിക്കാമെന്ന് ഗവേഷകർ കണ്ടെത്തി.
ഉദാഹരണത്തിന്, ഒരു ട്വീറ്റ് സൃഷ്ടിക്കാൻ നിങ്ങൾക്ക് ഉപയോഗിക്കാനാകുന്ന അതേ GPT-3 മോഡൽ ടെക്സ്റ്റ് സംഗ്രഹിക്കാനും ഒരു ഖണ്ഡിക മാറ്റിയെഴുതാനും ഒരു സ്റ്റോറി പൂർത്തിയാക്കാനും നിങ്ങളെ സഹായിക്കും. ഭാഷാ മാതൃകകൾ ഏത് തരത്തിലുള്ള കമാൻഡും പിന്തുടരുന്ന പൊതു-ഉദ്ദേശ്യ ഉപകരണങ്ങളാണ് അവ ഇപ്പോൾ വളരെ ശക്തമായി മാറിയിരിക്കുന്നു.
GPT-3-ന്റെ പൊതു-ഉദ്ദേശ്യ സ്വഭാവം അത്തരം ആപ്ലിക്കേഷനുകൾ അനുവദിച്ചിരിക്കുന്നു GitHub കോപൈലറ്റ്, ഇത് പ്ലെയിൻ ഇംഗ്ലീഷിൽ നിന്ന് വർക്കിംഗ് കോഡ് സൃഷ്ടിക്കാൻ പ്രോഗ്രാമർമാരെ അനുവദിക്കുന്നു.
ഡിഫ്യൂഷൻ മോഡലുകൾ: വാചകം മുതൽ ചിത്രങ്ങൾ വരെ
ട്രാൻസ്ഫോർമറുകളും എൻഎൽപിയും ഉപയോഗിച്ചുള്ള പുരോഗതി മറ്റ് മേഖലകളിൽ ജനറേറ്റീവ് എഐക്ക് വഴിയൊരുക്കി.
കമ്പ്യൂട്ടർ കാഴ്ചയുടെ മണ്ഡലത്തിൽ, എത്ര ആഴത്തിലുള്ള പഠനം യന്ത്രങ്ങളെ ചിത്രങ്ങൾ മനസ്സിലാക്കാൻ അനുവദിച്ചുവെന്ന് ഞങ്ങൾ ഇതിനകം വിവരിച്ചിട്ടുണ്ട്. എന്നിരുന്നാലും, ചിത്രങ്ങൾ തരംതിരിക്കുന്നതിനുപകരം AI-യ്ക്ക് അവ സൃഷ്ടിക്കാനുള്ള ഒരു മാർഗം ഞങ്ങൾ ഇപ്പോഴും കണ്ടെത്തേണ്ടതുണ്ട്.
DALL-E 2, സ്റ്റേബിൾ ഡിഫ്യൂഷൻ, മിഡ്ജേർണി എന്നിവ പോലുള്ള ജനറേറ്റീവ് ഇമേജ് മോഡലുകൾ ജനപ്രിയമായിത്തീർന്നു, കാരണം അവയ്ക്ക് ടെക്സ്റ്റ് ഇൻപുട്ട് ഇമേജുകളിലേക്ക് എങ്ങനെ പരിവർത്തനം ചെയ്യാൻ കഴിയും.
ഈ ഇമേജ് മോഡലുകൾ രണ്ട് പ്രധാന വശങ്ങളെ ആശ്രയിക്കുന്നു: ചിത്രങ്ങളും ടെക്സ്റ്റും തമ്മിലുള്ള ബന്ധം മനസ്സിലാക്കുന്ന ഒരു മോഡലും ഇൻപുട്ടുമായി പൊരുത്തപ്പെടുന്ന ഒരു ഹൈ-ഡെഫനിഷൻ ഇമേജ് യഥാർത്ഥത്തിൽ സൃഷ്ടിക്കാൻ കഴിയുന്ന ഒരു മോഡലും.
OpenAI-കൾ ക്ലിപ്പ് (കോൺട്രാസ്റ്റീവ് ലാംഗ്വേജ്-ഇമേജ് പ്രീ-ട്രെയിനിംഗ്) ആദ്യ വശം പരിഹരിക്കാൻ ലക്ഷ്യമിടുന്ന ഒരു ഓപ്പൺ സോഴ്സ് മോഡലാണ്. ഒരു ചിത്രം നൽകിയാൽ, CLIP മോഡലിന് ആ പ്രത്യേക ചിത്രത്തിന് ഏറ്റവും പ്രസക്തമായ ടെക്സ്റ്റ് വിവരണം പ്രവചിക്കാൻ കഴിയും.
പ്രധാന ഇമേജ് ഫീച്ചറുകൾ എങ്ങനെ എക്സ്ട്രാക്റ്റ് ചെയ്യാമെന്നും ഒരു ഇമേജിന്റെ ലളിതമായ പ്രാതിനിധ്യം സൃഷ്ടിക്കാമെന്നും പഠിച്ചുകൊണ്ട് CLIP മോഡൽ പ്രവർത്തിക്കുന്നു.
ഉപയോക്താക്കൾ DALL-E 2-ലേക്ക് ഒരു സാമ്പിൾ ടെക്സ്റ്റ് ഇൻപുട്ട് നൽകുമ്പോൾ, CLIP മോഡൽ ഉപയോഗിച്ച് ഇൻപുട്ട് ഒരു "ഇമേജ് എംബെഡിംഗ്" ആയി പരിവർത്തനം ചെയ്യപ്പെടും. ജനറേറ്റ് ചെയ്ത ഇമേജ് എംബെഡിംഗുമായി പൊരുത്തപ്പെടുന്ന ഒരു ഇമേജ് സൃഷ്ടിക്കാനുള്ള വഴി കണ്ടെത്തുകയാണ് ഇപ്പോൾ ലക്ഷ്യം.
ഏറ്റവും പുതിയ ജനറേറ്റീവ് ഇമേജ് AI-കൾ ഉപയോഗിക്കുന്നത് a വ്യാപന മാതൃക യഥാർത്ഥത്തിൽ ഒരു ഇമേജ് സൃഷ്ടിക്കുന്നതിനുള്ള ചുമതല കൈകാര്യം ചെയ്യാൻ. ഡിഫ്യൂഷൻ മോഡലുകൾ ചിത്രങ്ങളിൽ നിന്ന് കൂട്ടിച്ചേർത്ത ശബ്ദം എങ്ങനെ നീക്കംചെയ്യാമെന്ന് അറിയാൻ മുൻകൂട്ടി പരിശീലിപ്പിച്ച ന്യൂറൽ നെറ്റ്വർക്കുകളെ ആശ്രയിക്കുന്നു.
ഈ പരിശീലന പ്രക്രിയയിൽ, ഒരു റാൻഡം നോയ്സ് ഇമേജിൽ നിന്ന് ഉയർന്ന റെസല്യൂഷൻ ഇമേജ് എങ്ങനെ സൃഷ്ടിക്കാമെന്ന് ന്യൂറൽ നെറ്റ്വർക്കിന് ഒടുവിൽ പഠിക്കാനാകും. CLIP നൽകുന്ന ടെക്സ്റ്റിന്റെയും ചിത്രങ്ങളുടെയും മാപ്പിംഗ് ഇതിനകം ഉള്ളതിനാൽ, ഞങ്ങൾക്ക് കഴിയും ഒരു ഡിഫ്യൂഷൻ മോഡൽ പരിശീലിപ്പിക്കുക CLIP ഇമേജ് എംബെഡ്ഡിംഗുകളിൽ ഏതെങ്കിലും ഇമേജ് സൃഷ്ടിക്കുന്നതിനുള്ള ഒരു പ്രക്രിയ സൃഷ്ടിക്കുക.
ജനറേറ്റീവ് AI വിപ്ലവം: അടുത്തതായി എന്താണ് വരുന്നത്?
ഓരോ രണ്ട് ദിവസങ്ങളിലും ജനറേറ്റീവ് AI-യിൽ മുന്നേറ്റങ്ങൾ സംഭവിക്കുന്ന ഒരു ഘട്ടത്തിലാണ് നാമിപ്പോൾ. AI ഉപയോഗിച്ച് വ്യത്യസ്ത തരം മാധ്യമങ്ങൾ സൃഷ്ടിക്കുന്നത് എളുപ്പവും എളുപ്പവുമാകുമ്പോൾ, ഇത് നമ്മുടെ സമൂഹത്തെ എങ്ങനെ ബാധിക്കുമെന്നതിനെക്കുറിച്ച് നാം ആശങ്കപ്പെടേണ്ടതുണ്ടോ?
സ്റ്റീം എഞ്ചിൻ കണ്ടുപിടിച്ചതു മുതൽ തൊഴിലാളികളെ മാറ്റിസ്ഥാപിക്കുന്ന യന്ത്രങ്ങളെക്കുറിച്ചുള്ള ആശങ്കകൾ എപ്പോഴും സംസാരവിഷയമായിരിക്കെ, ഇത്തവണ അത് അൽപ്പം വ്യത്യസ്തമാണെന്ന് തോന്നുന്നു.
AI ഏറ്റെടുക്കുന്നതിൽ നിന്ന് സുരക്ഷിതമെന്ന് കരുതുന്ന വ്യവസായങ്ങളെ തടസ്സപ്പെടുത്തുന്ന ഒരു മൾട്ടി പർപ്പസ് ഉപകരണമായി ജനറേറ്റീവ് AI മാറുകയാണ്.
കുറച്ച് അടിസ്ഥാന നിർദ്ദേശങ്ങളിൽ നിന്ന് AI-ക്ക് കുറ്റമറ്റ കോഡ് എഴുതാൻ കഴിയുമെങ്കിൽ നമുക്ക് പ്രോഗ്രാമർമാരെ ആവശ്യമുണ്ടോ? ആളുകൾക്ക് ഒരു ജനറേറ്റീവ് മോഡൽ ഉപയോഗിച്ച് കുറഞ്ഞ വിലയ്ക്ക് ഉൽപ്പാദിപ്പിക്കാൻ കഴിയുമെങ്കിൽ ക്രിയേറ്റീവുകളെ നിയമിക്കുമോ?
ജനറേറ്റീവ് AI വിപ്ലവത്തിന്റെ ഭാവി പ്രവചിക്കാൻ പ്രയാസമാണ്. എന്നാൽ ഇപ്പോൾ ആലങ്കാരികമായ പണ്ടോറയുടെ പെട്ടി തുറന്നിരിക്കുന്നു, ലോകത്തെ നല്ല സ്വാധീനം ചെലുത്താൻ കഴിയുന്ന കൂടുതൽ ആവേശകരമായ നവീകരണങ്ങൾക്ക് സാങ്കേതികവിദ്യ അനുവദിക്കുമെന്ന് ഞാൻ പ്രതീക്ഷിക്കുന്നു.
നിങ്ങളുടെ അഭിപ്രായങ്ങൾ രേഖപ്പെടുത്തുക