અમે સંભવતઃ નવી જનરેટિવ AI ક્રાંતિની શરૂઆતમાં જ છીએ.
જનરેટિવ આર્ટિફિશિયલ ઇન્ટેલિજન્સ એ એલ્ગોરિધમ્સ અને મોડેલ્સનો સંદર્ભ આપે છે જે સામગ્રી બનાવવા માટે સક્ષમ છે. આવા મોડલ્સના આઉટપુટમાં ટેક્સ્ટ, ઑડિઓ અને ઈમેજોનો સમાવેશ થાય છે જે ઘણીવાર વાસ્તવિક માનવ આઉટપુટ તરીકે ભૂલથી થઈ શકે છે.
જેમ કે કાર્યક્રમો GPT ચેટ કરો દર્શાવે છે કે જનરેટિવ AI એ માત્ર નવીનતા નથી. AI હવે વિગતવાર સૂચનાઓનું પાલન કરવામાં સક્ષમ છે અને વિશ્વ કેવી રીતે કાર્ય કરે છે તેની ઊંડી સમજ ધરાવે છે.
પરંતુ આપણે આ બિંદુ સુધી કેવી રીતે પહોંચ્યા? આ માર્ગદર્શિકામાં, અમે AI સંશોધનમાં કેટલીક મુખ્ય સફળતાઓમાંથી પસાર થઈશું જેણે આ નવી અને ઉત્તેજક જનરેટિવ AI ક્રાંતિ માટે માર્ગ મોકળો કર્યો છે.
ન્યુરલ નેટવર્ક્સનો ઉદય
તમે આધુનિક AI ની ઉત્પત્તિ શોધી શકો છો ડીપ લર્નિંગ અને ન્યુરલ નેટવર્ક 2012 છે.
તે વર્ષમાં, યુનિવર્સિટી ઓફ ટોરોન્ટોમાંથી એલેક્સ ક્રિઝેવસ્કી અને તેમની ટીમ એક અત્યંત સચોટ અલ્ગોરિધમ હાંસલ કરવામાં સક્ષમ હતી જે વસ્તુઓનું વર્ગીકરણ કરી શકે.
આ અદ્યતન ન્યુરલ નેટવર્ક, જે હવે એલેક્સનેટ તરીકે ઓળખાય છે, તે ઇમેજનેટ વિઝ્યુઅલ ડેટાબેઝમાં ઑબ્જેક્ટને રનર-અપ કરતાં ઘણી ઓછી ભૂલ દર સાથે વર્ગીકૃત કરવામાં સક્ષમ હતું.
ન્યુરલ નેટવર્ક્સ એલ્ગોરિધમ્સ છે જે કેટલાક તાલીમ ડેટાના આધારે ચોક્કસ વર્તન શીખવા માટે ગાણિતિક કાર્યોના નેટવર્કનો ઉપયોગ કરે છે. ઉદાહરણ તરીકે, તમે કેન્સર જેવા રોગનું નિદાન કરવા માટે મોડેલને તાલીમ આપવા માટે ન્યુરલ નેટવર્ક મેડિકલ ડેટા ફીડ કરી શકો છો.
આશા એ છે કે ન્યુરલ નેટવર્ક ધીમે ધીમે ડેટામાં પેટર્ન શોધે છે અને જ્યારે નવો ડેટા આપવામાં આવે ત્યારે તે વધુ સચોટ બને છે.
એલેક્સનેટ એ એક સફળ એપ્લિકેશન હતી કન્વોલિશનલ ન્યુરલ નેટવર્ક અથવા સીએનએન. "કન્વોલ્યુશનલ" કીવર્ડ એ કન્વોલ્યુશનલ લેયર્સના ઉમેરાનો સંદર્ભ આપે છે જે એકસાથે નજીક હોય તેવા ડેટા પર વધુ ભાર મૂકે છે.
જ્યારે CNN એ 1980 ના દાયકામાં પહેલેથી જ એક વિચાર હતો, તેઓએ 2010 ના દાયકાની શરૂઆતમાં જ લોકપ્રિયતા મેળવવાનું શરૂ કર્યું જ્યારે નવીનતમ GPU ટેક્નોલોજીએ ટેક્નોલોજીને નવી ઊંચાઈઓ પર પહોંચાડી.
ના ક્ષેત્રમાં સીએનએનની સફળતા કમ્પ્યુટર દ્રષ્ટિ ન્યુરલ નેટવર્ક્સના સંશોધનમાં વધુ રસ તરફ દોરી જાય છે.
ગૂગલ અને ફેસબુક જેવી ટેક જાયન્ટ્સે તેમના પોતાના AI ફ્રેમવર્કને લોકો માટે રિલીઝ કરવાનું નક્કી કર્યું. ઉચ્ચ સ્તરીય API જેમ કે કેરાસ ડીપ ન્યુરલ નેટવર્ક્સ સાથે પ્રયોગ કરવા માટે વપરાશકર્તાઓને વપરાશકર્તા મૈત્રીપૂર્ણ ઇન્ટરફેસ આપ્યો.
CNN ઇમેજ રેકગ્નિશન અને વિડિયો પૃથ્થકરણમાં ઉત્તમ હતા પરંતુ જ્યારે ભાષા-આધારિત સમસ્યાઓ ઉકેલવાની વાત આવે ત્યારે તેમને મુશ્કેલી આવી રહી હતી. કુદરતી ભાષા પ્રક્રિયામાં આ મર્યાદા અસ્તિત્વમાં હોઈ શકે છે કારણ કે કેવી રીતે છબીઓ અને ટેક્સ્ટ વાસ્તવમાં મૂળભૂત રીતે અલગ સમસ્યાઓ છે.
ઉદાહરણ તરીકે, જો તમારી પાસે એક મોડેલ છે જે વર્ગીકૃત કરે છે કે શું છબી ટ્રાફિક લાઇટ ધરાવે છે, પ્રશ્નમાં ટ્રાફિક લાઇટ છબીમાં ગમે ત્યાં દેખાઈ શકે છે. જો કે, આ પ્રકારની ઉદારતા ભાષામાં સારી રીતે કામ કરતી નથી. "બોબ એટ ફિશ" અને "ફિશ એટ બોબ" વાક્યના સમાન શબ્દોનો ઉપયોગ કરવા છતાં એકદમ અલગ અર્થ છે.
તે સ્પષ્ટ થઈ ગયું હતું કે સંશોધકોને માનવ ભાષા સાથે સંકળાયેલી સમસ્યાઓના ઉકેલ માટે નવો અભિગમ શોધવાની જરૂર છે.
ટ્રાન્સફોર્મર બધું બદલી નાખે છે
2017 માં, a સંશોધન પેપર "એટેન્શન ઇઝ ઓલ યુ નીડ" શીર્ષકમાં એક નવા પ્રકારનું નેટવર્ક પ્રસ્તાવિત કર્યું: ટ્રાન્સફોર્મર.
જ્યારે CNN ઇમેજના નાના ભાગોને વારંવાર ફિલ્ટર કરીને કામ કરે છે, ત્યારે ટ્રાન્સફોર્મર્સ ડેટાના દરેક તત્વને દરેક અન્ય તત્વ સાથે જોડે છે. સંશોધકો આ પ્રક્રિયાને "સ્વ-ધ્યાન" કહે છે.
વાક્યોને પાર્સ કરવાનો પ્રયાસ કરતી વખતે, CNN અને ટ્રાન્સફોર્મર્સ ખૂબ જ અલગ રીતે કામ કરે છે. જ્યારે CNN એકબીજાની નજીકના શબ્દો સાથે જોડાણો બનાવવા પર ધ્યાન કેન્દ્રિત કરશે, ત્યારે ટ્રાન્સફોર્મર વાક્યમાં દરેક અને દરેક શબ્દ વચ્ચે જોડાણો બનાવશે.
સ્વ-ધ્યાન પ્રક્રિયા એ માનવ ભાષાને સમજવાનો એક અભિન્ન ભાગ છે. ઝૂમ આઉટ કરીને અને આખું વાક્ય એકસાથે કેવી રીતે બંધબેસે છે તે જોઈને, મશીનો વાક્યની રચનાની સ્પષ્ટ સમજણ મેળવી શકે છે.
એકવાર પ્રથમ ટ્રાન્સફોર્મર મૉડલ રિલીઝ થઈ ગયા પછી, સંશોધકોએ ટૂંક સમયમાં જ નવા આર્કિટેક્ચરનો ઉપયોગ ઈન્ટરનેટ પર મળેલા અકલ્પનીય ટેક્સ્ટ ડેટાનો લાભ લેવા માટે કર્યો.
GPT-3 અને ઈન્ટરનેટ
2020 માં, ઓપનએઆઈ જીપીટી-3 મોડેલ બતાવે છે કે ટ્રાન્સફોર્મર્સ કેટલા અસરકારક હોઈ શકે છે. GPT-3 એવા ટેક્સ્ટને આઉટપુટ કરવામાં સક્ષમ હતું જે માનવથી લગભગ અસ્પષ્ટ લાગે છે. GPT-3 ને આટલું શક્તિશાળી બનાવ્યું તેનો એક ભાગ પ્રશિક્ષણ ડેટાનો ઉપયોગ હતો. મોડલના મોટાભાગના પ્રી-ટ્રેનિંગ ડેટાસેટ કોમન ક્રોલ તરીકે ઓળખાતા ડેટાસેટમાંથી આવે છે જે 400 બિલિયનથી વધુ ટોકન્સ સાથે આવે છે.
જ્યારે GPT-3 ની વાસ્તવિક માનવ ટેક્સ્ટ જનરેટ કરવાની ક્ષમતા તેના પોતાના પર ગ્રાઉન્ડબ્રેકિંગ હતી, સંશોધકોએ શોધ્યું કે સમાન મોડેલ અન્ય કાર્યોને કેવી રીતે હલ કરી શકે છે.
ઉદાહરણ તરીકે, તે જ GPT-3 મોડેલ કે જેનો ઉપયોગ તમે ટ્વીટ જનરેટ કરવા માટે કરી શકો છો તે તમને ટેક્સ્ટનો સારાંશ આપવા, ફકરાને ફરીથી લખવામાં અને વાર્તા સમાપ્ત કરવામાં પણ મદદ કરી શકે છે. ભાષા મોડેલો એટલા શક્તિશાળી બની ગયા છે કે તેઓ હવે આવશ્યકપણે સામાન્ય હેતુના સાધનો છે જે કોઈપણ પ્રકારના આદેશને અનુસરે છે.
GPT-3 ની સામાન્ય-હેતુની પ્રકૃતિએ આવી અરજીઓ માટે મંજૂરી આપી છે GitHub કોપાયલોટ, જે પ્રોગ્રામરોને સાદા અંગ્રેજીમાંથી વર્કિંગ કોડ જનરેટ કરવાની મંજૂરી આપે છે.
પ્રસરણ મોડલ્સ: ટેક્સ્ટથી છબીઓ સુધી
ટ્રાન્સફોર્મર્સ અને NLP સાથે થયેલી પ્રગતિએ અન્ય ક્ષેત્રોમાં પણ જનરેટિવ AI માટે માર્ગ મોકળો કર્યો છે.
કોમ્પ્યુટર વિઝનના ક્ષેત્રમાં, અમે પહેલેથી જ આવરી લીધું છે કે કેવી રીતે ઊંડા શિક્ષણથી મશીનોને ઈમેજો સમજવાની મંજૂરી મળી. જો કે, અમારે હજુ પણ એઆઈ માટે માત્ર તેમને વર્ગીકૃત કરવાને બદલે ઈમેજીસ જનરેટ કરવાનો રસ્તો શોધવાની જરૂર હતી.
DALL-E 2, સ્ટેબલ ડિફ્યુઝન અને મિડજર્ની જેવા જનરેટિવ ઇમેજ મૉડલ્સ લોકપ્રિય બન્યા છે કારણ કે તેઓ ટેક્સ્ટ ઇનપુટને કેવી રીતે ઇમેજમાં કન્વર્ટ કરવામાં સક્ષમ છે.
આ ઇમેજ મૉડલ બે મુખ્ય પાસાઓ પર આધાર રાખે છે: એક મૉડલ જે ઇમેજ અને ટેક્સ્ટ વચ્ચેના સંબંધને સમજે છે અને એક મૉડલ કે જે ખરેખર ઇનપુટ સાથે મેળ ખાતી હાઇ-ડેફિનેશન ઇમેજ બનાવી શકે છે.
ઓપનએઆઈ ક્લિપ (કોન્ટ્રાસ્ટિવ લેંગ્વેજ–ઇમેજ પ્રી-ટ્રેનિંગ) એક ઓપન-સોર્સ મોડલ છે જેનો હેતુ પ્રથમ પાસાને ઉકેલવાનો છે. ઇમેજ જોતાં, CLIP મોડલ તે ચોક્કસ ઇમેજ માટે સૌથી વધુ સુસંગત ટેક્સ્ટ વર્ણનની આગાહી કરી શકે છે.
CLIP મૉડલ મહત્ત્વની ઇમેજ ફિચર્સ કેવી રીતે એક્સટ્રેક્ટ કરવી અને ઇમેજની સરળ રજૂઆત કેવી રીતે કરવી તે શીખીને કામ કરે છે.
જ્યારે વપરાશકર્તાઓ DALL-E 2 ને નમૂના ટેક્સ્ટ ઇનપુટ પ્રદાન કરે છે, ત્યારે ઇનપુટ CLIP મોડેલનો ઉપયોગ કરીને "ઇમેજ એમ્બેડિંગ" માં રૂપાંતરિત થાય છે. હવે ધ્યેય જનરેટ કરેલ ઈમેજ એમ્બેડીંગ સાથે મેળ ખાતી ઈમેજ જનરેટ કરવાનો માર્ગ શોધવાનો છે.
નવીનતમ જનરેટિવ ઇમેજ AIs a નો ઉપયોગ કરે છે પ્રસરણ મોડેલ વાસ્તવમાં એક છબી બનાવવાના કાર્યનો સામનો કરવા માટે. ડિફ્યુઝન મોડલ્સ ન્યુરલ નેટવર્ક્સ પર આધાર રાખે છે જે છબીઓમાંથી ઉમેરાયેલ અવાજને કેવી રીતે દૂર કરવો તે જાણવા માટે પૂર્વ-પ્રશિક્ષિત હતા.
તાલીમની આ પ્રક્રિયા દરમિયાન, ન્યુરલ નેટવર્ક આખરે શીખી શકે છે કે કેવી રીતે રેન્ડમ અવાજની છબીમાંથી ઉચ્ચ-રિઝોલ્યુશન ઇમેજ બનાવવી. અમારી પાસે પહેલેથી જ CLIP દ્વારા આપવામાં આવેલ ટેક્સ્ટ અને ઈમેજીસનું મેપિંગ હોવાથી, અમે કરી શકીએ છીએ પ્રસરણ મોડેલને તાલીમ આપો CLIP ઇમેજ એમ્બેડિંગ્સ પર કોઈપણ ઇમેજ જનરેટ કરવાની પ્રક્રિયા બનાવવા માટે.
જનરેટિવ AI ક્રાંતિ: આગળ શું આવે છે?
અમે હવે એવા તબક્કે છીએ જ્યાં જનરેટિવ AI માં સફળતા દર બે દિવસે થઈ રહી છે. AI નો ઉપયોગ કરીને વિવિધ પ્રકારના માધ્યમો બનાવવાનું સરળ અને સરળ બનતું હોવાથી, શું આપણે ચિંતા કરવી જોઈએ કે આ આપણા સમાજને કેવી રીતે અસર કરી શકે છે?
જ્યારે સ્ટીમ એન્જિનની શોધ થઈ ત્યારથી કામદારોની જગ્યાએ મશીનોની ચિંતા હંમેશા ચર્ચામાં રહી છે, એવું લાગે છે કે આ વખતે તે થોડું અલગ છે.
જનરેટિવ AI એક બહુહેતુક સાધન બની રહ્યું છે જે AI ટેકઓવરથી સુરક્ષિત માનવામાં આવતા ઉદ્યોગોને વિક્ષેપિત કરી શકે છે.
જો AI કેટલીક મૂળભૂત સૂચનાઓમાંથી દોષરહિત કોડ લખવાનું શરૂ કરી શકે તો શું આપણને પ્રોગ્રામરની જરૂર પડશે? શું લોકો સર્જનાત્મકોને ભાડે રાખશે જો તેઓ માત્ર સસ્તામાં જોઈતું આઉટપુટ ઉત્પન્ન કરવા માટે જનરેટિવ મોડલનો ઉપયોગ કરી શકે?
જનરેટિવ AI ક્રાંતિના ભવિષ્યની આગાહી કરવી મુશ્કેલ છે. પરંતુ હવે જ્યારે અલંકારિક પાન્ડોરા બોક્સ ખોલવામાં આવ્યું છે, મને આશા છે કે ટેક્નોલોજી વધુ રોમાંચક નવીનતાઓને મંજૂરી આપશે જે વિશ્વ પર હકારાત્મક અસર છોડી શકે છે.
એક જવાબ છોડો