સામગ્રીનું કોષ્ટક[છુપાવો][બતાવો]
નવા અને સુધારેલ AI એ ક્ષમતાઓ, સમજણ અને ઉચ્ચ-રીઝોલ્યુશન ઈમેજ બનાવવાની ક્ષમતામાં સુધારો કર્યો છે. તમે તાજેતરમાં ઇન્ટરનેટ પર તરતી કેટલીક વિચિત્ર અને મનોરંજક તસવીરો જોઈ હશે.
શિબા ઇનુ કૂતરો બેરેટ અને કાળા ટર્ટલનેકમાં સજ્જ છે. અને ડચ ચિત્રકાર વર્મીરની “ગર્લ વિથ અ પર્લ ઇયરિંગ” ની રીતે સમુદ્ર ઓટર. અને ત્યાં સૂપનો એક કપ છે જે ઊની રાક્ષસ જેવો દેખાય છે.
આ છબીઓ માનવ કલાકાર દ્વારા બનાવવામાં આવ્યું ન હતું.
તેના બદલે, DALL-E 2, નવી AI સિસ્ટમ કે જે ટેક્સ્ટના વર્ણનને ઈમેજીસમાં રૂપાંતરિત કરી શકે છે, તેને બનાવ્યું છે.
તમે જે જોવા માંગો છો તે ફક્ત લખો, અને AI તમારા માટે તેને બનાવશે - આબેહૂબ વિગતવાર, ઉત્તમ ગુણવત્તા અને, કેટલાક કિસ્સાઓમાં, વાસ્તવિક સંશોધનાત્મકતા. આ પોસ્ટમાં, અમે OpenAI ના નવીનતમ અભ્યાસ, DALL.E 2, તેમજ તે કેવી રીતે કાર્ય કરે છે, અને ઘણું બધું પર ઊંડાણપૂર્વક નજર નાખીશું. ચાલો, શરુ કરીએ.
તો, બરાબર શું છે DALL.E 2?
DALL-E 2 એ "જનરેટિવ મોડલ", મશીન લર્નિંગ અલ્ગોરિધમનો એક પ્રકાર છે જે ઇનપુટ ડેટા પર આગાહી અથવા વર્ગીકરણ કાર્યો કરવાને બદલે જટિલ આઉટપુટ જનરેટ કરે છે.
તમે લેખિત વર્ણન સાથે DALL-E 2 પ્રદાન કરો છો, અને તે તેને અનુરૂપ ચિત્ર બનાવે છે. વિભાવનાઓ, ગુણો અને શૈલીઓનું સંયોજન કરીને, OpenAI નું DALLE 2 મૂળભૂત ભાષાકીય વર્ણનમાંથી નવીન, વાસ્તવિક ગ્રાફિક્સ અને કલાનું નિર્માણ કરી શકે છે.
નવીનતમ સંસ્કરણ, DALLE 2, વધુ સર્વતોમુખી હોવાનું કહેવાય છે, ઉચ્ચ રીઝોલ્યુશન પર અને સર્જનાત્મક શૈલીઓના વિશાળ સ્પેક્ટ્રમમાં કૅપ્શન્સમાંથી ચિત્રો બનાવવા માટે સક્ષમ છે. દાખલા તરીકે, નીચેના ચિત્રો (DALL-E 2 બ્લોગ પોસ્ટમાંથી) "એક અવકાશયાત્રી ઘોડા પર સવારી કરતા" વર્ણન દ્વારા બનાવવામાં આવ્યા છે
એક વર્ણન સમાપ્ત થાય છે, "પેન્સિલ સ્કેચની જેમ," જ્યારે બીજું સમાપ્ત થાય છે, "ફોટોરિયલિસ્ટિક રીતે."
તે આશ્ચર્યજનક ચોકસાઇ સાથે વર્તમાન ફોટોગ્રાફ્સને પણ બદલી શકે છે. તેથી, મૂળ ઇમેજના દેખાવને જાળવી રાખીને તમે રંગો, પ્રતિબિંબો અને પડછાયાઓને જાળવી રાખીને ઘટકો ઉમેરી અથવા કાઢી શકો છો.
તે કેવી રીતે કામ કરે છે?
DALL-E 2 ક્લિપ અને ડિફ્યુઝન મોડલ્સનો ઉપયોગ કરે છે, બે અત્યાધુનિક ઊંડા શિક્ષણ તાજેતરના વર્ષોમાં વિકસિત અભિગમો. જો કે, તે અન્ય તમામ ઊંડા જેવી જ કલ્પના પર આધારિત છે ન્યુરલ નેટવર્ક્સ: પ્રતિનિધિત્વ શિક્ષણ. CLIP એક સાથે બેને તાલીમ આપે છે ન્યુરલ નેટવર્ક્સ ચિત્રો અને કૅપ્શન્સ પર.
એક નેટવર્ક ચિત્રમાં દ્રશ્ય રજૂઆતો શીખે છે, જ્યારે અન્ય ટેક્સ્ટ રજૂઆતો શીખે છે. તાલીમ દરમિયાન, બે નેટવર્ક્સ તેમના પરિમાણોને સંશોધિત કરવાનો પ્રયાસ કરે છે જેથી તુલનાત્મક ચિત્રો અને વર્ણનો સમાન એમ્બેડિંગ્સમાં પરિણમે છે.
"ડિફ્યુઝન," એક પ્રકારનું જનરેટિવ મોડલ જે તેના પ્રશિક્ષણ નમૂનાઓને ધીમે ધીમે ઘોંઘાટ કરીને અને ડિનોઈઝ કરીને ચિત્રો બનાવવાનું શીખે છે, તે DALL-E 2 માં ઉપયોગમાં લેવાતો અન્ય મશીન લર્નિંગ અભિગમ છે. ડિફ્યુઝન મોડલ ઓટોએનકોડર્સ જેવા જ છે જેમાં તેઓ ઇનપુટ ડેટાને એકમાં રૂપાંતરિત કરે છે. એમ્બેડિંગ રજૂઆત અને પછી મૂળ ડેટાને ફરીથી બનાવવા માટે એમ્બેડિંગ માહિતીનો ઉપયોગ કરો.
OpenAI નો ઉપયોગ કરવો ભાષા મોડેલ CLIP, જે ટેક્સ્ટના વર્ણનને ફોટોગ્રાફ્સ સાથે જોડી શકે છે, તે પ્રથમ લેખિત પ્રોમ્પ્ટને મધ્યવર્તી સ્વરૂપમાં અનુવાદિત કરે છે જે નિર્ણાયક ગુણધર્મોને સમાવિષ્ટ કરે છે કે જે ચિત્રને તે પ્રોમ્પ્ટ સાથે મેળ ખાતું હોવું જોઈએ (CLIP મુજબ).
બીજું, DALL-E 2 CLIP-સુસંગત બનાવે છે પ્રસરણ મોડેલનો ઉપયોગ કરીને છબી, જે ન્યુરલ નેટવર્ક છે.
રેન્ડમ પિક્સેલ્સ સાથેના વિકૃત ફોટા પર, પ્રસરણ મોડલ શીખવામાં આવે છે. તેઓ શીખે છે કે ફોટાના મૂળ સ્વરૂપને કેવી રીતે પુનઃસ્થાપિત કરવું. ડિફ્યુઝન મોડલ્સ ઉચ્ચ-ગુણવત્તાવાળી કૃત્રિમ છબીઓ ઉત્પન્ન કરી શકે છે, ખાસ કરીને જ્યારે વિવિધતા પર ચોકસાઈને પ્રાધાન્ય આપતા માર્ગદર્શક અભિગમ સાથે જોડાણમાં ઉપયોગમાં લેવાય છે.
પરિણામે, આ પ્રસરણ મોડેલ રેન્ડમ પિક્સેલ્સ લે છે અને તેને શબ્દ પ્રોમ્પ્ટ સાથે મેળ ખાતી નવી ઈમેજમાં કન્વર્ટ કરવા માટે CLIP નો ઉપયોગ કરે છે. પ્રસરણ ખ્યાલને કારણે, DALL-E 2 DALL-E કરતાં વધુ ઝડપથી ઉચ્ચ-રિઝોલ્યુશન છબીઓ ઉત્પન્ન કરી શકે છે.
DALL.E 2 ઉપયોગ કેસ
છેલ્લા વીસ વર્ષમાં, કમ્પ્યુટર દ્રષ્ટિ ટેક્નૉલૉજી એક સરળ કલ્પનાથી આગળ વધીને એક મોટી સફળતા સુધી પહોંચી છે. આ પ્રગતિઓ હોવા છતાં, ચિત્ર અને ઑબ્જેક્ટ ઓળખ મૉડલ હજી પણ રોજિંદા જીવનમાં નોંધપાત્ર અવરોધોનો સામનો કરે છે. ડેટાસેટ્સની ગેરહાજરી એ ઇમેજ રેકગ્નિશન અને કમ્પ્યુટર વિઝનની સૌથી નોંધપાત્ર ખામીઓમાંની એક છે. કારણ કે બંને છેડે ડેટાની અછત છે, 100 ટકા સચોટ પરિણામો આપવા માટે ઇમેજ રેકગ્નિશન મોડલને તાલીમ આપવી લગભગ મુશ્કેલ છે.
સદનસીબે, OpenAIનું નવું મશીન લર્નિંગ મોડલ ટેક્નોલોજીમાં અંતરને દૂર કરી શકે છે. DALLE 2 ટેક્સ્ટ વર્ણનના આધારે આકર્ષક ચિત્રો જનરેટ કરવામાં સક્ષમ છે. આ નકલી પિક્ચર પ્રોડક્શન ઇમેજ રેકગ્નિશન મોડલ્સને તેમની જરૂરિયાતોના આધારે ડેટા પ્રદાન કરી શકે છે. ઑબ્જેક્ટ અને ચિત્રની ઓળખ માટે ડેટાની ગેરહાજરી એ નોંધપાત્ર અવરોધ છે.
ડિજિટલ યુગમાં, ડેટાસેટ્સ સર્વવ્યાપક છે, તેમ છતાં અમે હજી પણ AI મોડલને ફીડ કરવા માટે શૉર્ટકટ્સ શોધી રહ્યાં છીએ, જેથી તે સારા પરિણામો આપી શકે. જો કે, ઇમેજ રેકગ્નિશન મોડલને તાલીમ આપવી સરળ નથી. તે થોડા તફાવતો સાથે મોટી સંખ્યામાં ડેટા સેટની આવશ્યકતા ધરાવે છે, જે કદાચ અમે સરળ રીતે પુનઃપ્રાપ્ત કરી શક્યા નથી.
તો, જવાબ શું છે: જવાબ છે DALLE 2. ઓપનએઆઈ પિક્ચર જનરેટર, ટેક્સ્ટમાંથી ઈમેજો બનાવવાની અને હાલની તસવીરો બદલવાની ક્ષમતા સાથે, આ અંતરને દૂર કરવામાં મદદ કરી શકે છે. આ વધારાના પ્રશિક્ષણ ડેટાના નિર્માણમાં મદદ કરશે જ્યારે માનવ લેબલિંગની આવશ્યક માત્રામાં પણ ઘટાડો કરશે. નોંધપાત્ર લાભ હોવા છતાં, તમારે કપટપૂર્ણ છબી નિર્માણ અને છબીઓ કે જે સમાવેશને બાકાત રાખે છે તેનાથી વાકેફ હોવા જોઈએ. આ પક્ષપાતી પરિણામો ઉત્પન્ન કરતી છબી શોધ પદ્ધતિઓ તરફ દોરી શકે છે.
મર્યાદાઓ
DALL.E 2 જો તે ખોટા હાથમાં જાય તો તેની હાનિકારક અસર થઈ શકે છે, OpenAI અનુસાર. આજની ડીપ ફેકની દુનિયામાં, મોડલનો ઉપયોગ ખોટી માહિતી અથવા જાતિવાદી ઈમેજ ફેલાવવા માટે સરળતાથી થઈ શકે છે, તેથી જ OpenAI ડેવલપર્સને માત્ર આમંત્રણ દ્વારા DALL.2 નો ઉપયોગ કરવાની મંજૂરી આપે છે. મોડેલે તેણીને મળેલા તમામ સૂચનો માટે સખત સામગ્રી પ્રતિબંધનું પાલન કરવું આવશ્યક છે.
કોઈપણ પ્રતિકૂળ અથવા હિંસક ચિત્રો બનાવવાની DALL.E 2 ની સંભવિતતાને બાકાત રાખવા માટે, ડેટાસેટ કોઈપણ ઘાતક હથિયાર વિના બનાવવામાં આવ્યો હતો. જ્યારે OpenAI એ જણાવ્યું છે કે તે ભવિષ્યમાં તેને API માં રૂપાંતરિત કરવાની યોજના ધરાવે છે, DALL.E 2 ના કિસ્સામાં, તે સાવધાની સાથે આગળ વધવા તૈયાર છે.
ઉપસંહાર
DALL-E 2 એ બીજી રસપ્રદ ઓપનએઆઈ સંશોધન શોધ છે જે નવી એપ્લિકેશનો માટે દરવાજા ખોલે છે.
એક ઉદાહરણ કમ્પ્યુટર વિઝનના મુખ્ય અવરોધોમાંથી એકને પહોંચી વળવા માટે વિશાળ ડેટાસેટ્સ બનાવવાનું છે-ડેટા. જ્યારે ઘણી DALL-E-આધારિત એપ્લિકેશન્સ માટે આર્થિક કેસ OpenAI દ્વારા તેના API વપરાશકર્તાઓ માટે સ્થાપિત કરાયેલ કિંમત અને નીતિઓ દ્વારા નક્કી કરવામાં આવશે, તે બધા નિઃશંકપણે ચિત્ર ઉત્પાદનને આગળ વધારશે.
એક જવાબ છોડો