பொருளடக்கம்[மறை][காட்டு]
புதிய மற்றும் மேம்படுத்தப்பட்ட AI ஆனது மேம்பட்ட திறன்கள், புரிதல் மற்றும் அதிக தெளிவுத்திறன் கொண்ட படங்களை உருவாக்கும் திறன் ஆகியவற்றைக் கொண்டுள்ளது. இணையத்தில் மிதக்கும் சில விசித்திரமான மற்றும் வேடிக்கையான படங்களை நீங்கள் சமீபத்தில் பார்த்திருக்கலாம்.
ஒரு ஷிபா இனு நாய் ஒரு பெரட் மற்றும் ஒரு கருப்பு ஆமை உடையணிந்துள்ளது. மற்றும் டச்சு ஓவியர் வெர்மீரின் "ஒரு முத்து காதணியுடன் கூடிய பெண்" பாணியில் ஒரு கடல் நீர்நாய். கம்பளி அரக்கனைப் போல தோற்றமளிக்கும் ஒரு கோப்பை சூப் உள்ளது.
இந்த படங்கள் ஒரு மனித கலைஞரால் உருவாக்கப்படவில்லை.
அதற்கு பதிலாக, DALL-E 2, உரை விளக்கங்களை படங்களாக மாற்றக்கூடிய ஒரு புதிய AI அமைப்பு, அவற்றை உருவாக்கியது.
நீங்கள் பார்க்க விரும்புவதை எழுதுங்கள், AI அதை உங்களுக்காக உருவாக்கும் - தெளிவான விவரங்கள், சிறந்த தரம் மற்றும், சில சந்தர்ப்பங்களில், உண்மையான கண்டுபிடிப்பு. இந்த இடுகையில், OpenAI இன் சமீபத்திய ஆய்வான DALL.E 2 மற்றும் அது எவ்வாறு செயல்படுகிறது மற்றும் பலவற்றை ஆழமாகப் பார்ப்போம். ஆரம்பிக்கலாம்.
எனவே, சரியாக என்ன DALL.E 2?
DALL-E 2 என்பது ஒரு "உருவாக்கும் மாதிரி" ஆகும், இது ஒரு வகை இயந்திர கற்றல் வழிமுறையாகும், இது உள்ளீட்டுத் தரவில் கணிப்பு அல்லது வகைப்படுத்தல் பணிகளைச் செய்வதை விட சிக்கலான வெளியீட்டை உருவாக்குகிறது.
நீங்கள் எழுதப்பட்ட விளக்கத்துடன் DALL-E 2 ஐ வழங்குகிறீர்கள், மேலும் அது ஒரு படத்தை உருவாக்குகிறது. கருத்துகள், குணங்கள் மற்றும் பாணிகளை இணைப்பதன் மூலம், OpenAI இன் DALLE 2 ஒரு அடிப்படை மொழியியல் விளக்கத்திலிருந்து புதுமையான, யதார்த்தமான கிராபிக்ஸ் மற்றும் கலையை உருவாக்க முடியும்.
சமீபத்திய பதிப்பு, DALLE 2, மிகவும் பல்துறை, அதிக தெளிவுத்திறன் மற்றும் ஆக்கப்பூர்வமான பாணிகளின் பரந்த அளவிலான தலைப்புகளில் இருந்து படங்களை உருவாக்கும் திறன் கொண்டது. உதாரணமாக, கீழே உள்ள படங்கள் (DALL-E 2 வலைப்பதிவு இடுகையிலிருந்து) "ஒரு விண்வெளி வீரர் குதிரையில் சவாரி செய்கிறார்" என்ற விளக்கத்தால் உருவாக்கப்பட்டது.
ஒரு விளக்கம், "பென்சில் ஸ்கெட்ச் போல" என்று முடிவடைகிறது, மற்றொன்று "ஒரு ஒளிக்காட்சி முறையில்" முடிவடைகிறது.
இது ஏற்கனவே உள்ள புகைப்படங்களை வியக்கத்தக்க துல்லியத்துடன் மாற்றலாம். எனவே, அசல் படத்தின் தோற்றத்தைப் பராமரிக்கும் போது, வண்ணங்கள், பிரதிபலிப்புகள் மற்றும் நிழல்களை வைத்து உறுப்புகளைச் சேர்க்கலாம் அல்லது நீக்கலாம்.
இது எப்படி வேலை செய்கிறது?
DALL-E 2 ஆனது CLIP மற்றும் டிஃப்யூஷன் மாடல்களைப் பயன்படுத்துகிறது, இரண்டு அதிநவீனமானது ஆழமான கற்றல் அணுகுமுறைகள் சமீபத்திய ஆண்டுகளில் உருவாக்கப்பட்டன. இருப்பினும், இது மற்ற எல்லா ஆழமான அதே கருத்தை அடிப்படையாகக் கொண்டது நரம்பியல் வலையமைப்புகள்: பிரதிநிதித்துவ கற்றல். CLIP ஒரே நேரத்தில் இருவருக்கு பயிற்சி அளிக்கிறது நரம்பியல் வலையமைப்புகள் படங்கள் மற்றும் தலைப்புகளில்.
ஒரு நெட்வொர்க் படத்தில் உள்ள காட்சி பிரதிநிதித்துவங்களைக் கற்றுக்கொள்கிறது, மற்றொன்று உரை பிரதிநிதித்துவங்களைக் கற்றுக்கொள்கிறது. பயிற்சியின் போது, இரண்டு நெட்வொர்க்குகளும் அவற்றின் அளவுருக்களை மாற்ற முயல்கின்றன, இதனால் ஒப்பிடக்கூடிய படங்கள் மற்றும் விளக்கங்கள் ஒரே மாதிரியான உட்பொதிவுகளில் விளைகின்றன.
"டிஃப்யூஷன்", அதன் பயிற்சி மாதிரிகளை படிப்படியாக சத்தமிட்டு, டினாயிஸ் செய்வதன் மூலம் படங்களை உருவாக்கக் கற்றுக் கொள்ளும் ஒரு வகை உருவாக்க மாதிரி, இது DALL-E 2 இல் பயன்படுத்தப்படும் மற்ற இயந்திர கற்றல் அணுகுமுறையாகும். டிஃப்யூஷன் மாதிரிகள் ஆட்டோஎன்கோடர்களைப் போலவே இருக்கும், அவை உள்ளீட்டுத் தரவை மாற்றும். பிரதிநிதித்துவத்தை உட்பொதித்து, அசல் தரவை மீண்டும் உருவாக்க உட்பொதித்தல் தகவலைப் பயன்படுத்தவும்.
OpenAI ஐப் பயன்படுத்துதல் மொழி மாதிரி புகைப்படங்களுடன் உரை விளக்கங்களை இணைக்கக்கூடிய CLIP, அது முதலில் எழுதப்பட்ட வரியில் ஒரு இடைநிலை வடிவத்தில் மொழிபெயர்க்கிறது, இது ஒரு படம் அந்த வரியில் பொருந்த வேண்டிய முக்கிய பண்புகளை உள்ளடக்கியது (CLIP படி).
இரண்டாவதாக, DALL-E 2 CLIP-இணக்கத்தை உருவாக்குகிறது ஒரு பரவல் மாதிரியைப் பயன்படுத்தி படம், இது ஒரு நரம்பியல் வலையமைப்பு.
சீரற்ற பிக்சல்கள் கொண்ட சிதைந்த புகைப்படங்களில், பரவல் மாதிரிகள் கற்றுக்கொள்ளப்படுகின்றன. புகைப்படங்களின் அசல் வடிவத்தை எவ்வாறு மீட்டெடுப்பது என்பதை அவர்கள் கற்றுக்கொள்கிறார்கள். பரவல் மாதிரிகள் உயர்தர செயற்கை படங்களை உருவாக்க முடியும், குறிப்பாக பன்முகத்தன்மையை விட துல்லியத்திற்கு முன்னுரிமை அளிக்கும் வழிகாட்டும் அணுகுமுறையுடன் இணைந்து பயன்படுத்தும்போது.
இதன் விளைவாக, தி பரவல் மாதிரி ரேண்டம் பிக்சல்களை எடுத்து CLIPஐப் பயன்படுத்தி அவற்றை வார்த்தை வரியில் பொருந்தக்கூடிய புதிய படமாக மாற்றுகிறது. பரவல் கருத்தாக்கத்தின் காரணமாக, DALL-E 2 ஆனது DALL-E ஐ விட வேகமாக அதிக தெளிவுத்திறன் கொண்ட படங்களை உருவாக்க முடியும்.
DALL.E 2 பயன்பாட்டு வழக்கு
கடந்த இருபது ஆண்டுகளில், கணினி பார்வை தொழில்நுட்பம் ஒரு எளிய கருத்தில் இருந்து ஒரு பெரிய முன்னேற்றத்திற்கு முன்னேறியுள்ளது. இந்த முன்னேற்றங்கள் இருந்தபோதிலும், படம் மற்றும் பொருள் அங்கீகார மாதிரிகள் இன்னும் அன்றாட வாழ்க்கையில் குறிப்பிடத்தக்க தடைகளை எதிர்கொள்கின்றன. தரவுத்தொகுப்புகள் இல்லாதது பட அங்கீகாரம் மற்றும் கணினி பார்வையின் மிக முக்கியமான குறைபாடுகளில் ஒன்றாகும். இரண்டு முனைகளிலும் தரவு பற்றாக்குறை இருப்பதால், 100 சதவிகிதம் துல்லியமான முடிவுகளை வழங்குவதற்கு பட அங்கீகார மாதிரிகளைப் பயிற்றுவிப்பது கிட்டத்தட்ட கடினம்.
அதிர்ஷ்டவசமாக, OpenAI இன் புதிய இயந்திர கற்றல் மாதிரி தொழில்நுட்பத்தில் உள்ள இடைவெளியைக் குறைக்கும். DALLE 2 உரை விளக்கங்களின் அடிப்படையில் அற்புதமான படங்களை உருவாக்கும் திறன் கொண்டது. இந்தப் போலிப் படத் தயாரிப்பானது, பட அங்கீகார மாடல்களுக்கு அவற்றின் தேவைகளின் அடிப்படையில் தரவை வழங்க முடியும். தரவு இல்லாதது பொருள் மற்றும் படத்தை அடையாளம் காண ஒரு குறிப்பிடத்தக்க முட்டுக்கட்டை.
டிஜிட்டல் சகாப்தத்தில், தரவுத்தொகுப்புகள் எங்கும் காணப்படுகின்றன, ஆனாலும் AI மாதிரியை ஊட்டுவதற்கான குறுக்குவழிகளை நாங்கள் இன்னும் தேடுகிறோம், எனவே அது நல்ல விளைவுகளை அளிக்கும். இருப்பினும், படத்தை அடையாளம் காணும் மாதிரியைப் பயிற்றுவிப்பது எளிதானது அல்ல. இதற்கு சிறிய வேறுபாடுகளுடன் அதிக எண்ணிக்கையிலான தரவுத் தொகுப்புகள் தேவைப்படுகின்றன, அதை நம்மால் எளிதாக மீட்டெடுக்க முடியவில்லை.
எனவே, பதில் என்ன: பதில் DALLE 2. OpenAI பிக்சர் ஜெனரேட்டர், உரைகளிலிருந்து படங்களைத் தயாரிக்கும் மற்றும் ஏற்கனவே உள்ளவற்றை மாற்றும் திறன் கொண்டது, இடைவெளியைக் குறைக்க உதவும். இது கூடுதல் பயிற்சி தரவை உருவாக்க உதவும் அதே வேளையில் தேவைப்படும் மனித லேபிளிங்கின் அளவையும் குறைக்கும். குறிப்பிடத்தக்க நன்மை இருந்தபோதிலும், மோசடியான படத் தயாரிப்புகள் மற்றும் சேர்ப்பதை விலக்கும் படங்கள் குறித்து நீங்கள் எச்சரிக்கையாக இருக்க வேண்டும். இது பக்கச்சார்பான முடிவுகளை உருவாக்கும் படத்தைக் கண்டறிதல் முறைகளுக்கு வழிவகுக்கும்.
வரம்புகள்
OpenAI இன் படி, DALL.E 2 தவறான கைகளில் விழுந்தால் தீங்கு விளைவிக்கும். ஆழமான போலிகள் நிறைந்த இன்றைய உலகில், தவறான தகவல் அல்லது இனவெறி படங்களைப் பரப்புவதற்கு இந்த மாதிரியை எளிதாகப் பயன்படுத்தலாம், அதனால்தான் OpenAI ஆனது டெவலப்பர்களை அழைப்பின் மூலம் DALL.2 ஐப் பயன்படுத்த அனுமதிக்கிறது. மாடல் அவர் பெறும் அனைத்து பரிந்துரைகளுக்கும் கடுமையான உள்ளடக்கக் கட்டுப்பாடுடன் இணங்க வேண்டும்.
DALL.E 2 இன் சாத்தியக்கூறுகளை விலக்க, எந்தவொரு விரோதமான அல்லது வன்முறையான படங்களையும் உருவாக்க, தரவுத்தொகுப்பு எந்த கொடிய ஆயுதமும் இல்லாமல் உருவாக்கப்பட்டது. எதிர்காலத்தில் அதை API ஆக மாற்ற திட்டமிட்டுள்ளதாக OpenAI கூறியுள்ள நிலையில், DALL.E 2 விஷயத்தில், எச்சரிக்கையுடன் தொடர தயாராக உள்ளது.
தீர்மானம்
DALL-E 2 என்பது மற்றொரு சுவாரஸ்யமான OpenAI ஆராய்ச்சி கண்டுபிடிப்பாகும், இது புதிய பயன்பாடுகளுக்கான கதவைத் திறக்கிறது.
ஒரு உதாரணம், கணினி பார்வையின் முக்கிய இடையூறுகளில் ஒன்றான டேட்டாவை சந்திக்க பாரிய தரவுத்தொகுப்புகளை உருவாக்குவது. பல DALL-E-அடிப்படையிலான பயன்பாடுகளுக்கான பொருளாதார நிலை அதன் API பயனர்களுக்காக OpenAI நிறுவும் விலை மற்றும் கொள்கைகளால் தீர்மானிக்கப்படும் என்றாலும், அவை அனைத்தும் சந்தேகத்திற்கு இடமின்றி படத் தயாரிப்பை முன்னெடுக்கும்.
ஒரு பதில் விடவும்