கணினியால் ஒரு படத்தை விவரிக்க முடியும் என்பது உங்களுக்குத் தெரியும்.
எடுத்துக்காட்டாக, உங்கள் குழந்தைகளுடன் விளையாடும் நாயின் படத்தை 'தோட்டத்தில் நாய் மற்றும் குழந்தைகள்' என்று மொழிபெயர்க்கலாம். ஆனால் அதற்கு நேர்மாறான வழியும் இப்போது சாத்தியம் என்பது உங்களுக்குத் தெரியுமா? நீங்கள் சில வார்த்தைகளைத் தட்டச்சு செய்கிறீர்கள், இயந்திரம் ஒரு புதிய படத்தை உருவாக்குகிறது.
ஏற்கனவே உள்ள புகைப்படங்களைத் தேடும் கூகுள் தேடலைப் போலல்லாமல், இவை அனைத்தும் புதியவை. சமீபத்திய ஆண்டுகளில், OpenAI முன்னணி நிறுவனங்களில் ஒன்றாக உள்ளது, அதிர்ச்சியூட்டும் விளைவுகளை அறிக்கை செய்கிறது.
அவர்கள் பாரிய உரை மற்றும் பட தரவுத்தளங்களில் தங்கள் வழிமுறைகளைப் பயிற்றுவிக்கிறார்கள். அவர்கள் தங்கள் GLIDE பட மாதிரியில் ஒரு கட்டுரையை வெளியிட்டனர், இது நூற்றுக்கணக்கான மில்லியன் புகைப்படங்களில் பயிற்சியளிக்கப்பட்டது. ஃபோட்டோரியலிசத்தைப் பொறுத்தவரை, இது அவர்களின் முந்தைய 'DALL-E' மாதிரியை விட சிறப்பாக செயல்படுகிறது.
இந்த இடுகையில், ஓபன்ஏஐயின் GLIDE ஐப் பார்ப்போம், இது உரை-வழிகாட்டப்பட்ட பரவல் மாதிரிகள் மூலம் ஒளிமயமான படங்களை உருவாக்குவதையும் மாற்றுவதையும் நோக்கமாகக் கொண்ட பல கவர்ச்சிகரமான முயற்சிகளில் ஒன்றாகும். ஆரம்பித்துவிடுவோம்.
என்ன AI கிளைடைத் திறக்கவும்?
பெரும்பாலான படங்களை வார்த்தைகளில் விவரிக்க முடியும் என்றாலும், உரை உள்ளீடுகளிலிருந்து படங்களை உருவாக்குவது சிறப்பு அறிவு மற்றும் குறிப்பிடத்தக்க அளவு நேரம் தேவைப்படுகிறது.
ஒரு AI முகவரை இயற்கையான மொழியிலிருந்து ஒளிமயமான படங்களை உருவாக்க அனுமதிப்பது, மக்கள் முன்னோடியில்லாத வகையில் பணக்கார மற்றும் மாறுபட்ட காட்சிப் பொருட்களை உருவாக்க அனுமதிப்பது மட்டுமின்றி, எளிமையான மறுசெய்திறன் சுத்திகரிப்பு மற்றும் உருவாக்கப்பட்ட படங்களின் நேர்த்தியான கட்டுப்பாட்டையும் அனுமதிக்கிறது.
புதிய பொருட்களைச் செருகவும், நிழல்கள் மற்றும் பிரதிபலிப்புகளை உருவாக்கவும், செய்யவும், இயற்கையான மொழி உரைத் தூண்டுதல்களைப் பயன்படுத்தி ஏற்கனவே உள்ள புகைப்படங்களைத் திருத்த GLIDE ஐப் பயன்படுத்தலாம். படத்தை வரைதல், மற்றும் பல.
இது அடிப்படைக் கோடு வரைபடங்களை ஒளிமயமான புகைப்படங்களாக மாற்றலாம், மேலும் இது சிக்கலான சூழ்நிலைகளுக்கு விதிவிலக்கான பூஜ்ஜிய மாதிரி உற்பத்தி மற்றும் பழுதுபார்க்கும் திறன்களைக் கொண்டுள்ளது.
சாத்தியக்கூறு அடிப்படையிலான பரவல் மாதிரிகள் உயர்தர செயற்கை படங்களையும் உருவாக்க முடியும் என்பதை சமீபத்திய ஆராய்ச்சி நிரூபித்துள்ளது, குறிப்பாக பல்வேறு மற்றும் நம்பகத்தன்மையை சமநிலைப்படுத்தும் வழிகாட்டும் அணுகுமுறையுடன் இணைந்தால்.
OpenAI வெளியிட்டது வழிகாட்டப்பட்ட பரவல் மாதிரி மே மாதத்தில், பரவல் மாதிரிகள் வகைப்படுத்தியின் லேபிள்களில் நிபந்தனையாக இருக்க அனுமதிக்கிறது. டெக்ஸ்ட்-நிபந்தனை படத்தை உருவாக்கும் பிரச்சனைக்கு வழிகாட்டப்பட்ட பரவலைக் கொண்டு வருவதன் மூலம் GLIDE இந்த வெற்றியை மேம்படுத்துகிறது.
3.5 பில்லியன் அளவுரு GLIDE பரவல் மாதிரியைப் பயிற்றுவித்த பிறகு, ஒரு உரை குறியாக்கியைப் பயன்படுத்தி இயற்கையான மொழி விளக்கங்களுக்கு நிபந்தனையாக, ஆராய்ச்சியாளர்கள் இரண்டு மாற்று வழிகாட்டும் உத்திகளை சோதித்தனர்: CLIP வழிகாட்டுதல் மற்றும் வகைப்படுத்தி இல்லாத வழிகாட்டுதல்.
CLIP என்பது உரை மற்றும் படங்களின் கூட்டுப் பிரதிநிதித்துவங்களைக் கற்றுக்கொள்வதற்கான ஒரு அளவிடக்கூடிய நுட்பமாகும், இது ஒரு படம் ஒரு தலைப்புக்கு எவ்வளவு அருகில் உள்ளது என்பதன் அடிப்படையில் மதிப்பெண்ணை வழங்குகிறது.
மாடல்களை "வழிகாட்டும்" CLIP மாதிரியுடன் வகைப்படுத்தியை மாற்றுவதன் மூலம் குழு இந்த உத்தியை தங்கள் பரவல் மாதிரிகளில் பயன்படுத்தியது. இதற்கிடையில், வகைப்படுத்தி இல்லாத வழிகாட்டுதல் என்பது ஒரு தனி வகைப்படுத்தியின் பயிற்சியை உள்ளடக்காத பரவல் மாதிரிகளை இயக்குவதற்கான ஒரு உத்தி ஆகும்.
GLIDE கட்டிடக்கலை
GLIDE கட்டமைப்பு மூன்று கூறுகளைக் கொண்டுள்ளது: ஒரு 64 × 64 படத்தை உருவாக்க பயிற்சியளிக்கப்பட்ட ஒரு அபிலேட்டட் டிஃப்யூஷன் மாடல் (ADM), ஒரு டெக்ஸ்ட் ப்ராம்ட் மூலம் படத்தை உருவாக்குவதை பாதிக்கும் ஒரு உரை மாதிரி (மின்மாற்றி) மற்றும் எங்கள் சிறிய 64 × 64 ஐ மாற்றும் ஒரு மாதிரி மாதிரி. படங்கள் 256 x 256 பிக்சல்கள் வரை விளக்கக்கூடியவை.
படம் உருவாக்கும் செயல்முறையை கட்டுப்படுத்த முதல் இரண்டு கூறுகளும் ஒன்றிணைந்து செயல்படுகின்றன, இதனால் அது உரை வரியில் சரியான முறையில் பிரதிபலிக்கிறது, அதே சமயம் பிந்தையது நாம் உருவாக்கும் படங்களை எளிதாக புரிந்து கொள்ள வேண்டும். GLIDE திட்டம் ஏ 2021 இல் வெளியிடப்பட்ட அறிக்கை ADM நுட்பங்கள் தற்போது பிரபலமான, அதிநவீன உற்பத்தி மாதிரிகளை விட படத்தின் மாதிரி தரத்தின் அடிப்படையில் சிறப்பாக செயல்பட்டது என்பதைக் காட்டுகிறது.
ADM க்கு, GLIDE ஆசிரியர்கள் Dhariwal மற்றும் Nichol போன்ற அதே ImageNet 64 x 64 மாதிரியைப் பயன்படுத்தியுள்ளனர், ஆனால் 512 க்கு பதிலாக 64 சேனல்களுடன். இதன் விளைவாக ImageNet மாடல் தோராயமாக 2.3 பில்லியன் அளவுருக்களைக் கொண்டுள்ளது.
GLIDE குழு, Dhariwal மற்றும் Nichol போலல்லாமல், படத்தை உருவாக்கும் செயல்முறையின் மீது அதிக நேரடிக் கட்டுப்பாட்டைக் கொண்டிருக்க விரும்பியது, இதனால் அவர்கள் காட்சி மாதிரியை ஒரு கவனம் செலுத்தும் மின்மாற்றியுடன் இணைத்தனர். உரை உள்ளீட்டுத் தூண்டுதல்களைச் செயலாக்குவதன் மூலம் படத்தை உருவாக்கும் செயல்முறை வெளியீட்டின் மீது GLIDE உங்களுக்கு சில கட்டுப்பாட்டை வழங்குகிறது.
டிரான்ஸ்ஃபார்மர் மாடலுக்குப் பொருத்தமான புகைப்படங்கள் மற்றும் தலைப்புகளின் பெரிய தரவுத்தொகுப்பில் பயிற்சியளிப்பதன் மூலம் இது நிறைவேற்றப்படுகிறது (DALL-E திட்டத்தில் பயன்படுத்தப்பட்டதைப் போன்றது).
உரையானது தொடக்கத்தில் அதை நிலைப்படுத்துவதற்காக K டோக்கன்களின் தொடரில் குறியாக்கம் செய்யப்படுகிறது. அதன் பிறகு, டோக்கன்கள் ஒரு மின்மாற்றி மாதிரியில் ஏற்றப்படுகின்றன. மின்மாற்றியின் வெளியீடு இரண்டு வழிகளில் பயன்படுத்தப்படலாம். ADM மாதிரிக்கு, வகுப்பு உட்பொதிப்பிற்குப் பதிலாக இறுதி டோக்கன் உட்பொதிப்பு பயன்படுத்தப்படுகிறது.
இரண்டாவதாக, டோக்கன் உட்பொதிப்புகளின் இறுதி அடுக்கு - அம்ச திசையன்களின் தொடர் - ADM மாதிரியில் உள்ள ஒவ்வொரு கவனம் அடுக்குக்கான பரிமாணங்களுக்கும் தனித்தனியாக திட்டமிடப்பட்டு, ஒவ்வொரு கவனச் சூழலுக்கும் ஒருங்கிணைக்கப்படுகிறது.
உண்மையில், இது ADM மாதிரியானது உள்ளீடுகள் வார்த்தைகள் மற்றும் அவற்றின் தொடர்புடைய படங்களின் கற்றறிந்த புரிதலின் அடிப்படையில், ஒரு தனித்துவமான மற்றும் ஒளிக்கதிர் பாணியில் ஒத்த உரை டோக்கன்களின் புதிய சேர்க்கைகளிலிருந்து ஒரு படத்தை உருவாக்க உதவுகிறது. இந்த உரை-குறியீட்டு மின்மாற்றி 1.2 பில்லியன் அளவுருக்களைக் கொண்டுள்ளது மற்றும் 24 அகலத்துடன் 2048 மீதமுள்ள தொகுதிகளைப் பயன்படுத்துகிறது.
இறுதியாக, அப்சாம்ப்ளர் பரவல் மாதிரியானது சுமார் 1.5 பில்லியன் அளவுருக்களை உள்ளடக்கியது மற்றும் அடிப்படை மாதிரியுடன் ஒப்பிடும்போது, அதன் உரை குறியாக்கி சிறியதாக, 1024 மற்றும் 384 அடிப்படை சேனல்களின் அகலத்துடன் அடிப்படை மாதிரியிலிருந்து மாறுபடுகிறது. இந்த மாதிரி, பெயர் குறிப்பிடுவது போல, இயந்திரங்களுக்கும் மனிதர்களுக்கும் விளக்கத்தை மேம்படுத்தும் வகையில் மாதிரியை மேம்படுத்த உதவுகிறது.
பரவல் மாதிரி
GLIDE ADM இன் சொந்த பதிப்பைப் பயன்படுத்தி படங்களை உருவாக்குகிறது ("வழிகாட்டப்பட்ட" ADM-G). ADM-G மாதிரியானது பரவல் U-net மாதிரியின் மாற்றமாகும். VAE, GAN மற்றும் மின்மாற்றிகள் போன்ற பொதுவான பட தொகுப்பு நுட்பங்களிலிருந்து ஒரு பரவல் U-நெட் மாடல் வியத்தகு முறையில் வேறுபடுகிறது.
அவர்கள் தரவுகளில் சீரற்ற சத்தத்தை படிப்படியாக செலுத்த, பரவல் படிகளின் ஒரு மார்கோவ் சங்கிலியை உருவாக்குகிறார்கள், பின்னர் பரவல் செயல்முறையை மாற்றியமைக்கவும், சத்தத்திலிருந்து மட்டும் தேவையான தரவு மாதிரிகளை மீண்டும் உருவாக்கவும் கற்றுக்கொள்கிறார்கள். இது இரண்டு நிலைகளில் செயல்படுகிறது: முன்னோக்கி மற்றும் தலைகீழ் பரவல்.
முன்னோக்கி பரவல் முறை, மாதிரியின் உண்மையான விநியோகத்திலிருந்து தரவுப் புள்ளியைக் கொடுக்கிறது, முன்னமைக்கப்பட்ட தொடர் படிகளில் மாதிரியில் ஒரு சிறிய அளவு இரைச்சலைச் சேர்க்கிறது. படிகள் அளவு அதிகரித்து முடிவிலியை அணுகும்போது, மாதிரி அனைத்து அடையாளம் காணக்கூடிய பண்புகளையும் இழக்கிறது மற்றும் வரிசையானது ஐசோட்ரோபிக் காஸியன் வளைவை ஒத்திருக்கத் தொடங்குகிறது.
பின்தங்கிய பரவலின் போது கட்டம், பரவல் மாதிரி அசல் உள்ளீட்டு மாதிரி விநியோகத்தை ஒத்திருக்க முயற்சிப்பதன் மூலம் படங்களில் சேர்க்கப்பட்ட இரைச்சலின் தாக்கத்தை மாற்றியமைக்க கற்றுக்கொள்கிறது.
ஒரு பூர்த்தி செய்யப்பட்ட மாதிரி உண்மையான காஸியன் இரைச்சல் உள்ளீடு மற்றும் ஒரு ப்ராம்ட் மூலம் அவ்வாறு செய்ய முடியும். ADM-G முறையானது முந்தைய முறையிலிருந்து மாறுபடுகிறது, அதில் ஒரு மாதிரி, CLIP அல்லது தனிப்பயனாக்கப்பட்ட மின்மாற்றி, உள்ளிடப்பட்ட உரைத் தூண்டல் டோக்கன்களைப் பயன்படுத்துவதன் மூலம் பின்தங்கிய பரவல் கட்டத்தை பாதிக்கிறது.
சறுக்கும் திறன்கள்
1. படத்தை உருவாக்குதல்
GLIDE இன் மிகவும் பிரபலமான மற்றும் பரவலாகப் பயன்படுத்தப்படும் பயன்பாடானது, படத்தொகுப்பாக இருக்கலாம். படங்கள் சுமாரானவை மற்றும் விலங்கு/மனித வடிவங்களில் GLIDE சிரமம் இருந்தாலும், ஒரு ஷாட் படத்தை உருவாக்குவதற்கான சாத்தியம் கிட்டத்தட்ட முடிவற்றதாக உள்ளது.
இது விலங்குகள், பிரபலங்கள், இயற்கைக்காட்சிகள், கட்டிடங்கள் மற்றும் பலவற்றின் புகைப்படங்களை உருவாக்க முடியும், மேலும் இது பல்வேறு கலை பாணிகளிலும் புகைப்படம்-யதார்த்தமாகவும் செய்யலாம். கீழேயுள்ள மாதிரிகளில் காணப்படுவது போல், GLIDE ஆனது பல்வேறு வகையான உரை உள்ளீடுகளை காட்சி வடிவத்தில் விளக்கி மாற்றியமைக்கும் திறன் கொண்டது என்று ஆராய்ச்சியாளர்களின் ஆசிரியர்கள் வலியுறுத்துகின்றனர்.
2. சறுக்கு ஓவியம்
GLIDE இன் தானியங்கி புகைப்பட ஓவியம் மிகவும் கவர்ச்சிகரமான பயன்பாடாகும். GLIDE ஆனது ஏற்கனவே உள்ள படத்தை உள்ளீடாக எடுக்கலாம், மாற்றப்பட வேண்டிய இடங்களை மனதில் கொண்டு உரை வரியில் அதைச் செயலாக்கலாம், பின்னர் அந்த பகுதிகளில் எளிதாக செயலில் மாற்றங்களைச் செய்யலாம்.
இன்னும் சிறந்த முடிவுகளை உருவாக்க, SDEdit போன்ற எடிட்டிங் மாடலுடன் இது பயன்படுத்தப்பட வேண்டும். எதிர்காலத்தில், இது போன்ற திறன்களைப் பயன்படுத்திக் கொள்ளும் பயன்பாடுகள் குறியீடு இல்லாத படத்தை மாற்றும் அணுகுமுறைகளை உருவாக்குவதில் முக்கியமானதாக இருக்கலாம்.
தீர்மானம்
இப்போது நாங்கள் செயல்முறைக்கு சென்றுவிட்டோம், GLIDE எவ்வாறு செயல்படுகிறது என்பதற்கான அடிப்படைகளையும், படத்தை உருவாக்குதல் மற்றும் பட மாற்றத்தில் அதன் திறன்களின் அகலத்தையும் நீங்கள் புரிந்து கொள்ள வேண்டும்.
ஒரு பதில் விடவும்