विषयसूची[लुकाउनुहोस्][देखाउनु]
नयाँ र सुधारिएको AI ले क्षमता, बुझ्ने क्षमता र उच्च रिजोल्युसन छविहरू उत्पादन गर्ने क्षमतामा सुधार गरेको छ। तपाईंले भर्खरै इन्टरनेटमा तैरिरहेका केही अनौठो र रमाईलो तस्बिरहरू भेट्नुभएको हुन सक्छ।
शिबा इनु कुकुरले बेरेट र कालो टर्टलनेक लगाएको छ। र डच चित्रकार वर्मीरको "मोतीको बालीसँग केटी" को तरिकामा समुद्री ओटर। र त्यहाँ एक कप सूप छ जुन ऊनी राक्षस जस्तो देखिन्छ।
यी छविहरू मानव कलाकार द्वारा सिर्जना गरिएको होइन।
यसको सट्टा, DALL-E 2, नयाँ एआई प्रणाली जसले पाठ्य विवरणहरूलाई छविहरूमा रूपान्तरण गर्न सक्छ, तिनीहरूलाई सिर्जना गर्यो।
तपाईले हेर्न चाहनु भएको कुरा मात्र लेख्नुहोस्, र AI ले तपाइँको लागि यसलाई सिर्जना गर्नेछ - ज्वलन्त विवरणमा, उत्कृष्ट गुणस्तर, र, केहि अवस्थामा, वास्तविक आविष्कारशीलता। यस पोष्टमा, हामी OpenAI को पछिल्लो अध्ययन, DALL.E 2, साथै यसले कसरी काम गर्छ, र धेरै कुराहरूमा गहिरो हेराई गर्नेछौं। सुरु गरौं।
त्यसो भए वास्तवमा के हो DALL.E 2?
DALL-E 2 एक "उत्पादक मोडेल" हो, मेशिन लर्निङ एल्गोरिदमको एक प्रकार जसले इनपुट डेटामा भविष्यवाणी वा वर्गीकरण कार्यहरू गर्नुको सट्टा जटिल आउटपुट उत्पन्न गर्दछ।
तपाईंले DALL-E 2 लाई लिखित विवरण प्रदान गर्नुहुन्छ, र यसले त्यससँग मिल्दोजुल्दो चित्र सिर्जना गर्दछ। अवधारणाहरू, गुणहरू र शैलीहरू संयोजन गरेर, OpenAI को DALLE 2 ले आधारभूत भाषिक विवरणबाट नवीन, यथार्थपरक ग्राफिक्स र कला उत्पादन गर्न सक्छ।
नवीनतम संस्करण, DALLE 2, अधिक बहुमुखी भएको भनिन्छ, उच्च रिजोल्युसनमा र रचनात्मक शैलीहरूको फराकिलो स्पेक्ट्रममा क्याप्सनहरूबाट चित्रहरू बनाउन सक्षम छ। उदाहरणका लागि, तलका तस्बिरहरू (DALL-E 2 ब्लग पोस्टबाट) "घोडामा सवार एक अन्तरिक्ष यात्री" वर्णनद्वारा सिर्जना गरिएको हो।
एउटा विवरणले “पेन्सिल स्केच जस्तै” निष्कर्षमा पुग्छ भने अर्कोको निष्कर्ष, “फोटोरियलस्टिक तरिकामा”।
यसले अचम्मको परिशुद्धताका साथ अवस्थित फोटोहरू पनि परिवर्तन गर्न सक्छ। त्यसोभए, तपाईले मूल छविको उपस्थिति कायम राख्दा रङ, प्रतिबिम्ब र छायाहरू राख्दा तत्वहरू थप्न वा मेटाउन सक्नुहुन्छ।
यस्ले कसरी काम गर्छ?
DALL-E 2 ले CLIP र डिफ्युजन मोडलहरू प्रयोग गर्दछ, दुई परिष्कृत गहिरो शिक्षा हालका वर्षहरूमा विकसित दृष्टिकोण। यद्यपि, यो अन्य सबै गहिरो जस्तै समान धारणामा आधारित छ तंत्रिका नेटवर्क: प्रतिनिधित्व शिक्षा। CLIP ले एकै साथ दुई जनालाई तालिम दिन्छ तंत्रिका सञ्जालहरू तस्विर र क्याप्शनहरूमा।
एउटा नेटवर्कले तस्विरमा भिजुअल प्रतिनिधित्वहरू सिक्छ, जबकि अर्कोले पाठ प्रतिनिधित्वहरू सिक्छ। तालिमको बखत, दुई सञ्जालहरूले आफ्ना प्यारामिटरहरू परिमार्जन गर्ने प्रयास गर्छन् ताकि तुलनात्मक तस्बिरहरू र विवरणहरू समान एम्बेडिङहरूमा परिणाम हुन्छन्।
"डिफ्युजन," एक प्रकारको जेनेरेटिभ मोडेल जसले यसको प्रशिक्षण नमूनाहरू क्रमशः आवाज र अस्वीकार गरेर चित्रहरू बनाउन सिक्छ, DALL-E 2 मा प्रयोग गरिएको अर्को मेसिन लर्निङ दृष्टिकोण हो। डिफ्यूजन मोडेलहरू अटोइन्कोडरहरू जस्तै छन् जसमा तिनीहरूले इनपुट डेटालाई एक इम्बेडिङ प्रतिनिधित्व र त्यसपछि मूल डाटा पुन: सिर्जना गर्न इम्बेडिङ जानकारी प्रयोग गर्नुहोस्।
OpenAI को प्रयोग गर्दै भाषा मोडेल CLIP, जसले तस्विरहरूसँग पाठ्य विवरणहरू जडान गर्न सक्छ, यसले पहिले लिखित प्रम्प्टलाई मध्यवर्ती फारममा अनुवाद गर्दछ जसले महत्त्वपूर्ण गुणहरू समावेश गर्दछ जुन तस्विरले प्रम्प्टसँग मेल खानुपर्छ (CLIP अनुसार)।
दोस्रो, DALL-E 2 ले CLIP-अनुरूप सिर्जना गर्दछ एक प्रसार मोडेल प्रयोग गरेर छवि, जुन एक न्यूरल नेटवर्क हो।
अनियमित पिक्सेलको साथ विकृत फोटोहरूमा, प्रसार मोडेलहरू सिकिन्छन्। तिनीहरूले तस्बिरहरूको मूल रूप कसरी पुनर्स्थापित गर्ने भनेर सिक्छन्। प्रसार मोडेलहरूले उच्च-गुणस्तरको सिंथेटिक छविहरू उत्पादन गर्न सक्छन्, विशेष गरी जब विविधतामा शुद्धतालाई प्राथमिकता दिने दिशानिर्देशक दृष्टिकोणसँग संयोजनमा प्रयोग गरिन्छ।
एक परिणामको रूपमा, प्रसार मोडेल अनियमित पिक्सेल लिन्छ र शब्द प्रम्प्टसँग मेल खाने नयाँ छविमा रूपान्तरण गर्न CLIP प्रयोग गर्दछ। प्रसार अवधारणाको कारण, DALL-E 2 ले DALL-E भन्दा छिटो उच्च-रिजोल्युसन छविहरू उत्पादन गर्न सक्छ।
DALL.E 2 प्रयोग केस
पछिल्लो बीस वर्षमा वि. कम्प्युटर दृष्टि प्रविधिले साधारण धारणाबाट ठूलो सफलता हासिल गरेको छ। यी प्रगतिहरूको बावजुद, चित्र र वस्तु पहिचान मोडेलहरू अझै पनि दैनिक जीवनमा महत्त्वपूर्ण अवरोधहरूको सामना गर्छन्। डाटासेटहरूको अनुपस्थिति छवि पहिचान र कम्प्युटर दृष्टिको सबैभन्दा महत्त्वपूर्ण कमजोरीहरू मध्ये एक हो। किनभने त्यहाँ दुबै छेउमा डेटा अभाव छ, 100 प्रतिशत सही नतिजाहरू दिन छवि पहिचान मोडेलहरूलाई प्रशिक्षण दिन लगभग गाह्रो छ।
सौभाग्यवश, OpenAI को नयाँ मेसिन लर्निङ मोडेलले प्रविधिको खाडललाई पूरा गर्न सक्छ। DALLE 2 पाठ विवरणहरूमा आधारित अद्भुत चित्रहरू उत्पन्न गर्न सक्षम छ। यो नक्कली तस्वीर उत्पादनले छवि पहिचान मोडेलहरूलाई तिनीहरूको आवश्यकताहरूको आधारमा डाटा प्रदान गर्न सक्छ। तथ्याङ्कको अभाव वस्तु र तस्विर पहिचानको लागि महत्त्वपूर्ण ठक्कर हो।
डिजिटल युगमा, डाटासेटहरू सर्वव्यापी छन्, तैपनि हामी अझै पनि एआई मोडेललाई फीड गर्न सर्टकटहरू खोजिरहेका छौं, त्यसैले यसले राम्रो परिणामहरू प्रदान गर्न सक्छ। यद्यपि, छवि पहिचान मोडेललाई तालिम दिन यो सरल छैन। यसले थोरै भिन्नताहरूसँग ठूलो संख्यामा डेटा सेटहरू आवश्यक पर्दछ, जुन हामीले सजिलै पुन: प्राप्त गर्न सक्षम नहुन सक्छौं।
त्यसोभए, यसको जवाफ के छ: जवाफ हो DALLE 2। ओपनएआई चित्र जेनेरेटर, पाठहरूबाट छविहरू उत्पादन गर्ने र अवस्थित छविहरू परिवर्तन गर्ने क्षमताको साथ, यो अन्तरलाई पूरा गर्न मद्दत गर्न सक्छ। यसले अतिरिक्त प्रशिक्षण डेटा उत्पादन गर्न मद्दत गर्नेछ र मानव लेबलिङको मात्रालाई पनि कम गर्नेछ। महत्त्वपूर्ण लाभको बावजुद, तपाइँ धोखाधडी छवि उत्पादनहरू र समावेश नगर्ने छविहरू बारे सचेत हुनुपर्छ। यसले पक्षपाती परिणामहरू उत्पादन गर्ने छवि पत्ता लगाउने विधिहरू निम्त्याउन सक्छ।
सीमितता
DALL.E 2 ले राम्रोसँग हानिकारक प्रभाव पार्न सक्छ यदि यो गलत हातमा पर्यो भने, OpenAI अनुसार। आजको गहिरो नक्कली संसारमा, मोडेल सजिलैसँग झूटा जानकारी वा जातीय छविहरू फैलाउन प्रयोग गर्न सकिन्छ, त्यसैले OpenAI ले विकासकर्ताहरूलाई निमन्त्रणाद्वारा DALL.2 प्रयोग गर्न अनुमति दिन्छ। मोडेलले आफूले पाउने सबै सुझावहरूको लागि कठोर सामग्री प्रतिबन्धको पालना गर्नुपर्छ।
DALL.E 2 को कुनै पनि शत्रुतापूर्ण वा हिंसात्मक तस्बिरहरू सिर्जना गर्ने सम्भावनालाई बहिष्कार गर्न, डेटासेट कुनै घातक हतियार बिना नै सिर्जना गरिएको थियो। OpenAI ले भविश्यमा यसलाई API मा रूपान्तरण गर्ने योजना बनाएको छ भने DALL.E 2 को मामलामा, यो सावधानीका साथ अगाडि बढ्न इच्छुक छ।
निष्कर्ष
DALL-E 2 अर्को रोचक OpenAI अनुसन्धान खोज हो जसले नयाँ अनुप्रयोगहरूको ढोका खोल्छ।
एउटा उदाहरण कम्प्यूटर भिजनको मुख्य बाधाहरू-डेटाहरू मध्ये एक पूरा गर्न ठूलो डेटासेटहरू सिर्जना गर्दैछ। जबकि धेरै DALL-E-आधारित एपहरूको लागि आर्थिक मामला OpenAI ले यसको API प्रयोगकर्ताहरूका लागि स्थापना गरेको मूल्य र नीतिहरूद्वारा निर्धारण गरिनेछ, ती सबै निस्सन्देह तस्विर उत्पादनलाई अगाडि बढाउनेछन्।
जवाफ छाड्नुस्