اسان ممڪن آهي ته صرف هڪ نئين پيدا ٿيندڙ AI انقلاب جي شروعات تي.
پيدا ٿيندڙ مصنوعي ذهانت الورورٿمز ۽ ماڊلز ڏانهن اشارو ڪري ٿو جيڪي مواد ٺاهڻ جي قابل آهن. اهڙي نموني جي پيداوار ۾ ٽيڪسٽ، آڊيو، ۽ تصويرون شامل آهن جيڪي اڪثر ڪري حقيقي انساني پيداوار جي طور تي غلط ٿي سگهن ٿيون.
ايپليڪشن جهڙوڪ چيٽ GPT ڏيکاريو ويو آهي ته پيدا ٿيندڙ AI صرف نوان نه آهي. AI هاڻي تفصيلي هدايتن تي عمل ڪرڻ جي قابل آهي ۽ لڳي ٿو ته دنيا ڪيئن ڪم ڪري ٿي ان جي گهڻي ڄاڻ آهي.
پر اسان هن نقطي تي ڪيئن حاصل ڪيو؟ ھن ھدايت ۾، اسين اي آءِ ريسرچ ۾ ڪجھ اھم ڪاميابين مان گذرنداسين جن ھن نئين ۽ پرجوش پيدا ڪندڙ AI انقلاب لاءِ رستو اختيار ڪيو آھي.
نيورل نيٽ ورڪ جو عروج
توھان تحقيق ڪري سگھوٿا جديد AI جي شروعات کي گہرے سکيا ۽ اعصابي نيٽ ورڪ 2012 ۾.
ان سال ۾، Alex Krizhevsky ۽ سندس ٽيم يونيورسٽي آف ٽورانٽو مان هڪ انتهائي درست الگورٿم حاصل ڪرڻ جي قابل ٿي ويا، جيڪا شين جي درجه بندي ڪري سگهي ٿي.
هن جديد نيورل نيٽ ورڪ، جيڪو هاڻي AlexNet جي نالي سان سڃاتو وڃي ٿو، رنرن اپ جي ڀيٽ ۾ تمام گهٽ نقص جي شرح سان ImageNet بصري ڊيٽابيس ۾ شين کي درجه بندي ڪرڻ جي قابل هو.
قدرتي نيٽ ورڪ اهي الگورتھم آهن جيڪي رياضياتي ڪمن جو نيٽ ورڪ استعمال ڪن ٿا هڪ خاص رويي کي سکڻ لاءِ ڪجهه تربيتي ڊيٽا جي بنياد تي. مثال طور، توهان هڪ اعصابي نيٽ ورڪ طبي ڊيٽا کي فيڊ ڪري سگهو ٿا ماڊل کي تربيت ڏيڻ لاءِ ڪينسر جهڙي بيماري جي تشخيص ڪرڻ لاءِ.
اميد اها آهي ته نيورل نيٽ ورڪ آهستي آهستي ڊيٽا ۾ نمونن کي ڳولي ٿو ۽ وڌيڪ صحيح ٿي ويندو جڏهن ناول ڊيٽا ڏني وئي.
AlexNet هڪ ڪامياب ايپليڪيشن هئي تنظيمي خفيه نيٽورڪ يا CNNs. ”اقليتي“ لفظ جو حوالو ڏئي ٿو ڪنوولوشنل پرتز جو اضافو جيڪو ڊيٽا تي وڌيڪ زور رکي ٿو جيڪو هڪٻئي جي ويجهو آهي.
جڏهن ته CNNs اڳ ۾ ئي 1980s ۾ هڪ خيال هئا، انهن صرف 2010 جي شروعات ۾ مقبوليت حاصل ڪرڻ شروع ڪيو جڏهن جديد GPU ٽيڪنالاجي ٽيڪنالاجي کي نئين بلندين ڏانهن ڌڪايو.
جي ميدان ۾ CNNs جي ڪاميابي ڪمپيوٽر جو نقشو نيورل نيٽ ورڪ جي تحقيق ۾ وڌيڪ دلچسپي ورتي.
گوگل ۽ فيس بڪ وانگر ٽيڪني ديو پنهنجون AI فريم ورڪ عوام لاءِ جاري ڪرڻ جو فيصلو ڪيو. اعلي سطحي APIs جهڙوڪ ڪيرا استعمال ڪندڙن کي گہرے اعصابي نيٽ ورڪ سان تجربو ڪرڻ لاءِ صارف دوست انٽرفيس ڏنو.
CNNs تصوير جي سڃاڻپ ۽ وڊيو تجزيي ۾ عظيم هئا پر انهن کي ڏکيائي ٿي رهي هئي جڏهن اها ٻولي جي بنياد تي مسئلن کي حل ڪرڻ جي اچي ٿي. قدرتي ٻولي پروسيسنگ ۾ اها حد موجود ٿي سگهي ٿي ڇاڪاڻ ته ڪيئن تصويرون ۽ متن اصل ۾ بنيادي طور تي مختلف مسئلا آهن.
مثال طور، جيڪڏهن توهان وٽ هڪ نمونو آهي جيڪو درجه بندي ڪري ٿو ته ڇا تصوير ۾ ٽرئفڪ جي روشني آهي، سوال ۾ ٽرئفڪ جي روشني تصوير ۾ ڪٿي به ظاهر ٿي سگهي ٿي. تنهن هوندي به، هن قسم جي نرمي ٻوليء ۾ ڪم نه ايندي آهي. لفظ ”باب مڇي کاڌو“ ۽ ”مڇيءَ کاڌو باب“ لفظ ساڳيا لفظ استعمال ڪرڻ جي باوجود مختلف معنيٰ رکن ٿا.
اهو واضح ٿي چڪو هو ته محققن کي انساني ٻولي جي مسئلن کي حل ڪرڻ لاءِ هڪ نئون طريقو ڳولڻ جي ضرورت آهي.
ٽرانسفارمر هر شيء کي تبديل ڪري ٿو
2017 ۾، الف تحقيقي مقالو عنوان "توجه توهان سڀني جي ضرورت آهي" هڪ نئين قسم جو نيٽورڪ تجويز ڪيو: ٽرانسفارمر.
جڏهن ته CNNs هڪ تصوير جي ننڍڙن حصن کي بار بار فلٽر ڪندي ڪم ڪن ٿا، ٽرانسفارمر ڊيٽا جي هر عنصر کي هر ٻئي عنصر سان ڳنڍيندا آهن. محقق هن عمل کي "خود ڌيان" سڏين ٿا.
جڏهن جملن کي پارس ڪرڻ جي ڪوشش ڪندا، سي اين اينز ۽ ٽرانسفارمر بلڪل مختلف ڪم ڪن ٿا. جڏهن ته هڪ CNN هڪ ٻئي جي ويجهو لفظن سان رابطا ٺاهڻ تي ڌيان ڏيندو، هڪ ٽرانسفارمر هڪ جملي ۾ هر هڪ لفظ جي وچ ۾ ڪنيڪشن ٺاهيندو.
خود ڌيان ڏيڻ وارو عمل انساني ٻولي کي سمجهڻ جو هڪ لازمي حصو آهي. زوم آئوٽ ڪندي ۽ اهو ڏسڻ سان ته سڄو جملو ڪيئن گڏ ٿئي ٿو، مشينن کي جملي جي ساخت کي وڌيڪ واضح سمجھي سگھي ٿي.
هڪ دفعو پهريون ٽرانسفارمر ماڊل جاري ڪيا ويا، محقق جلد ئي نئين فن تعمير کي استعمال ڪيو انٽرنيٽ تي مليل ٽيڪسٽ ڊيٽا جي ناقابل اعتماد مقدار جو فائدو وٺڻ لاء.
GPT-3 ۽ انٽرنيٽ
2020 ۾، OpenAI جي جي پي ٽي-3 ماڊل ڏيکاريو ته ڪيئن موثر ٽرانسفارمر ٿي سگهي ٿو. GPT-3 متن کي ٻاھر ڪڍڻ جي قابل ٿي سگھي ٿو جيڪو لڳ ڀڳ انسان کان الڳ ٿي سگھي ٿو. جنهن جو حصو GPT-3 ايترو طاقتور بڻيو جيڪو استعمال ٿيل ٽريننگ ڊيٽا جو مقدار هو. اڪثر ماڊل جي پري ٽريننگ ڊيٽا سيٽ هڪ ڊيٽا سيٽ مان ايندي آهي جنهن کي Common Crawl طور سڃاتو وڃي ٿو جيڪو 400 بلين ٽوڪن سان گڏ اچي ٿو.
جڏهن ته GPT-3 جي حقيقي انساني متن پيدا ڪرڻ جي صلاحيت پنهنجي پاڻ تي بنيادي هئي، محقق دريافت ڪيو ته ڪيئن ساڳيو ماڊل ٻين ڪمن کي حل ڪري سگهي ٿو.
مثال طور، ساڳيو GPT-3 ماڊل جيڪو توهان استعمال ڪري سگهو ٿا هڪ ٽوئيٽ ٺاهڻ لاءِ پڻ توهان جي مدد ڪري سگهي ٿو متن کي اختصار ڪرڻ، هڪ پيراگراف ٻيهر لکڻ، ۽ هڪ ڪهاڻي ختم ڪرڻ. ٻولي ماڊلز ايتري قدر طاقتور ٿي چڪا آهن ته اهي هاڻي بنيادي طور تي عام مقصد وارا اوزار آهن جيڪي ڪنهن به قسم جي حڪم جي پيروي ڪندا آهن.
GPT-3 جي عام-مقصد طبيعت اهڙين ايپليڪيشنن جي اجازت ڏني آهي GitHub Copilot، جيڪو پروگرامرز کي سادو انگريزيءَ مان ڪم ڪندڙ ڪوڊ ٺاهڻ جي اجازت ڏئي ٿو.
ڊفيوشن ماڊل: ٽيڪسٽ کان تصويرن تائين
ٽرانسفارمرز ۽ اين ايل پي سان ڪيل پيش رفت ٻين شعبن ۾ پيدا ٿيندڙ AI لاءِ به راهه هموار ڪئي آهي.
ڪمپيوٽر جي وژن جي دائري ۾، اسان اڳ ۾ ئي ڍڪي ڇڏيو آهي ته ڪيئن گهڻي سکيا مشينن کي تصويرن کي سمجهڻ جي اجازت ڏني. تنهن هوندي، اسان کي اڃا تائين AI لاء هڪ طريقو ڳولڻ جي ضرورت آهي ته انهن کي صرف انهن کي درجه بندي ڪرڻ بجاء تصويرون پيدا ڪرڻ لاء.
DALL-E 2، Stable Diffusion، ۽ Midjourney وانگر پيدا ٿيندڙ تصويري ماڊل مشهور ٿي چڪا آهن ڇاڪاڻ ته اهي ڪيئن متن جي ان پٽ کي تصويرن ۾ تبديل ڪرڻ جي قابل آهن.
اهي تصويري ماڊل ٻن اهم پهلوئن تي ڀاڙين ٿا: هڪ ماڊل جيڪو سمجھي ٿو تصويرن ۽ متن جي وچ ۾ تعلق ۽ هڪ ماڊل جيڪو اصل ۾ هڪ اعليٰ تعريف واري تصوير ٺاهي سگھي ٿو جيڪا ان پٽ سان ملي ٿي.
OpenAI جي ڪلپ (Contrastive Language-Image Pre-training) هڪ اوپن سورس ماڊل آهي جنهن جو مقصد پهرين پهلو کي حل ڪرڻ آهي. هڪ تصوير ڏني وئي، CLIP ماڊل اڳڪٿي ڪري سگهي ٿو سڀ کان وڌيڪ لاڳاپيل متن جي وضاحت انهي خاص تصوير لاءِ.
CLIP ماڊل ڪم ڪري ٿو سکو ته ڪيئن اھم تصويري خصوصيتن کي ڪڍيو وڃي ۽ تصوير جي آسان نمائندگي ڪيئن ٺاھيو وڃي.
جڏهن صارفين DALL-E 2 کي هڪ نمونو ٽيڪسٽ ان پٽ مهيا ڪن ٿا، ان پٽ کي CLIP ماڊل استعمال ڪندي "تصوير ايمبيڊنگ" ۾ تبديل ڪيو ويندو آهي. ھاڻي ھاڻي مقصد آھي ھڪڙي تصوير ٺاھڻ جو رستو ڳولڻ جيڪو ٺاھيل تصويري ايمبيڊنگ سان ملي.
جديد generative تصوير AIs استعمال ڪيو a diffusion ماڊل اصل ۾ هڪ تصوير ٺاهڻ جي ڪم کي منهن ڏيڻ لاء. ڊفيوشن ماڊل نيورل نيٽ ورڪن تي ڀاڙين ٿا جيڪي اڳ ۾ تربيت يافته هئا ته ڪيئن تصويرن مان شامل ٿيل شور کي هٽائڻ لاءِ.
ٽريننگ جي هن عمل دوران، نيورل نيٽ ورڪ آخرڪار سکي سگهي ٿو ته هڪ بي ترتيب شور واري تصوير مان هڪ اعلي ريزوليوشن تصوير ڪيئن ٺاهي. جيئن ته اسان وٽ اڳ ۾ ئي CLIP پاران مهيا ڪيل متن ۽ تصويرن جي ميپنگ آهي، اسان ڪري سگهون ٿا هڪ diffusion ماڊل تربيت CLIP تصوير ايمبيڊنگس تي ڪنهن به تصوير کي ٺاهڻ لاءِ هڪ عمل ٺاهڻ لاءِ.
جنريٽو AI انقلاب: اڳتي ڇا ٿو اچي؟
اسان هاڻي هڪ نقطي تي آهيون جتي پيدا ٿيندڙ AI ۾ ڪاميابيون هر ٻن ڏينهن ۾ ٿي رهيون آهن. AI استعمال ڪندي ميڊيا جي مختلف قسمن کي پيدا ڪرڻ آسان ۽ آسان ٿيڻ سان، ڇا اسان کي پريشان ٿيڻ گهرجي ته اهو اسان جي سماج کي ڪيئن متاثر ڪري سگهي ٿو؟
جڏهن ته مشينن کي تبديل ڪرڻ جي پريشاني هميشه ٻاڦ انجڻ جي ايجاد کان وٺي گفتگو ۾ رهي آهي، اهو لڳي ٿو ته هن ڀيري ڪجهه مختلف آهي.
جنريٽو AI هڪ گهڻ مقصدي اوزار بڻجي رهيو آهي جيڪو شايد صنعتن کي ٽوڙي سگهي ٿو جيڪي AI جي قبضي کان محفوظ سمجهيا ويندا هئا.
ڇا اسان کي پروگرامرز جي ضرورت پوندي جيڪڏهن AI ڪجھ بنيادي هدايتن مان بي عيب ڪوڊ لکڻ شروع ڪري سگھن ٿا؟ ڇا ماڻهو تخليقڪار کي ڀرتي ڪندا جيڪڏهن اهي صرف هڪ پيداواري ماڊل استعمال ڪري سگھن ٿا پيداوار پيدا ڪرڻ لاءِ جيڪي اهي سستا چاهيندا آهن؟
پيدا ٿيندڙ AI انقلاب جي مستقبل جي اڳڪٿي ڪرڻ مشڪل آهي. پر ھاڻي جڏھن مجسمي وارو پنڊورا باڪس کوليو ويو آھي، مون کي اميد آھي ته ٽيڪنالاجي وڌيڪ دلچسپ جدت جي اجازت ڏيندو جيڪي دنيا تي مثبت اثر ڇڏي سگھن ٿيون.
جواب ڇڏي وڃو