کی میز کے مندرجات[چھپائیں][دکھائیں]
ہم ممکنہ طور پر ایک نئے تخلیقی AI انقلاب کے آغاز پر ہیں۔
تخلیقی مصنوعی ذہانت سے مراد الگورتھم اور ماڈلز ہیں جو مواد بنانے کی صلاحیت رکھتے ہیں۔ ایسے ماڈلز کے آؤٹ پٹ میں ٹیکسٹ، آڈیو اور تصاویر شامل ہوتی ہیں جنہیں اکثر حقیقی انسانی آؤٹ پٹ کے طور پر غلط سمجھا جا سکتا ہے۔
درخواستیں جیسے چیٹ جی پی ٹی نے دکھایا ہے کہ تخلیقی AI محض نیاپن نہیں ہے۔ AI اب تفصیلی ہدایات پر عمل کرنے کے قابل ہے اور ایسا لگتا ہے کہ دنیا کیسے کام کرتی ہے اس کی گہری سمجھ رکھتی ہے۔
لیکن ہم اس مقام تک کیسے پہنچے؟ اس گائیڈ میں، ہم AI تحقیق میں کچھ اہم پیش رفتوں سے گزریں گے جنہوں نے اس نئے اور دلچسپ تخلیقی AI انقلاب کی راہ ہموار کی ہے۔
نیورل نیٹ ورکس کا عروج
آپ جدید AI کی اصلیت کا سراغ لگا سکتے ہیں۔ گہری سیکھنے اور عصبی نیٹ ورک 2012.
اس سال میں، ٹورنٹو یونیورسٹی سے الیکس کریزیسکی اور ان کی ٹیم ایک انتہائی درست الگورتھم حاصل کرنے میں کامیاب ہوئی جو اشیاء کی درجہ بندی کر سکتی ہے۔
۔ جدید ترین نیورل نیٹ ورکجو کہ اب AlexNet کے نام سے جانا جاتا ہے، امیج نیٹ بصری ڈیٹا بیس میں موجود اشیاء کی درجہ بندی کرنے کے قابل تھا جس میں رنر اپ سے بہت کم خرابی کی شرح تھی۔
نیند نیٹ ورک الگورتھم ہیں جو کچھ تربیتی ڈیٹا کی بنیاد پر کسی خاص رویے کو سیکھنے کے لیے ریاضیاتی افعال کے نیٹ ورک کا استعمال کرتے ہیں۔ مثال کے طور پر، آپ کینسر جیسی بیماری کی تشخیص کے لیے ماڈل کو تربیت دینے کے لیے نیورل نیٹ ورک کا طبی ڈیٹا فیڈ کر سکتے ہیں۔
امید یہ ہے کہ نیورل نیٹ ورک آہستہ آہستہ ڈیٹا میں پیٹرن تلاش کرتا ہے اور جب نیا ڈیٹا دیا جاتا ہے تو زیادہ درست ہوجاتا ہے۔
AlexNet a کی ایک پیش رفت ایپلی کیشن تھی۔ مجاز اعصابی نیٹ ورک یا CNNs۔ "Convolutional" کلیدی لفظ سے مراد ارتعاشی تہوں کا اضافہ ہے جو کہ ایک دوسرے کے قریب ہونے والے ڈیٹا پر زیادہ زور دیتا ہے۔
اگرچہ CNNs پہلے سے ہی 1980 کی دہائی میں ایک آئیڈیا تھا، لیکن انہوں نے 2010 کی دہائی کے اوائل میں ہی مقبولیت حاصل کرنا شروع کی جب جدید ترین GPU ٹیکنالوجی نے ٹیکنالوجی کو نئی بلندیوں تک پہنچا دیا۔
کے میدان میں CNNs کی کامیابی کمپیوٹر وژن اعصابی نیٹ ورکس کی تحقیق میں زیادہ دلچسپی کا باعث بنی۔
گوگل اور فیس بک جیسے ٹیک جنات نے عوام کے لیے اپنا اپنا AI فریم ورک جاری کرنے کا فیصلہ کیا۔ اعلی سطحی APIs جیسے کیراس گہرے نیورل نیٹ ورکس کے ساتھ تجربہ کرنے کے لیے صارفین کو ایک صارف دوست انٹرفیس دیا۔
CNNs تصویر کی شناخت اور ویڈیو تجزیہ میں بہت اچھے تھے لیکن جب زبان پر مبنی مسائل کو حل کرنے کی بات آتی ہے تو انہیں پریشانی کا سامنا کرنا پڑتا ہے۔ قدرتی زبان کی پروسیسنگ میں یہ حد موجود ہوسکتی ہے کیونکہ تصاویر اور متن دراصل بنیادی طور پر مختلف مسائل ہیں۔
مثال کے طور پر، اگر آپ کے پاس کوئی ایسا ماڈل ہے جو درجہ بندی کرتا ہے کہ آیا تصویر میں ٹریفک لائٹ ہے، تو زیر بحث ٹریفک لائٹ تصویر میں کہیں بھی ظاہر ہو سکتی ہے۔ تاہم، اس قسم کی نرمی زبان میں اچھی طرح سے کام نہیں کرتی ہے۔ "Bob ate fish" اور "Fish ate Bob" کے جملے ایک جیسے الفاظ استعمال کرنے کے باوجود بالکل مختلف معنی رکھتے ہیں۔
یہ واضح ہو گیا تھا کہ محققین کو انسانی زبان سے متعلق مسائل کو حل کرنے کے لیے ایک نیا طریقہ تلاش کرنے کی ضرورت ہے۔
ٹرانسفارمر سب کچھ بدل دیتے ہیں۔
2017 میں، ایک ریسرچ پیپر "توجہ صرف آپ کی ضرورت ہے" کے عنوان سے ایک نئی قسم کا نیٹ ورک تجویز کیا گیا: ٹرانسفارمر۔
جب کہ CNNs تصویر کے چھوٹے حصوں کو بار بار فلٹر کرکے کام کرتے ہیں، ٹرانسفارمرز ڈیٹا میں موجود ہر عنصر کو ہر دوسرے عنصر سے جوڑتے ہیں۔ محققین اس عمل کو "خود توجہ" کہتے ہیں۔
جملوں کو پارس کرنے کی کوشش کرتے وقت، CNNs اور ٹرانسفارمرز بہت مختلف طریقے سے کام کرتے ہیں۔ جب کہ ایک CNN ایک دوسرے کے قریب الفاظ کے ساتھ کنکشن بنانے پر توجہ مرکوز کرے گا، ایک ٹرانسفارمر ایک جملے میں ہر ایک لفظ کے درمیان روابط پیدا کرے گا۔
خود توجہ کا عمل انسانی زبان کو سمجھنے کا ایک لازمی حصہ ہے۔ زوم آؤٹ کرکے اور یہ دیکھ کر کہ پورا جملہ کس طرح ایک ساتھ فٹ بیٹھتا ہے، مشینیں جملے کی ساخت کی واضح سمجھ حاصل کرسکتی ہیں۔
ایک بار جب ٹرانسفارمر کے پہلے ماڈلز جاری کیے گئے، محققین نے جلد ہی نئے فن تعمیر کا استعمال کیا تاکہ انٹرنیٹ پر پائے جانے والے ٹیکسٹ ڈیٹا کی ناقابل یقین مقدار سے فائدہ اٹھایا جا سکے۔
GPT-3 اور انٹرنیٹ
2020 میں، OpenAI کی GPT-3 ماڈل نے دکھایا کہ ٹرانسفارمر کتنے موثر ہو سکتے ہیں۔ GPT-3 ایسے متن کو آؤٹ پٹ کرنے کے قابل تھا جو انسان سے تقریباً الگ نہیں ہوتا۔ جس چیز نے GPT-3 کو اتنا طاقتور بنایا اس کا ایک حصہ تربیتی ڈیٹا کی مقدار تھی۔ ماڈل کا زیادہ تر پری ٹریننگ ڈیٹا سیٹ ایک ڈیٹا سیٹ سے آتا ہے جسے کامن کرول کہا جاتا ہے جو 400 بلین سے زیادہ ٹوکنز کے ساتھ آتا ہے۔
جب کہ GPT-3 کی حقیقت پسندانہ انسانی متن پیدا کرنے کی صلاحیت اپنے طور پر اہم تھی، محققین نے دریافت کیا کہ ایک ہی ماڈل دوسرے کاموں کو کیسے حل کر سکتا ہے۔
مثال کے طور پر، وہی GPT-3 ماڈل جسے آپ ٹویٹ بنانے کے لیے استعمال کر سکتے ہیں، آپ کو متن کا خلاصہ کرنے، پیراگراف کو دوبارہ لکھنے، اور کہانی ختم کرنے میں بھی مدد مل سکتی ہے۔ زبان کے ماڈلز اتنے طاقتور ہو گئے ہیں کہ اب وہ بنیادی طور پر عام مقصد کے اوزار ہیں جو کسی بھی قسم کی کمانڈ کی پیروی کرتے ہیں۔
GPT-3 کی عمومی نوعیت کی نوعیت نے ایسی درخواستوں کی اجازت دی ہے۔ GitHub Copilot، جو پروگرامرز کو سادہ انگریزی سے ورکنگ کوڈ بنانے کی اجازت دیتا ہے۔
ڈفیوژن ماڈلز: ٹیکسٹ سے امیجز تک
ٹرانسفارمرز اور NLP کے ساتھ ہونے والی پیش رفت نے دیگر شعبوں میں بھی تخلیقی AI کی راہ ہموار کی ہے۔
کمپیوٹر ویژن کے دائرے میں، ہم پہلے ہی اس بات کا احاطہ کر چکے ہیں کہ کس طرح گہری سیکھنے نے مشینوں کو تصاویر کو سمجھنے کی اجازت دی۔ تاہم، ہمیں اب بھی AI کے لیے تصاویر بنانے کا راستہ تلاش کرنے کی ضرورت تھی بجائے اس کے کہ ان کی درجہ بندی کی جائے۔
تخلیقی تصویری ماڈل جیسے DALL-E 2، Stable Diffusion، اور Midjourney اس وجہ سے مقبول ہو گئے ہیں کہ وہ کس طرح ٹیکسٹ ان پٹ کو تصاویر میں تبدیل کرنے کے قابل ہیں۔
یہ تصویری ماڈل دو اہم پہلوؤں پر انحصار کرتے ہیں: ایک ماڈل جو تصاویر اور متن کے درمیان تعلق کو سمجھتا ہے اور ایک ایسا ماڈل جو درحقیقت ایک ہائی ڈیفینیشن امیج بنا سکتا ہے جو ان پٹ سے میل کھاتا ہے۔
اوپن اے آئی کلپ (متضاد زبان – امیج پری ٹریننگ) ایک اوپن سورس ماڈل ہے جس کا مقصد پہلے پہلو کو حل کرنا ہے۔ ایک تصویر کو دیکھتے ہوئے، CLIP ماڈل اس مخصوص تصویر کے لیے سب سے زیادہ متعلقہ متن کی وضاحت کی پیش گوئی کر سکتا ہے۔
CLIP ماڈل یہ سیکھ کر کام کرتا ہے کہ تصویر کی اہم خصوصیات کو کیسے نکالا جائے اور تصویر کی آسان نمائندگی کیسے کی جائے۔
جب صارفین DALL-E 2 کو نمونہ ٹیکسٹ ان پٹ فراہم کرتے ہیں، تو ان پٹ کو CLIP ماڈل کا استعمال کرتے ہوئے "امیج ایمبیڈنگ" میں تبدیل کر دیا جاتا ہے۔ اب مقصد یہ ہے کہ ایک ایسی تصویر تیار کرنے کا طریقہ تلاش کیا جائے جو تیار کردہ امیج ایمبیڈنگ سے مماثل ہو۔
تازہ ترین تخلیقی تصویر AIs استعمال کرتی ہے a بازی کا ماڈل اصل میں ایک تصویر بنانے کے کام سے نمٹنے کے لئے. ڈفیوژن ماڈل عصبی نیٹ ورکس پر انحصار کرتے ہیں جنہیں یہ جاننے کے لیے پہلے سے تربیت دی گئی تھی کہ تصاویر سے اضافی شور کو کیسے ہٹایا جائے۔
تربیت کے اس عمل کے دوران، نیورل نیٹ ورک بالآخر یہ سیکھ سکتا ہے کہ بے ترتیب شور والی تصویر سے ہائی ریزولوشن تصویر کیسے بنائی جاتی ہے۔ چونکہ ہمارے پاس پہلے سے ہی CLIP کے ذریعہ فراہم کردہ متن اور تصاویر کی میپنگ موجود ہے، ہم کر سکتے ہیں۔ ایک بازی ماڈل کو تربیت دیں CLIP امیج ایمبیڈنگز پر کسی بھی تصویر کو بنانے کے لیے ایک پروسیس بنانے کے لیے۔
تخلیقی AI انقلاب: آگے کیا ہوتا ہے؟
اب ہم ایک ایسے موڑ پر ہیں جہاں ہر دو دنوں میں جنریٹیو AI میں پیش رفت ہو رہی ہے۔ AI کا استعمال کرتے ہوئے مختلف قسم کے میڈیا کو تیار کرنا آسان اور آسان ہوتا جا رہا ہے، کیا ہمیں اس بات کی فکر ہونی چاہیے کہ یہ ہمارے معاشرے پر کیا اثر ڈال سکتا ہے؟
اگرچہ بھاپ کے انجن کی ایجاد کے بعد سے مزدوروں کی جگہ لینے والی مشینوں کی پریشانی ہمیشہ سے ہی بات چیت میں رہی ہے، ایسا لگتا ہے کہ اس بار کچھ مختلف ہے۔
جنریٹو اے آئی ایک کثیر مقصدی ٹول بنتا جا رہا ہے جو ان صنعتوں میں خلل ڈال سکتا ہے جنہیں AI ٹیک اوور سے محفوظ سمجھا جاتا تھا۔
کیا ہمیں پروگرامرز کی ضرورت ہوگی اگر AI چند بنیادی ہدایات سے بے عیب کوڈ لکھنا شروع کر سکے؟ کیا لوگ تخلیق کاروں کی خدمات حاصل کریں گے اگر وہ صرف ایک جنریٹیو ماڈل استعمال کر کے اپنی مطلوبہ پیداوار کو سستا کر سکیں؟
تخلیقی AI انقلاب کے مستقبل کی پیشین گوئی کرنا مشکل ہے۔ لیکن اب جب کہ علامتی پنڈورا باکس کھول دیا گیا ہے، مجھے امید ہے کہ ٹیکنالوجی مزید دلچسپ اختراعات کی اجازت دے گی جو دنیا پر مثبت اثرات چھوڑ سکتی ہیں۔
جواب دیجئے