موږ احتمالا د نوي تولیدي AI انقلاب په پیل کې یو.
تولیدي مصنوعي استخبارات د الګوریتمونو او ماډلونو ته اشاره کوي چې د مینځپانګې رامینځته کولو وړ دي. د داسې ماډلونو محصول کې متن، آډیو او عکسونه شامل دي چې ډیری وختونه د ریښتینې انساني محصول په توګه غلط کیدی شي.
غوښتنلیکونه لکه د GPT چیٹ ښودلې چې تولیدي AI یوازې نوښت نه دی. AI اوس د تفصيلي لارښوونو تعقیب کولو توان لري او داسې بریښي چې نړۍ څنګه کار کوي ژوره پوهه لري.
مګر موږ څنګه دې ټکي ته ورسیدو؟ پدې لارښود کې ، موږ به د AI څیړنې کې ځینې کلیدي بریاوو ته لاړ شو چې د دې نوي او په زړه پوري تولیدي AI انقلاب لپاره یې لاره هواره کړې.
د عصبي شبکو وده
تاسو کولی شئ د عصري AI اصلیت په تحقیق کې ومومئ ژورې زده کړې او عصبي شبکې په 2012.
په هغه کال کې، الیکس کرزیفسکي او د هغه ټیم د ټورنټو پوهنتون څخه وتوانید چې خورا دقیق الګوریتم ترلاسه کړي چې کولی شي شیان طبقه بندي کړي.
د عصري عصبي شبکه، چې اوس د الیکس نیټ په نوم پیژندل کیږي ، د دې وړتیا درلوده چې د امیج نیټ بصري ډیټابیس کې توکي د رنر اپ په پرتله خورا ټیټې غلطۍ سره طبقه بندي کړي.
نوریال شبکې الګوریتمونه دي چې د ځینې روزنیزو معلوماتو پراساس د ځانګړي چلند زده کولو لپاره د ریاضياتي فعالیتونو شبکه کاروي. د مثال په توګه، تاسو کولی شئ د عصبي شبکې طبي ډاټا تغذیه کړئ ترڅو موډل ته روزنه ورکړئ ترڅو د سرطان په څیر ناروغۍ تشخیص کړي.
هیله دا ده چې عصبي شبکه ورو ورو په ډیټا کې نمونې ومومي او کله چې نوي ډیټا ورکړل شي ډیر دقیق کیږي.
AlexNet د یو بریالیتوب غوښتنلیک و مجاز عصبي شبکه یا CNNs. د "اختلاف" کلیمه د قانع کونکي پرتونو اضافه کولو ته اشاره کوي کوم چې په ډیټا باندې ډیر ټینګار کوي چې سره نږدې وي.
پداسې حال کې چې CNNs دمخه په 1980s کې یوه مفکوره وه ، دوی یوازې د 2010s په لومړیو کې د شهرت ترلاسه کولو پیل وکړ کله چې وروستي GPU ټیکنالوژي ټیکنالوژي نوي لوړوالی ته واړوله.
په ساحه کې د CNNs بریالیتوب کمپیوټر لید د عصبي شبکو په څیړنه کې د لا ډیرې علاقې لامل شوی.
د ټیکنالوژۍ لوی شرکتونه لکه ګوګل او فیسبوک پریکړه کړې چې خپل AI چوکاټونه خلکو ته خپاره کړي. د لوړې کچې APIs لکه کیراس کاروونکو ته د ژور عصبي شبکو تجربه کولو لپاره د کاروونکي دوستانه انٹرفیس ورکړ.
CNNs د عکس پیژندنې او ویډیو تحلیل کې عالي وو مګر کله چې د ژبې پراساس ستونزو حل کولو خبره راځي ستونزه درلوده. د طبیعي ژبې پروسس کې دا محدودیت ممکن شتون ولري ځکه چې څنګه انځورونه او متن په حقیقت کې بنسټیز ډول ډول ستونزې دي.
د مثال په توګه، که تاسو یو ماډل لرئ چې دا طبقه بندي کوي چې آیا یو انځور د ټرافيکي رڼا لري، د پوښتنې په توګه د ټرافیک رڼا په عکس کې هرچیرې لیدل کیدی شي. په هرصورت، دا ډول نرمښت په ژبه کې ښه کار نه کوي. د "باب مچھلی خوړل" او "ماهی خوړلی باب" جمله د ورته کلمو کارولو سره سره خورا مختلف معنی لري.
دا څرګنده شوه چې څیړونکي اړتیا لري چې د انساني ژبې د ستونزو د حل لپاره یوه نوې طریقه ومومي.
ټرانسفارمر هر څه بدلوي
په 2017 کې، a څېړنې کاغذ د "توجه ټول هغه څه دي چې تاسو ورته اړتیا لرئ" سرلیک د نوي ډول شبکې وړاندیز وکړ: ټرانسفارمر.
پداسې حال کې چې CNNs په مکرر ډول د عکس کوچنۍ برخې فلټر کولو سره کار کوي ، ټرانسفارمرونه په ډیټا کې هر عنصر د هر بل عنصر سره وصل کوي. څیړونکي دې پروسې ته "ځان پاملرنه" بولي.
کله چې د جملو تجزیه کولو هڅه وکړئ، CNNs او ټرانسفارمرونه په مختلف ډول کار کوي. پداسې حال کې چې CNN به د هغه کلمو سره اړیکې رامینځته کولو باندې تمرکز وکړي چې یو بل ته نږدې وي ، یو ټرانسفارمر به په یوه جمله کې د هرې کلمې ترمینځ اړیکې رامینځته کړي.
د ځان پاملرنې پروسه د انساني ژبې د پوهیدو یوه لازمي برخه ده. د زوم کولو او دا لیدلو سره چې ټوله جمله څنګه سره یوځای کیږي، ماشینونه کولی شي د جملې جوړښت روښانه پوهه ولري.
یوځل چې د لومړي ټرانسفارمر ماډلونه خپاره شول ، څیړونکو ډیر ژر د نوي جوړښت څخه کار واخیست ترڅو په انټرنیټ کې موندل شوي متن ډیټا د نه منلو وړ مقدار څخه ګټه پورته کړي.
GPT-3 او انټرنیټ
په 2020 کې، OpenAI's GPT-3 ماډل ښودلی چې څومره اغیزمن ټرانسفارمر کیدی شي. GPT-3 د دې توان درلود چې متن تولید کړي چې تقریبا د انسان څخه توپیر نلري. د هغه څه یوه برخه چې GPT-3 یې خورا پیاوړی کړی د روزنې ډیټا کارول و. د ماډل ډیری د روزنې دمخه ډیټاسیټ د ډیټا سیټ څخه راځي چې د عام کرول په نوم پیژندل کیږي کوم چې د 400 ملیارد څخه ډیر ټوکن سره راځي.
پداسې حال کې چې د GPT-3 وړتیا د ریښتیني انساني متن رامینځته کولو وړتیا په خپله د پام وړ وه ، څیړونکو وموندله چې ورته ماډل څنګه کولی شي نورې دندې حل کړي.
د مثال په توګه، ورته GPT-3 ماډل چې تاسو یې د ټویټ رامینځته کولو لپاره کارولی شئ تاسو سره د متن لنډیز کولو ، د پراګراف بیا لیکلو ، او کیسه پای ته رسولو کې هم مرسته کولی شئ. د ژبې موډلونه دومره ځواکمن شوي دي چې دوی اوس د عمومي هدف وسیلې دي چې هر ډول قوماندې تعقیبوي.
د GPT-3 عمومي هدف طبیعت د داسې غوښتنلیکونو لپاره اجازه ورکړې GitHub Copilot کوم چې پروګرام کونکو ته اجازه ورکوي چې د ساده انګلیسي څخه کاري کوډ تولید کړي.
د خپریدو ماډلونه: له متن څخه عکسونو ته
د ټرانسفارمرونو او NLP سره شوي پرمختګ په نورو برخو کې د تولیدي AI لپاره هم لاره هواره کړې.
د کمپیوټر لید په ساحه کې، موږ دمخه پوښلي چې څنګه ژورې زده کړې ماشینونو ته اجازه ورکوي چې په انځورونو پوه شي. په هرصورت، موږ لاهم اړتیا لرو چې د AI لپاره یوه لاره ومومئ ترڅو یوازې د دوی طبقه بندي کولو پرځای عکسونه پخپله تولید کړي.
د تولیدي عکس ماډلونه لکه DALL-E 2، Stable Diffusion، او Midjourney د دې له امله مشهور شوي چې څنګه دوی کولی شي د متن ان پټ عکسونو ته واړوي.
د دې عکس ماډلونه په دوه کلیدي اړخونو تکیه کوي: یو ماډل چې د عکسونو او متن ترمینځ اړیکې پوهیږي او یو ماډل چې واقعیا کولی شي د لوړ تعریف عکس رامینځته کړي چې د ان پټ سره سمون لري.
OpenAI's کلیپ (متضاد ژبه – د انځور مخکې روزنه) د خلاصې سرچینې ماډل دی چې موخه یې د لومړي اړخ حل کول دي. یو عکس ته په پام سره، د CLIP ماډل کولی شي د دې ځانګړي عکس لپاره خورا اړوند متن توضیحات وړاندوینه کړي.
د CLIP ماډل د دې زده کولو له لارې کار کوي چې څنګه د عکس مهم ځانګړتیاوې راوباسئ او د عکس ساده نمایش رامینځته کړئ.
کله چې کاروونکي DALL-E 2 ته د نمونې متن ان پټ چمتو کوي، ان پټ د CLIP ماډل په کارولو سره په "انځور سرایت" کې بدلیږي. اوس هدف دا دی چې د داسې عکس رامینځته کولو لپاره لاره ومومئ چې د تولید شوي عکس امبیډینګ سره سمون ولري.
وروستي تولیدي عکس AIs کاروي a د خپریدو ماډل په حقیقت کې د انځور جوړولو دنده سره مخ کول. د ډیفیوژن ماډلونه په عصبي شبکو تکیه کوي چې دمخه روزل شوي ترڅو پوه شي چې څنګه له عکسونو څخه اضافه شور لرې کړي.
د روزنې د دې پروسې په جریان کې، عصبي شبکه په پای کې کولی شي زده کړي چې څنګه د تصادفي شور عکس څخه د لوړ ریزولوشن عکس رامینځته کړي. څرنګه چې موږ دمخه د CLIP لخوا چمتو شوي متن او عکسونو نقشه لرو، موږ کولی شو د خپریدو ماډل روزل د CLIP عکس ایمبیډینګونو کې د هر ډول عکس رامینځته کولو پروسې رامینځته کولو لپاره.
تولیدي AI انقلاب: وروسته څه راځي؟
موږ اوس په داسې یو ځای کې یو چې په تولیدي AI کې پرمختګونه په هرو څو ورځو کې پیښیږي. د AI په کارولو سره د مختلف ډولونو میډیا رامینځته کول اسانه او اسانه کیږي ، ایا موږ باید اندیښنه ولرو چې دا زموږ ټولنه څنګه اغیزه کولی شي؟
پداسې حال کې چې د کارګرانو ځای په ځای کولو ماشینونو اندیښنې تل د بھاپ انجن ایجاد راهیسې په خبرو کې وې ، داسې بریښي چې دا ځل شاوخوا یو څه توپیر لري.
تولیدي AI په څو اړخیزه وسیله بدلیږي چې ممکن هغه صنعتونه ګډوډ کړي چې د AI اخیستلو څخه خوندي ګڼل شوي.
ایا موږ پروګرام کونکو ته اړتیا لرو که چیرې AI کولی شي د یو څو لومړني لارښوونو څخه بې عیب کوډ لیکل پیل کړي؟ ایا خلک به تخلیق کاران استخدام کړي که دوی کولی شي یوازې تولیدي ماډل وکاروي ترڅو هغه محصول تولید کړي چې دوی یې ارزانه غواړي؟
د تولیدي AI انقلاب راتلونکي وړاندوینه کول ګران دي. مګر اوس چې د انځور پانډورا بکس پرانستل شوی، زه هیله لرم چې ټیکنالوژي به نور په زړه پورې نوښتونو ته اجازه ورکړي چې کولی شي په نړۍ کې مثبت اغیزه پریږدي.
یو ځواب ورکړئ ووځي