ما احتمالاً در آغاز یک انقلاب مولد هوش مصنوعی جدید هستیم.
هوش مصنوعی مولد به الگوریتمها و مدلهایی گفته میشود که قادر به تولید محتوا هستند. خروجی چنین مدل هایی شامل متن، صدا و تصاویر است که اغلب به عنوان خروجی واقعی انسان اشتباه گرفته می شود.
برنامه هایی مانند GPT چت نشان داده اند که هوش مصنوعی مولد تازگی صرف نیست. هوش مصنوعی اکنون می تواند دستورالعمل های دقیق را دنبال کند و به نظر می رسد درک عمیقی از نحوه کار جهان دارد.
اما چگونه به این نقطه رسیدیم؟ در این راهنما، برخی از پیشرفتهای کلیدی در تحقیقات هوش مصنوعی را مرور خواهیم کرد که راه را برای این انقلاب جدید و هیجانانگیز هوش مصنوعی هموار کرده است.
ظهور شبکه های عصبی
شما می توانید ریشه های هوش مصنوعی مدرن را در تحقیقات انجام شده دنبال کنید یادگیری عمیق و شبکه های عصبی در 2012.
در آن سال، الکس کریژفسکی و تیمش از دانشگاه تورنتو توانستند به الگوریتم بسیار دقیقی دست پیدا کنند که می تواند اشیاء را طبقه بندی کند.
La شبکه عصبی پیشرفتهکه اکنون با نام AlexNet شناخته می شود، توانست اشیاء را در پایگاه داده تصویری ImageNet با نرخ خطای بسیار کمتری نسبت به رتبه دوم طبقه بندی کند.
شبکه های عصبی الگوریتم هایی هستند که از شبکه ای از توابع ریاضی برای یادگیری یک رفتار خاص بر اساس برخی داده های آموزشی استفاده می کنند. به عنوان مثال، می توانید داده های پزشکی شبکه عصبی را به منظور آموزش مدل برای تشخیص بیماری مانند سرطان تغذیه کنید.
امید این است که شبکه عصبی به آرامی الگوهایی را در داده ها پیدا کند و با داده های جدید دقیق تر شود.
AlexNet یک برنامه پیشرفتکننده از a شبکه عصبی حلقوی یا CNN ها کلمه کلیدی "convolutional" به افزودن لایه های کانولوشنی اشاره دارد که تاکید بیشتری بر داده هایی دارد که به هم نزدیکتر هستند.
در حالی که CNN ها در دهه 1980 یک ایده بودند، اما در اوایل دهه 2010 زمانی که آخرین فناوری GPU این فناوری را به ارتفاعات جدیدی رساند، محبوبیت خود را شروع کردند.
موفقیت CNN ها در زمینه بینایی کامپیوتر منجر به علاقه بیشتر به تحقیق در مورد شبکه های عصبی شد.
غول های فناوری مانند گوگل و فیس بوک تصمیم گرفتند چارچوب های هوش مصنوعی خود را برای عموم منتشر کنند. API های سطح بالا مانند کراس به کاربران یک رابط کاربر پسند برای آزمایش شبکه های عصبی عمیق داد.
CNN ها در تشخیص تصویر و تجزیه و تحلیل ویدیو عالی بودند، اما در حل مشکلات مبتنی بر زبان با مشکل مواجه بودند. این محدودیت در پردازش زبان طبیعی ممکن است وجود داشته باشد زیرا چگونگی تصاویر و متن در واقع مشکلات اساسی متفاوتی دارند.
به عنوان مثال، اگر مدلی دارید که طبقه بندی می کند که آیا یک تصویر دارای چراغ راهنمایی است یا خیر، چراغ راهنمایی مورد نظر می تواند در هر نقطه از تصویر ظاهر شود. با این حال، این نوع ملایمت در زبان به خوبی کار نمی کند. جمله «باب ماهی خورد» و «ماهی باب را خورد» با وجود استفاده از کلمات مشابه، معانی بسیار متفاوتی دارند.
مشخص شده بود که محققان نیاز به یافتن رویکرد جدیدی برای حل مشکلات مربوط به زبان انسان دارند.
ترانسفورماتورها همه چیز را تغییر می دهند
در 2017، یک مقاله تحقیقاتی با عنوان "توجه تنها چیزی است که شما نیاز دارید" نوع جدیدی از شبکه را پیشنهاد کرد: Transformer.
در حالی که CNN ها با فیلتر کردن مکرر بخش های کوچک یک تصویر کار می کنند، ترانسفورماتورها هر عنصر در داده را با هر عنصر دیگر متصل می کنند. محققان این فرآیند را "توجه به خود" می نامند.
هنگام تلاش برای تجزیه جملات، CNN ها و ترانسفورماتورها بسیار متفاوت عمل می کنند. در حالی که یک CNN بر ایجاد ارتباط با کلمات نزدیک به یکدیگر تمرکز می کند، یک ترانسفورماتور بین هر کلمه در یک جمله ارتباط ایجاد می کند.
فرآیند توجه به خود بخشی جدایی ناپذیر از درک زبان انسان است. با بزرگنمایی و مشاهده چگونگی تناسب کل جمله با هم، ماشین ها می توانند درک واضح تری از ساختار جمله داشته باشند.
هنگامی که اولین مدل های ترانسفورماتور منتشر شد، محققان به زودی از معماری جدید برای استفاده از حجم باورنکردنی داده های متنی موجود در اینترنت استفاده کردند.
GPT-3 و اینترنت
در سال 2020، OpenAI GPT-3 مدل نشان داد که ترانسفورماتورها چقدر می توانند موثر باشند. GPT-3 قادر به خروجی متنی بود که تقریباً از یک انسان قابل تشخیص نیست. بخشی از چیزی که GPT-3 را بسیار قدرتمند کرد، میزان داده های آموزشی استفاده شده بود. بیشتر مجموعه داده های قبل از آموزش مدل از مجموعه داده ای به نام Common Crawl می آید که با بیش از 400 میلیارد توکن همراه است.
در حالی که توانایی GPT-3 برای تولید متن واقعی انسانی به خودی خود پیشگامانه بود، محققان کشف کردند که چگونه همان مدل می تواند وظایف دیگر را حل کند.
به عنوان مثال، همان مدل GPT-3 که میتوانید برای ایجاد یک توییت استفاده کنید، میتواند به شما در خلاصهسازی متن، بازنویسی یک پاراگراف و پایان داستان کمک کند. مدل های زبان آنقدر قدرتمند شده اند که در حال حاضر اساساً ابزارهای همه منظوره ای هستند که از هر نوع دستوری پیروی می کنند.
ماهیت همه منظوره GPT-3 امکان استفاده از چنین برنامه هایی را فراهم کرده است GitHub Copilot، که به برنامه نویسان اجازه می دهد تا کدهای کاری را از زبان انگلیسی ساده تولید کنند.
مدل های انتشار: از متن تا تصویر
پیشرفتهای حاصل از ترانسفورماتورها و NLP راه را برای هوش مصنوعی مولد در زمینههای دیگر هموار کرده است.
در حوزه بینایی کامپیوتر، قبلاً توضیح دادهایم که چگونه یادگیری عمیق به ماشینها اجازه میدهد تصاویر را درک کنند. با این حال، ما هنوز نیاز داشتیم راهی پیدا کنیم که هوش مصنوعی بتواند تصاویر را خودش تولید کند و نه صرفاً آنها را طبقه بندی کند.
مدلهای تصویر تولیدی مانند DALL-E 2، Stable Diffusion و Midjourney به دلیل اینکه چگونه میتوانند ورودی متن را به تصویر تبدیل کنند، محبوب شدهاند.
این مدلهای تصویر بر دو جنبه کلیدی متکی هستند: مدلی که رابطه بین تصاویر و متن را درک میکند و مدلی که در واقع میتواند تصویری با وضوح بالا ایجاد کند که با ورودی مطابقت داشته باشد.
OpenAI کلیپ (Contrastive Language–Image Pre-training) یک مدل منبع باز است که هدف آن حل اولین جنبه است. با توجه به یک تصویر، مدل CLIP می تواند مرتبط ترین توضیحات متنی را برای آن تصویر خاص پیش بینی کند.
مدل CLIP با یادگیری نحوه استخراج ویژگی های مهم تصویر و ایجاد یک نمایش ساده تر از یک تصویر کار می کند.
هنگامی که کاربران یک ورودی متنی نمونه را برای DALL-E 2 ارائه می کنند، ورودی با استفاده از مدل CLIP به "جاسازی تصویر" تبدیل می شود. اکنون هدف یافتن راهی برای تولید تصویری است که با جاسازی تصویر تولید شده مطابقت داشته باشد.
آخرین تصویر تولیدی هوش مصنوعی از a مدل انتشار برای مقابله با وظیفه ایجاد در واقع یک تصویر. مدلهای انتشار متکی به شبکههای عصبی هستند که از قبل آموزش داده شدهاند تا بدانند چگونه نویز اضافه شده را از تصاویر حذف کنند.
در طول این فرآیند آموزش، شبکه عصبی در نهایت میتواند یاد بگیرد که چگونه از یک تصویر نویز تصادفی، یک تصویر با وضوح بالا ایجاد کند. از آنجایی که ما قبلاً نقشه ای از متن و تصاویر ارائه شده توسط CLIP داریم، می توانیم آموزش یک مدل انتشار در تعبیههای تصویر CLIP برای ایجاد فرآیندی برای تولید هر تصویر.
انقلاب هوش مصنوعی مولد: بعد چه می شود؟
ما اکنون در نقطه ای هستیم که هر چند روز یکبار پیشرفت هایی در هوش مصنوعی مولد اتفاق می افتد. با آسانتر و آسانتر شدن تولید انواع مختلف رسانهها با استفاده از هوش مصنوعی، آیا باید نگران این باشیم که چگونه این امر میتواند بر جامعه ما تأثیر بگذارد؟
در حالی که نگرانی ماشینهای جایگزین کارگران از زمان اختراع موتور بخار همیشه مطرح بوده است، به نظر میرسد این بار کمی متفاوت است.
هوش مصنوعی مولد در حال تبدیل شدن به یک ابزار چندمنظوره است که ممکن است صنایعی را که در مقابل تصاحب هوش مصنوعی ایمن تلقی میشوند، مختل کند.
اگر هوش مصنوعی بتواند از چند دستورالعمل اولیه شروع به نوشتن کد بی عیب و نقص کند، آیا به برنامه نویس نیاز خواهیم داشت؟ آیا اگر مردم بتوانند از یک مدل مولد برای تولید بازدهی ارزانتر استفاده کنند، آیا افراد خلاق را استخدام خواهند کرد؟
پیش بینی آینده انقلاب مولد هوش مصنوعی دشوار است. اما اکنون که جعبه پاندورا باز شده است، امیدوارم که این فناوری به نوآوریهای هیجانانگیزتری اجازه دهد که تأثیر مثبتی بر جهان بگذارد.
پاسخ دهید