چه چیزی باعث انقلاب مولد هوش مصنوعی شد؟

فهرست مندرجات[پنهان شدن][نمایش]

ظهور شبکه های عصبی
ترانسفورماتورها همه چیز را تغییر می دهند
GPT-3 و اینترنت
مدل های انتشار: از متن تا تصویر
انقلاب هوش مصنوعی مولد: بعد چه می شود؟

ما احتمالاً در آغاز یک انقلاب مولد هوش مصنوعی جدید هستیم.

هوش مصنوعی مولد به الگوریتم‌ها و مدل‌هایی گفته می‌شود که قادر به تولید محتوا هستند. خروجی چنین مدل هایی شامل متن، صدا و تصاویر است که اغلب به عنوان خروجی واقعی انسان اشتباه گرفته می شود.

برنامه هایی مانند GPT چت نشان داده اند که هوش مصنوعی مولد تازگی صرف نیست. هوش مصنوعی اکنون می تواند دستورالعمل های دقیق را دنبال کند و به نظر می رسد درک عمیقی از نحوه کار جهان دارد.

اما چگونه به این نقطه رسیدیم؟ در این راهنما، برخی از پیشرفت‌های کلیدی در تحقیقات هوش مصنوعی را مرور خواهیم کرد که راه را برای این انقلاب جدید و هیجان‌انگیز هوش مصنوعی هموار کرده است.

ظهور شبکه های عصبی

شما می توانید ریشه های هوش مصنوعی مدرن را در تحقیقات انجام شده دنبال کنید یادگیری عمیق و شبکه های عصبی در 2012.

در آن سال، الکس کریژفسکی و تیمش از دانشگاه تورنتو توانستند به الگوریتم بسیار دقیقی دست پیدا کنند که می تواند اشیاء را طبقه بندی کند.

La شبکه عصبی پیشرفتهکه اکنون با نام AlexNet شناخته می شود، توانست اشیاء را در پایگاه داده تصویری ImageNet با نرخ خطای بسیار کمتری نسبت به رتبه دوم طبقه بندی کند.

نمودار الکس نت

شبکه های عصبی الگوریتم هایی هستند که از شبکه ای از توابع ریاضی برای یادگیری یک رفتار خاص بر اساس برخی داده های آموزشی استفاده می کنند. به عنوان مثال، می توانید داده های پزشکی شبکه عصبی را به منظور آموزش مدل برای تشخیص بیماری مانند سرطان تغذیه کنید.

امید این است که شبکه عصبی به آرامی الگوهایی را در داده ها پیدا کند و با داده های جدید دقیق تر شود.

AlexNet یک برنامه پیشرفت‌کننده از a شبکه عصبی حلقوی یا CNN ها کلمه کلیدی "convolutional" به افزودن لایه های کانولوشنی اشاره دارد که تاکید بیشتری بر داده هایی دارد که به هم نزدیکتر هستند.

در حالی که CNN ها در دهه 1980 یک ایده بودند، اما در اوایل دهه 2010 زمانی که آخرین فناوری GPU این فناوری را به ارتفاعات جدیدی رساند، محبوبیت خود را شروع کردند.

موفقیت CNN ها در زمینه بینایی کامپیوتر منجر به علاقه بیشتر به تحقیق در مورد شبکه های عصبی شد.

غول های فناوری مانند گوگل و فیس بوک تصمیم گرفتند چارچوب های هوش مصنوعی خود را برای عموم منتشر کنند. API های سطح بالا مانند کراس به کاربران یک رابط کاربر پسند برای آزمایش شبکه های عصبی عمیق داد.

keras یک روش کاربرپسند برای آزمایش مدل های یادگیری عمیق ارائه کرد

CNN ها در تشخیص تصویر و تجزیه و تحلیل ویدیو عالی بودند، اما در حل مشکلات مبتنی بر زبان با مشکل مواجه بودند. این محدودیت در پردازش زبان طبیعی ممکن است وجود داشته باشد زیرا چگونگی تصاویر و متن در واقع مشکلات اساسی متفاوتی دارند.

به عنوان مثال، اگر مدلی دارید که طبقه بندی می کند که آیا یک تصویر دارای چراغ راهنمایی است یا خیر، چراغ راهنمایی مورد نظر می تواند در هر نقطه از تصویر ظاهر شود. با این حال، این نوع ملایمت در زبان به خوبی کار نمی کند. جمله «باب ماهی خورد» و «ماهی باب را خورد» با وجود استفاده از کلمات مشابه، معانی بسیار متفاوتی دارند.

مشخص شده بود که محققان نیاز به یافتن رویکرد جدیدی برای حل مشکلات مربوط به زبان انسان دارند.

ترانسفورماتورها همه چیز را تغییر می دهند

در 2017، یک مقاله تحقیقاتی با عنوان "توجه تنها چیزی است که شما نیاز دارید" نوع جدیدی از شبکه را پیشنهاد کرد: Transformer.

در حالی که CNN ها با فیلتر کردن مکرر بخش های کوچک یک تصویر کار می کنند، ترانسفورماتورها هر عنصر در داده را با هر عنصر دیگر متصل می کنند. محققان این فرآیند را "توجه به خود" می نامند.

نمودار طراحی معماری CNN

هنگام تلاش برای تجزیه جملات، CNN ها و ترانسفورماتورها بسیار متفاوت عمل می کنند. در حالی که یک CNN بر ایجاد ارتباط با کلمات نزدیک به یکدیگر تمرکز می کند، یک ترانسفورماتور بین هر کلمه در یک جمله ارتباط ایجاد می کند.

نمودار طراحی معماری ترانسفورماتور

فرآیند توجه به خود بخشی جدایی ناپذیر از درک زبان انسان است. با بزرگنمایی و مشاهده چگونگی تناسب کل جمله با هم، ماشین ها می توانند درک واضح تری از ساختار جمله داشته باشند.

هنگامی که اولین مدل های ترانسفورماتور منتشر شد، محققان به زودی از معماری جدید برای استفاده از حجم باورنکردنی داده های متنی موجود در اینترنت استفاده کردند.

GPT-3 و اینترنت

در سال 2020، OpenAI GPT-3 مدل نشان داد که ترانسفورماتورها چقدر می توانند موثر باشند. GPT-3 قادر به خروجی متنی بود که تقریباً از یک انسان قابل تشخیص نیست. بخشی از چیزی که GPT-3 را بسیار قدرتمند کرد، میزان داده های آموزشی استفاده شده بود. بیشتر مجموعه داده های قبل از آموزش مدل از مجموعه داده ای به نام Common Crawl می آید که با بیش از 400 میلیارد توکن همراه است.

در حالی که توانایی GPT-3 برای تولید متن واقعی انسانی به خودی خود پیشگامانه بود، محققان کشف کردند که چگونه همان مدل می تواند وظایف دیگر را حل کند.

به عنوان مثال، همان مدل GPT-3 که می‌توانید برای ایجاد یک توییت استفاده کنید، می‌تواند به شما در خلاصه‌سازی متن، بازنویسی یک پاراگراف و پایان داستان کمک کند. مدل های زبان آنقدر قدرتمند شده اند که در حال حاضر اساساً ابزارهای همه منظوره ای هستند که از هر نوع دستوری پیروی می کنند.

انقلاب هوش مصنوعی توسط مدل های زبان بزرگی مانند gpt-3 تسریع شد

ماهیت همه منظوره GPT-3 امکان استفاده از چنین برنامه هایی را فراهم کرده است GitHub Copilot، که به برنامه نویسان اجازه می دهد تا کدهای کاری را از زبان انگلیسی ساده تولید کنند.

نسخه ی نمایشی google copilot. انقلاب مولد ai می تواند حتی بر برنامه نویسانی که ai را ساخته اند نیز تأثیر بگذارد

مدل های انتشار: از متن تا تصویر

پیشرفت‌های حاصل از ترانسفورماتورها و NLP راه را برای هوش مصنوعی مولد در زمینه‌های دیگر هموار کرده است.

در حوزه بینایی کامپیوتر، قبلاً توضیح داده‌ایم که چگونه یادگیری عمیق به ماشین‌ها اجازه می‌دهد تصاویر را درک کنند. با این حال، ما هنوز نیاز داشتیم راهی پیدا کنیم که هوش مصنوعی بتواند تصاویر را خودش تولید کند و نه صرفاً آنها را طبقه بندی کند.

مدل‌های تصویر تولیدی مانند DALL-E 2، Stable Diffusion و Midjourney به دلیل اینکه چگونه می‌توانند ورودی متن را به تصویر تبدیل کنند، محبوب شده‌اند.

خروجی نمونه dall-e 2

این مدل‌های تصویر بر دو جنبه کلیدی متکی هستند: مدلی که رابطه بین تصاویر و متن را درک می‌کند و مدلی که در واقع می‌تواند تصویری با وضوح بالا ایجاد کند که با ورودی مطابقت داشته باشد.

OpenAI کلیپ (Contrastive Language–Image Pre-training) یک مدل منبع باز است که هدف آن حل اولین جنبه است. با توجه به یک تصویر، مدل CLIP می تواند مرتبط ترین توضیحات متنی را برای آن تصویر خاص پیش بینی کند.

مدل CLIP با یادگیری نحوه استخراج ویژگی های مهم تصویر و ایجاد یک نمایش ساده تر از یک تصویر کار می کند.

CLIP به عنوان پل بین تصاویر و متن عمل می کند و به انتقال انقلاب مولد هوش مصنوعی به حوزه بصری کمک می کند.

هنگامی که کاربران یک ورودی متنی نمونه را برای DALL-E 2 ارائه می کنند، ورودی با استفاده از مدل CLIP به "جاسازی تصویر" تبدیل می شود. اکنون هدف یافتن راهی برای تولید تصویری است که با جاسازی تصویر تولید شده مطابقت داشته باشد.

آخرین تصویر تولیدی هوش مصنوعی از a مدل انتشار برای مقابله با وظیفه ایجاد در واقع یک تصویر. مدل‌های انتشار متکی به شبکه‌های عصبی هستند که از قبل آموزش داده شده‌اند تا بدانند چگونه نویز اضافه شده را از تصاویر حذف کنند.

در طول این فرآیند آموزش، شبکه عصبی در نهایت می‌تواند یاد بگیرد که چگونه از یک تصویر نویز تصادفی، یک تصویر با وضوح بالا ایجاد کند. از آنجایی که ما قبلاً نقشه ای از متن و تصاویر ارائه شده توسط CLIP داریم، می توانیم آموزش یک مدل انتشار در تعبیه‌های تصویر CLIP برای ایجاد فرآیندی برای تولید هر تصویر.

انقلاب هوش مصنوعی مولد: بعد چه می شود؟

ما اکنون در نقطه ای هستیم که هر چند روز یکبار پیشرفت هایی در هوش مصنوعی مولد اتفاق می افتد. با آسان‌تر و آسان‌تر شدن تولید انواع مختلف رسانه‌ها با استفاده از هوش مصنوعی، آیا باید نگران این باشیم که چگونه این امر می‌تواند بر جامعه ما تأثیر بگذارد؟

در حالی که نگرانی ماشین‌های جایگزین کارگران از زمان اختراع موتور بخار همیشه مطرح بوده است، به نظر می‌رسد این بار کمی متفاوت است.

هوش مصنوعی مولد در حال تبدیل شدن به یک ابزار چندمنظوره است که ممکن است صنایعی را که در مقابل تصاحب هوش مصنوعی ایمن تلقی می‌شوند، مختل کند.

اگر هوش مصنوعی بتواند از چند دستورالعمل اولیه شروع به نوشتن کد بی عیب و نقص کند، آیا به برنامه نویس نیاز خواهیم داشت؟ آیا اگر مردم بتوانند از یک مدل مولد برای تولید بازدهی ارزان‌تر استفاده کنند، آیا افراد خلاق را استخدام خواهند کرد؟

پیش بینی آینده انقلاب مولد هوش مصنوعی دشوار است. اما اکنون که جعبه پاندورا باز شده است، امیدوارم که این فناوری به نوآوری‌های هیجان‌انگیزتری اجازه دهد که تأثیر مثبتی بر جهان بگذارد.

چه چیزی باعث انقلاب مولد هوش مصنوعی شد؟

ظهور شبکه های عصبی

ترانسفورماتورها همه چیز را تغییر می دهند

GPT-3 و اینترنت

مدل های انتشار: از متن تا تصویر

انقلاب هوش مصنوعی مولد: بعد چه می شود؟

درباره ما دیون منور

مقالات بیشتر در HashDork:

چگونه توهمات را در هوش مصنوعی خود کاهش دهیم

کولوسیان مقابل هیگن

این خبرنامه فناوری آینده بد نیست

چه چیزی باعث انقلاب مولد هوش مصنوعی شد؟

ظهور شبکه های عصبی

ترانسفورماتورها همه چیز را تغییر می دهند

GPT-3 و اینترنت

مدل های انتشار: از متن تا تصویر

انقلاب هوش مصنوعی مولد: بعد چه می شود؟

درباره ما دیون منور

مقالات بیشتر در HashDork:

چگونه توهمات را در هوش مصنوعی خود کاهش دهیم

10 بهترین ابزار هوش مصنوعی برای رسانه های اجتماعی

کولوسیان مقابل هیگن

10 بهترین ابزار ساخت ویدیوی متحرک هوش مصنوعی

تداخلات خواننده

پاسخ دهید لغو پاسخ

این خبرنامه فناوری آینده بد نیست