من المحتمل أننا في بداية ثورة الذكاء الاصطناعي التوليدية الجديدة.
يشير الذكاء الاصطناعي التوليدي إلى الخوارزميات والنماذج القادرة على إنشاء المحتوى. يتضمن إخراج مثل هذه النماذج نصًا وصوتًا وصورًا يمكن غالبًا اعتبارها مخرجات بشرية حقيقية.
تطبيقات مثل شات جي بي تي أظهروا أن الذكاء الاصطناعي التوليدي ليس مجرد حداثة. أصبح الذكاء الاصطناعي الآن قادرًا على اتباع التعليمات التفصيلية ويبدو أنه يتمتع بفهم عميق لكيفية عمل العالم.
لكن كيف وصلنا إلى هذه النقطة؟ في هذا الدليل ، سنتطرق إلى بعض الإنجازات الرئيسية في أبحاث الذكاء الاصطناعي التي مهدت الطريق لهذه الثورة الجديدة والمثيرة في مجال الذكاء الاصطناعي.
صعود الشبكات العصبية
يمكنك تتبع أصول الذكاء الاصطناعي الحديث للبحث في التعلم العميق والشبكات العصبية في 2012.
في ذلك العام ، تمكن أليكس كريجفسكي وفريقه من جامعة تورنتو من تحقيق خوارزمية عالية الدقة يمكنها تصنيف الأشياء.
• شبكة عصبية حديثة، المعروف الآن باسم AlexNet ، كان قادرًا على تصنيف الكائنات في قاعدة البيانات المرئية ImageNet بمعدل خطأ أقل بكثير من الوصيف.
الشبكات العصبية هي خوارزميات تستخدم شبكة من الوظائف الرياضية لتعلم سلوك معين بناءً على بعض بيانات التدريب. على سبيل المثال ، يمكنك تغذية البيانات الطبية للشبكة العصبية من أجل تدريب النموذج على تشخيص مرض مثل السرطان.
الأمل هو أن تجد الشبكة العصبية ببطء أنماطًا في البيانات وتصبح أكثر دقة عند إعطائها بيانات جديدة.
كان AlexNet تطبيقًا رائعًا لـ شبكة عصبية تلافيفية أو سي إن إن. تشير الكلمة الأساسية "التلافيفية" إلى إضافة طبقات تلافيفية تضع مزيدًا من التركيز على البيانات الأقرب من بعضها البعض.
على الرغم من أن شبكات CNN كانت بالفعل فكرة في الثمانينيات ، إلا أنها بدأت تكتسب شعبية فقط في أوائل عام 1980 عندما دفعت أحدث تقنيات GPU بالتكنولوجيا إلى آفاق جديدة.
نجاح CNNs في مجال رؤية الكمبيوتر أدى إلى مزيد من الاهتمام بأبحاث الشبكات العصبية.
قرر عمالقة التكنولوجيا مثل Google و Facebook إطلاق أطر عمل الذكاء الاصطناعي الخاصة بهم للجمهور. واجهات برمجة التطبيقات عالية المستوى مثل Keras منح المستخدمين واجهة سهلة الاستخدام لتجربة الشبكات العصبية العميقة.
كانت شبكات CNN رائعة في التعرف على الصور وتحليل الفيديو ولكنها كانت تواجه مشكلة عندما يتعلق الأمر بحل المشكلات القائمة على اللغة. قد يكون هذا القيد في معالجة اللغة الطبيعية موجودًا لأن كيف أن الصور والنصوص هي في الواقع مشاكل مختلفة جوهريًا.
على سبيل المثال ، إذا كان لديك نموذج يصنف ما إذا كانت الصورة تحتوي على إشارة مرور ، يمكن أن تظهر إشارة المرور المعنية في أي مكان في الصورة. ومع ذلك ، فإن هذا النوع من التساهل لا يعمل جيدًا في اللغة. الجملتان "Bob ate fish" و "Fish ate Bob" لها معاني مختلفة إلى حد كبير على الرغم من استخدام نفس الكلمات.
أصبح من الواضح أن الباحثين بحاجة إلى إيجاد نهج جديد لحل المشكلات المتعلقة باللغة البشرية.
المحولات تغير كل شيء
في 2017، إلى ورقة بحثية اقترح عنوان "الانتباه هو كل ما تحتاجه" نوعًا جديدًا من الشبكات: المحول.
بينما تعمل شبكات CNN عن طريق تصفية أجزاء صغيرة من الصورة بشكل متكرر ، فإن المحولات تربط كل عنصر في البيانات بكل عنصر آخر. يطلق الباحثون على هذه العملية اسم "الاهتمام الذاتي".
عند محاولة تحليل الجمل ، تعمل شبكات CNN والمحولات بشكل مختلف تمامًا. بينما تركز CNN على تكوين روابط مع الكلمات القريبة من بعضها البعض ، سيقوم المحول بإنشاء روابط بين كل كلمة في الجملة.
عملية الانتباه الذاتي هي جزء لا يتجزأ من فهم لغة الإنسان. من خلال التصغير والنظر في كيفية تناسب الجملة بأكملها معًا ، يمكن للآلات أن تفهم بشكل أوضح بنية الجملة.
بمجرد إصدار نماذج المحولات الأولى ، سرعان ما استخدم الباحثون البنية الجديدة للاستفادة من الكم الهائل من البيانات النصية الموجودة على الإنترنت.
GPT-3 والإنترنت
في عام 2020 ، أوبن إيه آي GPT-3 أظهر النموذج كيف يمكن أن تكون المحولات فعالة. كان GPT-3 قادرًا على إخراج نص يبدو أنه لا يمكن تمييزه تقريبًا عن الإنسان. جزء مما جعل GPT-3 قويًا للغاية هو كمية بيانات التدريب المستخدمة. تأتي معظم مجموعة بيانات النموذج قبل التدريب من مجموعة بيانات تُعرف باسم الزحف المشترك والتي تأتي مع أكثر من 400 مليار رمز.
في حين أن قدرة GPT-3 على إنشاء نص بشري واقعي كانت رائدة من تلقاء نفسها ، اكتشف الباحثون كيف يمكن للنموذج نفسه حل المهام الأخرى.
على سبيل المثال ، يمكن أن يساعدك نموذج GPT-3 نفسه الذي يمكنك استخدامه لإنشاء تغريدة على تلخيص النص وإعادة كتابة فقرة وإنهاء قصة. نماذج اللغة أصبحت قوية جدًا لدرجة أنها أصبحت الآن بشكل أساسي أدوات ذات أغراض عامة تتبع أي نوع من الأوامر.
سمحت طبيعة الأغراض العامة لـ GPT-3 بتطبيقات مثل مساعد الطيار جيثب ، مما يسمح للمبرمجين بإنشاء كود عمل من اللغة الإنجليزية البسيطة.
نماذج الانتشار: من النص إلى الصور
مهد التقدم الذي تم إحرازه مع المحولات و البرمجة اللغوية العصبية الطريق أيضًا للذكاء الاصطناعي التوليدي في مجالات أخرى.
في مجال رؤية الكمبيوتر ، لقد غطينا بالفعل كيف سمح التعلم العميق للآلات بفهم الصور. ومع ذلك ، ما زلنا بحاجة إلى إيجاد طريقة للذكاء الاصطناعي لإنشاء الصور بأنفسهم بدلاً من مجرد تصنيفها.
أصبحت نماذج الصور التوليدية مثل DALL-E 2 و Stable Diffusion و Midjourney شائعة نظرًا لقدرتها على تحويل إدخال النص إلى صور.
تعتمد نماذج الصور هذه على جانبين رئيسيين: نموذج يفهم العلاقة بين الصور والنص ونموذج يمكنه بالفعل إنشاء صورة عالية الدقة تطابق الإدخال.
OpenAI CLIP (اللغة التقابلية - التدريب المسبق على الصورة) هو نموذج مفتوح المصدر يهدف إلى حل الجانب الأول. بالنظر إلى الصورة ، يمكن لنموذج CLIP التنبؤ بالوصف النصي الأكثر صلة لتلك الصورة المعينة.
يعمل نموذج CLIP من خلال تعلم كيفية استخراج ميزات الصورة المهمة وإنشاء تمثيل أبسط للصورة.
عندما يقدم المستخدمون نموذج إدخال نص إلى DALL-E 2 ، يتم تحويل الإدخال إلى "دمج صورة" باستخدام نموذج CLIP. الهدف الآن هو إيجاد طريقة لإنشاء صورة تتطابق مع تضمين الصورة التي تم إنشاؤها.
تستخدم أحدث الصور التوليدية AIs ملف نموذج الانتشار لمعالجة مهمة إنشاء صورة فعليًا. تعتمد نماذج الانتشار على الشبكات العصبية التي تم تدريبها مسبقًا لمعرفة كيفية إزالة الضوضاء المضافة من الصور.
خلال عملية التدريب هذه ، يمكن للشبكة العصبية أن تتعلم في النهاية كيفية إنشاء صورة عالية الدقة من صورة ضوضاء عشوائية. نظرًا لأن لدينا بالفعل تعيينًا للنصوص والصور المقدمة من CLIP ، يمكننا ذلك تدريب نموذج الانتشار على حفلات الزفاف في CLIP image لإنشاء عملية لإنشاء أي صورة.
ثورة الذكاء الاصطناعي التوليدية: ماذا سيحدث بعد ذلك؟
نحن الآن في مرحلة تحدث فيها اختراقات في مجال الذكاء الاصطناعي التوليدي كل يومين. نظرًا لأنه أصبح من الأسهل والأسهل إنشاء أنواع مختلفة من الوسائط باستخدام الذكاء الاصطناعي ، فهل يجب أن نقلق بشأن كيفية تأثير ذلك على مجتمعنا؟
في حين أن مخاوف الآلات التي تحل محل العمال كانت دائمًا في المحادثة منذ اختراع المحرك البخاري ، يبدو أن الأمر مختلف بعض الشيء هذه المرة.
أصبح الذكاء الاصطناعي التوليدي أداة متعددة الأغراض قد تعطل الصناعات التي كانت تعتبر آمنة من سيطرة الذكاء الاصطناعي.
هل سنحتاج إلى مبرمجين إذا كان بإمكان الذكاء الاصطناعي البدء في كتابة تعليمات برمجية خالية من العيوب من بعض الإرشادات الأساسية؟ هل سيقوم الأشخاص بتوظيف تصميمات إذا كان بإمكانهم فقط استخدام نموذج إنتاجي لإنتاج المخرجات التي يريدونها بسعر أرخص؟
من الصعب التنبؤ بمستقبل ثورة الذكاء الاصطناعي التوليدية. ولكن الآن بعد أن تم فتح صندوق Pandora المجازي ، آمل أن تسمح التكنولوجيا بمزيد من الابتكارات المثيرة التي يمكن أن تترك تأثيرًا إيجابيًا على العالم.
اترك تعليق