MultiModal-GPT: พรมแดนใหม่ในการรวมภาษาและการมองเห็น

คุณเคยคิดที่จะสนทนากับ AI ที่เข้าใจข้อมูลทั้งเสียงพูดและภาพหรือไม่? กระบวนทัศน์ MultiModal-GPT รวมการประมวลผลภาษาเข้ากับความเข้าใจด้วยภาพ

มันมีความเป็นไปได้ของการโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์ที่แม่นยำและหลากหลาย มัลติโมดอล-GPT สามารถให้คำอธิบายภาพ นับแต่ละรายการ และตอบคำถามผู้ใช้ทั่วไป

แต่มันทำอย่างนั้นได้อย่างไร? และคุณสามารถทำอะไรกับ MultiModal-GPT ได้บ้าง?

เรามาเริ่มเรื่องราวกันที่จุดเริ่มต้นและทำความเข้าใจเกี่ยวกับความเป็นไปได้ข้างหน้าของเรา

ด้วยการเกิดขึ้นของโมเดลภาษาอย่าง GPT-4 เทคโนโลยีการประมวลผลภาษาธรรมชาติกำลังเป็นสักขีพยานในการปฏิวัติ นวัตกรรมเช่น ChatGPT ได้รวมเข้ากับชีวิตของเราแล้ว

และดูเหมือนว่าพวกเขาจะมาอย่างต่อเนื่อง!

GPT-4 และข้อจำกัดของมัน

GPT-4 แสดงให้เห็นถึงความสามารถที่น่าทึ่งในการสนทนาต่อเนื่องหลายรูปแบบกับผู้คน การศึกษาได้พยายามทำซ้ำประสิทธิภาพนี้ แต่เนื่องจากโทเค็นรูปภาพอาจมีจำนวนมาก รวมถึงโมเดลที่มีข้อมูลภาพที่แม่นยำจึงมีราคาแพงในการคำนวณ

โมเดลที่มีอยู่ยังไม่รวมการปรับคำสั่งภาษาในการศึกษาของพวกเขา ซึ่งจำกัดความสามารถในการเข้าร่วมในการสนทนาด้วยข้อความรูปภาพหลายเทิร์นแบบ Zero-shot

สร้างจาก Flamingo Framework

โมเดลใหม่ที่เรียกว่า MultiModal-GPT ได้รับการพัฒนาขึ้นเพื่อให้สามารถสื่อสารกับผู้คนโดยใช้สัญลักษณ์ทางภาษาและภาพ

ผู้พัฒนาใช้โปรแกรมที่เรียกว่า กรอบนกกระเรียน, ซึ่งก่อนหน้านี้ได้รับการฝึกฝนให้เข้าใจทั้งข้อความและภาพ เพื่อทำให้สิ่งนี้เป็นไปได้

กรอบฟลามิงโก

อย่างไรก็ตาม Flamingo ต้องการการเปลี่ยนแปลง เนื่องจากไม่สามารถขยายบทสนทนาที่มีข้อความและภาพได้

โมเดล MultiModal-GPT ที่อัปเดตสามารถรวบรวมข้อมูลจากรูปภาพและผสมผสานกับภาษาเพื่อทำความเข้าใจและดำเนินการตามคำสั่งของมนุษย์

มัลติโมดอล-GPT

MultiModal-GPT เป็นโมเดล AI ประเภทหนึ่งที่สามารถติดตามคำถามต่างๆ ของมนุษย์ เช่น อธิบายภาพ นับรายการ และตอบคำถาม มันเข้าใจและปฏิบัติตามคำสั่งโดยใช้ข้อมูลภาพและคำพูดผสมกัน

นักวิจัยฝึกฝนโมเดลโดยใช้ทั้งข้อมูลภาพและภาษาเท่านั้น เพื่อเพิ่มขีดความสามารถของ MultiModal-GPT ในการสนทนากับผู้คน นอกจากนี้ยังทำให้เกิดการปรับปรุงอย่างเห็นได้ชัดในวิธีการแสดงวาทกรรม นอกจากนี้ยังส่งผลให้ประสิทธิภาพการสนทนาดีขึ้นอย่างเห็นได้ชัด

พวกเขาค้นพบว่าการมีข้อมูลการฝึกอบรมคุณภาพสูงมีความสำคัญต่อประสิทธิภาพการสนทนาที่ดี เนื่องจากชุดข้อมูลขนาดเล็กที่มีการตอบสนองสั้น ๆ อาจทำให้โมเดลสร้างการตอบสนองต่อคำสั่งใด ๆ ที่สั้นลงได้

คุณทำอะไรกับ MultiModal-GPT ได้บ้าง

มีส่วนร่วมในการสนทนา

เช่นเดียวกับโมเดลภาษาที่มีมาก่อน คุณสมบัติหลักประการหนึ่งของ MultiModal-GPT คือความสามารถในการมีส่วนร่วมในการอภิปรายด้วยภาษาธรรมชาติ ซึ่งหมายความว่าผู้บริโภคอาจมีส่วนร่วมกับโมเดลได้เหมือนกับที่พวกเขาทำกับบุคคลจริง

ตัวอย่างเช่น MultiModal-GPT สามารถให้รายละเอียดสูตรการทำบะหมี่แก่ลูกค้าหรือแนะนำร้านอาหารที่เป็นไปได้สำหรับการรับประทานอาหารนอกบ้าน โมเดลนี้ยังสามารถตอบคำถามทั่วไปเกี่ยวกับความตั้งใจในการเดินทางของผู้ใช้

ก๋วยเตี๋ยว

การรับรู้ของวัตถุ

MultiModal-GPT สามารถจดจำสิ่งต่าง ๆ ในภาพถ่ายและตอบคำถามเกี่ยวกับสิ่งเหล่านั้นได้ ตัวอย่างเช่น โมเดลสามารถจดจำ Freddie Mercury ในภาพและตอบคำถามเกี่ยวกับเขาได้

นอกจากนี้ยังสามารถนับจำนวนบุคคลและอธิบายสิ่งที่พวกเขากำลังทำอยู่ในรูปภาพได้อีกด้วย ความสามารถในการระบุวัตถุนี้มีแอปพลิเคชันในหลากหลายสาขา รวมถึงอีคอมเมิร์ซ การดูแลสุขภาพ และความปลอดภัย

ตัวอย่าง

MultiModal-GPT ยังสามารถจดจำข้อความภายในรูปภาพดิจิทัลได้อีกด้วย ซึ่งหมายความว่าโมเดลสามารถอ่านข้อความในภาพถ่ายและดึงข้อมูลที่เป็นประโยชน์ได้ ตัวอย่างเช่น อาจตรวจจับอักขระในภาพและระบุผู้แต่งหนังสือ

เป็นเครื่องมือที่มีประโยชน์อย่างยิ่งสำหรับ การจัดการเอกสารการป้อนข้อมูลและการวิเคราะห์เนื้อหา

แกนดัล์ฟ

การใช้เหตุผลและการสร้างความรู้

Multi-modal-GPT สามารถให้เหตุผลและสร้างความรู้เกี่ยวกับโลก ซึ่งหมายความว่าสามารถให้คำอธิบายที่สมบูรณ์เกี่ยวกับภาพถ่ายและแม้แต่บอกได้ว่าภาพนั้นถ่ายในฤดูกาลใด

ทักษะนี้มีประโยชน์ในหลากหลายสาขาวิชา รวมถึงการตรวจสอบด้านสิ่งแวดล้อม การเกษตร และอุตุนิยมวิทยา โมเดลยังสามารถสร้างสรรค์สิ่งสร้างสรรค์ เช่น บทกวี นิทาน และเพลง ทำให้เป็นเครื่องมือที่ยอดเยี่ยมสำหรับงานสร้างสรรค์

การทำงานภายในของ MultiModal-GPT

เทมเพลตสำหรับคำแนะนำแบบครบวงจร

ทีมงานนำเสนอเทมเพลตเดียวสำหรับการรวมข้อมูลภาษาศาสตร์แบบ Unimodal และข้อมูลการมองเห็นและภาษาแบบ Multimodal เพื่อฝึกโมเดล MultiModal-GPT อย่างเหมาะสมในลักษณะที่ประสานกัน

กลยุทธ์แบบผสมผสานนี้พยายามปรับปรุงประสิทธิภาพของแบบจำลองในงานต่างๆ ที่หลากหลายโดยใช้ประโยชน์จากความสามารถเสริมของทั้งสองรูปแบบข้อมูลและส่งเสริมความเข้าใจที่ลึกซึ้งยิ่งขึ้นของแนวคิดพื้นฐาน

ทีมงานใช้ชุดข้อมูล Dolly 15k และ Alpaca GPT4 เพื่อวัดความสามารถในการติดตามคำสั่งเฉพาะภาษาเท่านั้น ชุดข้อมูลเหล่านี้ทำหน้าที่เป็นแม่แบบพร้อมท์สำหรับการจัดโครงสร้างอินพุตชุดข้อมูลเพื่อรับประกันรูปแบบคำสั่งที่สอดคล้องกัน

ภาพรวมชุดข้อมูล Dolly 15k

ภาพ: ภาพรวมของชุดข้อมูล Doly 15k

โมเดลทำงานอย่างไร

ส่วนประกอบสำคัญ XNUMX ส่วนประกอบกันเป็นโมเดล MultiModal-GPT: ตัวถอดรหัสภาษา ตัวขยายสัญญาณรับรู้ และตัวเข้ารหัสการมองเห็น ภาพถูกถ่ายโดยตัวเข้ารหัสการมองเห็น ซึ่งจากนั้นจะสร้างคอลเลกชั่นของลักษณะเฉพาะที่บ่งบอกลักษณะเฉพาะของภาพนั้น

ตัวถอดรหัสภาษาใช้ข้อมูลจากตัวเข้ารหัสการมองเห็นเพื่อสร้างข้อความที่อธิบายภาพด้วยความช่วยเหลือของตัวขยายสัญญาณการรับรู้

ส่วนประกอบของโมเดลที่เข้าใจภาษาและสร้างข้อความคือตัวถอดรหัสภาษา ในการทำนายคำต่อไปนี้ในวลี แบบจำลองจะได้รับการฝึกอบรมโดยใช้ข้อมูลตามคำสั่งภาษาทั้งแบบภาษาอย่างเดียวและการมองเห็นบวกกับภาษา

สิ่งนี้สอนแบบจำลองถึงวิธีการตอบสนองต่อคำสั่งจากมนุษย์และจัดเตรียมข้อความที่ยอมรับได้สำหรับคำอธิบายรูปภาพ

รุ่น

เบื้องหลังทีม

MultiModal-GPT สร้างขึ้นโดยทีมนักวิจัยและวิศวกรของ Microsoft Research Asia นำโดย Tao Gong, Chengqi Lyu และ Shilong Zhang Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo และ Kai Chen ล้วนมีส่วนสนับสนุนในการศึกษาและพัฒนาแบบจำลองนี้

การประมวลผลภาษาธรรมชาติ วิสัยทัศน์คอมพิวเตอร์และแมชชีนเลิร์นนิงล้วนเป็นความสามารถสำหรับทีม พวกเขามีบทความหลายฉบับที่ตีพิมพ์ในการประชุมและสิ่งพิมพ์ระดับชั้นนำ ตลอดจนมีเกียรติและรางวัลมากมายสำหรับความพยายามทางวิทยาศาสตร์ของพวกเขา

การวิจัยของทีมงานมุ่งเน้นไปที่การพัฒนาแบบจำลองที่ทันสมัยและแนวทางที่จะทำให้เกิดปฏิสัมพันธ์ที่เป็นธรรมชาติและชาญฉลาดมากขึ้นระหว่างมนุษย์และเทคโนโลยี

การพัฒนา Multi-modal-GPT เป็นความสำเร็จที่น่าจดจำในด้านนี้ เนื่องจากเป็นหนึ่งในโมเดลแรกๆ ที่รวมวิสัยทัศน์และภาษาไว้ในเฟรมเวิร์กเดียวสำหรับการอภิปรายหลายรอบ

การมีส่วนร่วมของทีมในการวิจัยและพัฒนา MultiModal-GPT มีศักยภาพที่จะมีอิทธิพลอย่างมากต่ออนาคตของการประมวลผลภาษาธรรมชาติและการโต้ตอบระหว่างมนุษย์กับเครื่องจักร

วิธีใช้ MultiModal-GPT

สำหรับผู้เริ่มต้น การใช้เครื่องมือ MultiModal-GPT นั้นง่ายมาก เพียงไปที่ https://mmgpt.openmmlab.org.cn/ แล้วกดปุ่ม “อัพโหลดภาพ”

เลือกไฟล์รูปภาพที่จะอัปโหลด จากนั้นพิมพ์ข้อความแจ้งลงในช่องข้อความ หากต้องการสร้างการตอบกลับจากโมเดล ให้คลิกปุ่ม "ส่ง" ซึ่งจะปรากฏใต้ช่องข้อความ

คุณอาจทดลองกับภาพถ่ายและคำแนะนำต่างๆ เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับความสามารถของโมเดล

อินเตอร์เฟซ 1

การติดตั้ง

ในการติดตั้งแพ็คเกจ MultiModal-GPT ให้ใช้คำสั่งเทอร์มินัล “git clone https://github.com/open-mmlab/Multimodal-GPT.git” เพื่อโคลนที่เก็บจาก GitHub คุณสามารถทำตามขั้นตอนเหล่านี้:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

หรือใช้ conda env create -f environment.yml เพื่อสร้างสภาพแวดล้อม conda ใหม่ คุณสามารถเรียกใช้การสาธิตในเครื่องได้หลังจากติดตั้งโดยการดาวน์โหลดน้ำหนักที่ฝึกไว้ล่วงหน้าและจัดเก็บไว้ในโฟลเดอร์จุดตรวจ

การสาธิต Gradio อาจเปิดใช้งานได้โดยการเรียกใช้คำสั่ง “python app.py”

ข้อเสียที่อาจเกิดขึ้น

โมเดล MultiModal-GPT ยังคงมีข้อบกพร่องและช่องว่างสำหรับการพัฒนาแม้ว่าจะมีประสิทธิภาพที่ยอดเยี่ยมก็ตาม

ตัวอย่างเช่น เมื่อต้องรับมือกับอินพุตภาพที่ซับซ้อนหรือคลุมเครือ โมเดลอาจไม่สามารถจดจำและเข้าใจบริบทของอินพุตได้เสมอไป ซึ่งอาจส่งผลให้เกิดการคาดคะเนหรือปฏิกิริยาจากแบบจำลองที่ไม่ถูกต้อง

นอกจากนี้ โดยเฉพาะอย่างยิ่งเมื่ออินพุตมีความซับซ้อนหรือปลายเปิด แบบจำลองอาจไม่ได้สร้างปฏิกิริยาหรือผลลัพธ์ที่ดีที่สุดเสมอไป ตัวอย่างเช่น คำตอบของแบบจำลองอาจได้รับผลกระทบจากความคล้ายคลึงกันของปกหนังสือสองเล่มในกรณีที่ระบุปกหนังสือไม่ถูกต้อง

สรุป

โดยรวมแล้ว โมเดล MultiModal-GPT แสดงถึงความก้าวหน้าครั้งใหญ่ในการประมวลผลภาษาธรรมชาติและการเรียนรู้ของเครื่อง และน่าตื่นเต้นมากที่จะใช้และทดลองกับมัน ดังนั้นคุณควรลองดูสิ!

อย่างไรก็ตาม มีข้อจำกัดเช่นเดียวกับทุกรุ่น และต้องมีการปรับแต่งเพิ่มเติมและเพิ่มประสิทธิภาพเพื่อให้ได้ประสิทธิภาพสูงสุดในแอปพลิเคชันและโดเมนที่หลากหลาย