Kami berkemungkinan baru pada permulaan revolusi AI generatif baharu.
Kecerdasan buatan generatif merujuk kepada algoritma dan model yang mampu mencipta kandungan. Output model sedemikian termasuk teks, audio dan imej yang sering boleh disalah anggap sebagai output manusia sebenar.
Aplikasi seperti SembangGPT telah menunjukkan bahawa AI generatif bukanlah sesuatu yang baru. AI kini mampu mengikut arahan terperinci dan nampaknya mempunyai pemahaman yang mendalam tentang cara dunia berfungsi.
Tetapi bagaimana kita sampai ke tahap ini? Dalam panduan ini, kami akan melalui beberapa penemuan penting dalam penyelidikan AI yang telah membuka jalan bagi revolusi AI generatif yang baharu dan menarik ini.
Kebangkitan Rangkaian Neural
Anda boleh mengesan asal usul AI moden kepada penyelidikan pembelajaran mendalam dan rangkaian saraf pada tahun 2012.
Pada tahun itu, Alex Krizhevsky dan pasukannya dari Universiti Toronto dapat mencapai algoritma yang sangat tepat yang boleh mengklasifikasikan objek.
. rangkaian neural yang canggih, yang kini dikenali sebagai AlexNet, dapat mengklasifikasikan objek dalam pangkalan data visual ImageNet dengan kadar ralat yang jauh lebih rendah daripada naib juara.
Rangkaian saraf ialah algoritma yang menggunakan rangkaian fungsi matematik untuk mempelajari tingkah laku tertentu berdasarkan beberapa data latihan. Sebagai contoh, anda boleh menyuapkan data perubatan rangkaian saraf untuk melatih model untuk mendiagnosis penyakit seperti kanser.
Harapannya ialah rangkaian saraf perlahan-lahan mencari corak dalam data dan menjadi lebih tepat apabila diberi data baru.
AlexNet ialah aplikasi terobosan a rangkaian saraf convolutional atau CNN. Kata kunci "konvolusi" merujuk kepada penambahan lapisan konvolusi yang lebih menekankan pada data yang lebih rapat.
Walaupun CNN sudah menjadi idea pada tahun 1980-an, mereka hanya mula mendapat populariti pada awal 2010-an apabila teknologi GPU terkini mendorong teknologi itu ke tahap yang lebih tinggi.
Kejayaan CNN dalam bidang penglihatan komputer membawa kepada lebih minat dalam penyelidikan rangkaian saraf.
Gergasi teknologi seperti Google dan Facebook memutuskan untuk mengeluarkan rangka kerja AI mereka sendiri kepada orang ramai. API peringkat tinggi seperti Keras memberikan pengguna antara muka mesra pengguna untuk bereksperimen dengan rangkaian saraf dalam.
CNN hebat dalam pengecaman imej dan analisis video tetapi menghadapi masalah apabila ia datang untuk menyelesaikan masalah berasaskan bahasa. Had dalam pemprosesan bahasa semula jadi ini mungkin wujud kerana bagaimana imej dan teks sebenarnya adalah masalah yang berbeza secara asasnya.
Contohnya, jika anda mempunyai model yang mengklasifikasikan sama ada imej mengandungi lampu isyarat, lampu isyarat yang dimaksudkan boleh muncul di mana-mana dalam imej. Walau bagaimanapun, kelonggaran semacam ini tidak berfungsi dengan baik dalam bahasa. Ayat "Bob makan ikan" dan "Ikan makan Bob" mempunyai makna yang jauh berbeza walaupun menggunakan perkataan yang sama.
Sudah menjadi jelas bahawa penyelidik perlu mencari pendekatan baru untuk menyelesaikan masalah yang melibatkan bahasa manusia.
Transformer mengubah segala-galanya
Dalam 2017, yang kertas penyelidikan bertajuk "Attention Is All You Need" mencadangkan jenis rangkaian baharu: Transformer.
Walaupun CNN berfungsi dengan menapis bahagian kecil imej berulang kali, transformer menyambungkan setiap elemen dalam data dengan setiap elemen lain. Penyelidik memanggil proses ini "perhatian diri".
Apabila cuba menghuraikan ayat, CNN dan transformer berfungsi dengan sangat berbeza. Walaupun CNN akan menumpukan pada membentuk sambungan dengan perkataan yang berdekatan antara satu sama lain, pengubah akan mewujudkan hubungan antara setiap perkataan dalam ayat.
Proses perhatian diri adalah bahagian penting dalam memahami bahasa manusia. Dengan mengezum keluar dan melihat bagaimana keseluruhan ayat sesuai bersama, mesin boleh mempunyai pemahaman yang lebih jelas tentang struktur ayat.
Sebaik sahaja model pengubah pertama dikeluarkan, penyelidik tidak lama lagi menggunakan seni bina baharu untuk memanfaatkan jumlah data teks yang luar biasa yang ditemui di internet.
GPT-3 dan Internet
Pada tahun 2020, OpenAI's GPT-3 model menunjukkan betapa berkesannya transformer. GPT-3 dapat mengeluarkan teks yang kelihatan hampir tidak dapat dibezakan daripada manusia. Sebahagian daripada perkara yang menjadikan GPT-3 begitu berkuasa ialah jumlah data latihan yang digunakan. Kebanyakan set data pra-latihan model datang daripada set data yang dikenali sebagai Common Crawl yang disertakan dengan lebih 400 bilion token.
Walaupun keupayaan GPT-3 untuk menjana teks manusia yang realistik adalah terobosan dengan sendirinya, penyelidik mendapati bagaimana model yang sama boleh menyelesaikan tugasan lain.
Contohnya, model GPT-3 yang sama yang boleh anda gunakan untuk menjana tweet juga boleh membantu anda meringkaskan teks, menulis semula perenggan dan menyelesaikan cerita. Model bahasa telah menjadi begitu berkuasa sehingga kini pada dasarnya adalah alat tujuan umum yang mengikut apa-apa jenis arahan.
Sifat tujuan am GPT-3 telah membenarkan aplikasi sedemikian GitHub Copilot, yang membolehkan pengaturcara menghasilkan kod kerja daripada bahasa Inggeris biasa.
Model Penyebaran: Daripada Teks kepada Imej
Kemajuan yang dibuat dengan transformer dan NLP juga telah membuka jalan untuk AI generatif dalam bidang lain.
Dalam bidang penglihatan komputer, kami telah membincangkan sejauh mana pembelajaran mendalam membolehkan mesin memahami imej. Walau bagaimanapun, kami masih perlu mencari cara untuk AI menjana imej sendiri daripada hanya mengklasifikasikannya.
Model imej generatif seperti DALL-E 2, Stable Diffusion dan Midjourney telah menjadi popular kerana cara mereka dapat menukar input teks kepada imej.
Model imej ini bergantung pada dua aspek utama: model yang memahami hubungan antara imej dan teks dan model yang sebenarnya boleh mencipta imej definisi tinggi yang sepadan dengan input.
OpenAI CLIP (Pralatihan Bahasa–Imej Kontrastif) ialah model sumber terbuka yang bertujuan untuk menyelesaikan aspek pertama. Memandangkan imej, model CLIP boleh meramalkan perihalan teks yang paling berkaitan untuk imej tertentu itu.
Model CLIP berfungsi dengan mempelajari cara mengekstrak ciri imej penting dan mencipta perwakilan imej yang lebih mudah.
Apabila pengguna memberikan input teks sampel kepada DALL-E 2, input ditukar kepada "pembenaman imej" menggunakan model CLIP. Matlamatnya sekarang ialah untuk mencari cara untuk menjana imej yang sepadan dengan pembenaman imej yang dijana.
AI imej generatif terkini menggunakan a model penyebaran untuk menangani tugas sebenarnya mencipta imej. Model resapan bergantung pada rangkaian saraf yang telah dilatih terlebih dahulu untuk mengetahui cara mengalih keluar bunyi tambahan daripada imej.
Semasa proses latihan ini, rangkaian saraf akhirnya boleh belajar cara mencipta imej resolusi tinggi daripada imej hingar rawak. Memandangkan kita sudah mempunyai pemetaan teks dan imej yang disediakan oleh CLIP, kita boleh melatih model resapan pada pembenaman imej CLIP untuk mencipta proses untuk menjana sebarang imej.
Revolusi AI Generatif: Apa yang akan datang?
Kami kini berada pada titik di mana kejayaan dalam AI generatif berlaku setiap beberapa hari. Dengan semakin mudah dan mudah untuk menjana pelbagai jenis media menggunakan AI, adakah kita perlu bimbang tentang bagaimana ini boleh menjejaskan masyarakat kita?
Walaupun kebimbangan mesin menggantikan pekerja sentiasa menjadi perbualan sejak penciptaan enjin stim, nampaknya kali ini agak berbeza.
AI Generatif menjadi alat pelbagai guna yang boleh mengganggu industri yang dianggap selamat daripada pengambilalihan AI.
Adakah kita memerlukan pengaturcara jika AI boleh mula menulis kod yang sempurna daripada beberapa arahan asas? Adakah orang akan mengupah kreatif jika mereka hanya boleh menggunakan model generatif untuk menghasilkan output yang mereka inginkan dengan lebih murah?
Sukar untuk meramalkan masa depan revolusi AI generatif. Tetapi sekarang setelah kotak Pandora kiasan telah dibuka, saya berharap teknologi itu akan membolehkan lebih banyak inovasi menarik yang boleh meninggalkan kesan positif kepada dunia.
Sila tinggalkan balasan anda