Kami kemungkinan besar baru saja memulai revolusi AI generatif baru.
Kecerdasan buatan generatif mengacu pada algoritme dan model yang mampu membuat konten. Keluaran dari model tersebut meliputi teks, audio, dan gambar yang sering disalahartikan sebagai keluaran manusia nyata.
Aplikasi seperti ChatGPT telah menunjukkan bahwa AI generatif bukan sekadar hal baru. AI sekarang mampu mengikuti instruksi terperinci dan tampaknya memiliki pemahaman yang mendalam tentang cara kerja dunia.
Tapi bagaimana kita sampai ke titik ini? Dalam panduan ini, kita akan membahas beberapa terobosan penting dalam penelitian AI yang telah membuka jalan bagi revolusi AI generatif yang baru dan menarik ini.
Bangkitnya Neural Networks
Anda dapat melacak asal-usul AI modern hingga penelitian pembelajaran mendalam dan jaringan saraf di 2012.
Pada tahun itu, Alex Krizhevsky dan timnya dari Universitas Toronto mampu mencapai algoritme yang sangat akurat yang dapat mengklasifikasikan objek.
Grafik jaringan saraf tercanggih, yang sekarang dikenal sebagai AlexNet, mampu mengklasifikasikan objek dalam database visual ImageNet dengan tingkat kesalahan yang jauh lebih rendah daripada runner-up.
Jaringan syaraf adalah algoritma yang menggunakan jaringan fungsi matematika untuk mempelajari perilaku tertentu berdasarkan beberapa data pelatihan. Misalnya, Anda dapat memberi makan data medis jaringan saraf untuk melatih model mendiagnosis penyakit seperti kanker.
Harapannya adalah jaringan saraf secara perlahan menemukan pola dalam data dan menjadi lebih akurat saat diberikan data baru.
AlexNet adalah aplikasi terobosan dari a jaringan saraf convolutional atau CNN. Kata kunci "convolutional" mengacu pada penambahan lapisan convolutional yang lebih menekankan pada data yang lebih dekat satu sama lain.
Sementara CNN sudah menjadi ide di tahun 1980-an, mereka baru mulai mendapatkan popularitas di awal tahun 2010 ketika teknologi GPU terbaru mendorong teknologi ke tingkat yang lebih tinggi.
Keberhasilan CNN di bidang visi komputer menyebabkan lebih banyak minat dalam penelitian jaringan saraf.
Raksasa teknologi seperti Google dan Facebook memutuskan untuk merilis kerangka kerja AI mereka sendiri ke publik. API tingkat tinggi seperti Keras memberi pengguna antarmuka yang ramah pengguna untuk bereksperimen dengan jaringan saraf yang dalam.
CNN sangat bagus dalam pengenalan gambar dan analisis video, tetapi mengalami masalah saat menyelesaikan masalah berbasis bahasa. Keterbatasan dalam pemrosesan bahasa alami ini mungkin ada karena bagaimana gambar dan teks sebenarnya merupakan masalah yang berbeda secara fundamental.
Misalnya, jika Anda memiliki model yang mengklasifikasikan apakah suatu gambar berisi lampu lalu lintas, lampu lalu lintas tersebut dapat muncul di mana saja di dalam gambar. Namun, kelonggaran semacam ini tidak bekerja dengan baik dalam bahasa. Kalimat “Bob makan ikan” dan “Ikan makan Bob” memiliki arti yang sangat berbeda meskipun menggunakan kata-kata yang sama.
Sudah jelas bahwa para peneliti perlu menemukan pendekatan baru untuk memecahkan masalah yang melibatkan bahasa manusia.
Transformer mengubah segalanya
Dalam 2017, untuk telaahan berjudul "Attention Is All You Need" mengusulkan jenis jaringan baru: Transformer.
Sementara CNN bekerja dengan berulang kali memfilter sebagian kecil dari suatu gambar, transformer menghubungkan setiap elemen dalam data dengan setiap elemen lainnya. Para peneliti menyebut proses ini "perhatian diri".
Saat mencoba mengurai kalimat, CNN dan transformer bekerja sangat berbeda. Sementara CNN akan fokus pada pembentukan koneksi dengan kata-kata yang dekat satu sama lain, sebuah transformator akan membuat koneksi antara setiap kata dalam sebuah kalimat.
Proses perhatian diri merupakan bagian integral dari pemahaman bahasa manusia. Dengan memperkecil dan melihat bagaimana seluruh kalimat cocok satu sama lain, mesin dapat memiliki pemahaman yang lebih jelas tentang struktur kalimat.
Setelah model transformator pertama dirilis, para peneliti segera menggunakan arsitektur baru untuk memanfaatkan jumlah data teks yang luar biasa yang ditemukan di internet.
GPT-3 dan Internet
Pada tahun 2020, OpenAI GPT-3 model menunjukkan betapa efektifnya transformator. GPT-3 mampu menampilkan teks yang tampaknya hampir tidak dapat dibedakan dari manusia. Bagian dari apa yang membuat GPT-3 begitu kuat adalah jumlah data pelatihan yang digunakan. Sebagian besar dataset pra-pelatihan model berasal dari dataset yang dikenal sebagai Common Crawl yang hadir dengan lebih dari 400 miliar token.
Sementara kemampuan GPT-3 untuk menghasilkan teks manusia yang realistis merupakan terobosan tersendiri, para peneliti menemukan bagaimana model yang sama dapat menyelesaikan tugas lain.
Misalnya, model GPT-3 yang sama yang dapat Anda gunakan untuk membuat tweet juga dapat membantu Anda meringkas teks, menulis ulang paragraf, dan menyelesaikan cerita. Model bahasa telah menjadi begitu kuat sehingga mereka sekarang pada dasarnya adalah alat untuk tujuan umum yang mengikuti semua jenis perintah.
Sifat tujuan umum GPT-3 telah memungkinkan untuk aplikasi semacam itu Kopilot GitHub, yang memungkinkan programmer untuk menghasilkan kode yang berfungsi dari bahasa Inggris biasa.
Model Difusi: Dari Teks ke Gambar
Kemajuan yang dibuat dengan transformer dan NLP juga membuka jalan bagi AI generatif di bidang lain.
Dalam bidang visi komputer, kita telah membahas seberapa dalam pembelajaran memungkinkan mesin memahami gambar. Namun, kami masih perlu menemukan cara agar AI menghasilkan gambar itu sendiri, bukan hanya mengklasifikasikannya.
Model gambar generatif seperti DALL-E 2, Stable Diffusion, dan Midjourney telah menjadi populer karena cara mereka mengubah input teks menjadi gambar.
Model gambar ini bergantung pada dua aspek utama: model yang memahami hubungan antara gambar dan teks, dan model yang benar-benar dapat membuat gambar definisi tinggi yang sesuai dengan masukan.
OpenAI CLIP (Contrastive Language–Image Pre-training) adalah model sumber terbuka yang bertujuan untuk menyelesaikan aspek pertama. Diberikan sebuah gambar, model CLIP dapat memprediksi deskripsi teks yang paling relevan untuk gambar tersebut.
Model CLIP bekerja dengan mempelajari cara mengekstrak fitur penting gambar dan membuat representasi gambar yang lebih sederhana.
Saat pengguna memberikan input teks sampel ke DALL-E 2, input tersebut diubah menjadi "penyembahan gambar" menggunakan model CLIP. Tujuannya sekarang adalah menemukan cara untuk menghasilkan gambar yang cocok dengan penyematan gambar yang dihasilkan.
AI gambar generatif terbaru menggunakan a model difusi untuk mengatasi tugas benar-benar membuat gambar. Model difusi mengandalkan jaringan saraf yang telah dilatih sebelumnya untuk mengetahui cara menghilangkan noise tambahan dari gambar.
Selama proses pelatihan ini, jaringan saraf pada akhirnya dapat mempelajari cara membuat gambar beresolusi tinggi dari gambar noise acak. Karena kita sudah memiliki pemetaan teks dan gambar yang disediakan oleh CLIP, kita bisa melatih model difusi pada penyematan gambar CLIP untuk membuat proses untuk menghasilkan gambar apa pun.
Revolusi AI Generatif: Apa yang akan terjadi selanjutnya?
Kami sekarang berada pada titik di mana terobosan dalam AI generatif terjadi setiap beberapa hari. Dengan semakin mudahnya menghasilkan berbagai jenis media menggunakan AI, haruskah kita khawatir tentang bagaimana hal ini dapat memengaruhi masyarakat kita?
Sementara kekhawatiran mesin menggantikan pekerja selalu menjadi perbincangan sejak ditemukannya mesin uap, tampaknya kali ini sedikit berbeda.
AI generatif menjadi alat multiguna yang dapat mengganggu industri yang dianggap aman dari pengambilalihan AI.
Apakah kita membutuhkan pemrogram jika AI dapat mulai menulis kode tanpa cela dari beberapa instruksi dasar? Akankah orang menyewa materi iklan jika mereka bisa menggunakan model generatif untuk menghasilkan keluaran yang mereka inginkan dengan lebih murah?
Sulit untuk memprediksi masa depan revolusi AI generatif. Tapi sekarang kotak Pandora figuratif telah dibuka, saya berharap teknologi ini akan memungkinkan inovasi yang lebih menarik yang dapat memberikan dampak positif bagi dunia.
Tinggalkan Balasan