Kami sigana ngan dina mimiti revolusi AI generatif anyar.
Kecerdasan buatan generatif ngarujuk kana algoritma sareng modél anu sanggup nyiptakeun kontén. Kaluaran model sapertos kalebet téks, audio, sareng gambar anu sering tiasa disalahartikeun salaku kaluaran manusa nyata.
Aplikasi sapertos Ngobrol GPT parantos nunjukkeun yén AI generatif sanés énggal-énggal. AI ayeuna tiasa nuturkeun petunjuk anu lengkep sareng sigana gaduh pamahaman anu jero ngeunaan kumaha dunya jalan.
Tapi kumaha urang nepi ka titik ieu? Dina pituduh ieu, urang bakal ngaliwat sababaraha terobosan konci dina panalungtikan AI anu parantos muka jalan pikeun révolusi AI generatif anu énggal sareng seru ieu.
Kebangkitan Jaringan Neural
Anjeun tiasa ngalacak asal-usul AI modéren pikeun panalungtikan ngeunaan pangajaran jero sareng jaringan saraf di 2012.
Dina taun éta, Alex Krizhevsky sareng timnya ti Universitas Toronto tiasa ngahontal algoritma anu akurat pisan anu tiasa ngagolongkeun objék.
nu jaringan saraf canggih, dipikawanoh kiwari salaku AlexNet, éta bisa mengklasifikasikan objék dina database visual ImageNet kalawan laju kasalahan leuwih handap ti runner-up.
Jaringan saraf Algoritma nu ngagunakeun jaringan fungsi matematik pikeun neuleuman kabiasaan nu tangtu dumasar kana sababaraha data latihan. Salaku conto, anjeun tiasa nyayogikeun data médis jaringan saraf pikeun ngalatih modél pikeun mendiagnosis panyakit sapertos kanker.
Harepan éta jaringan saraf lalaunan mendakan pola dina data sareng janten langkung akurat nalika dibéré data novél.
AlexNet éta aplikasi narabas a jaringan saraf konvolutional atanapi CNNs. The "convolutional" keyword nujul kana tambahan lapisan convolutional nu nempatkeun leuwih tekenan kana data anu leuwih raket babarengan.
Sanaos CNN parantos janten ide dina taun 1980-an, aranjeunna mimiti popularitasna dina awal taun 2010 nalika téknologi GPU pangénggalna nyorong téknologi ka jangkung anyar.
Kasuksésan CNNs dina widang visi komputer nyababkeun langkung dipikaresep dina panalungtikan jaringan saraf.
Raksasa téknologi sapertos Google sareng Facebook mutuskeun pikeun ngaleupaskeun kerangka AI sorangan ka masarakat. API tingkat luhur sapertos Keras masihan pamaké panganteur ramah-pamaké pikeun ékspérimén kalawan jaringan neural jero.
CNNs hébat dina pangakuan gambar sareng analisa pidéo tapi ngagaduhan masalah nalika ngarengsekeun masalah dumasar kana basa. Watesan ieu dina ngolah basa alami tiasa aya sabab kumaha gambar sareng téks saleresna masalah anu béda-béda.
Contona, upami anjeun gaduh model anu ngagolongkeun naha gambar ngandung lampu lalu lintas, lampu lalu lintas anu dimaksud tiasa muncul dimana waé dina gambar. Sanajan kitu, jenis ieu leniency teu dianggo ogé dina basa. Kalimah "Bob ate lauk" jeung "Lauk ate Bob" boga harti vastly béda sanajan ngagunakeun kecap sarua.
Geus jadi jelas yén panalungtik diperlukeun pikeun manggihan pendekatan anyar pikeun ngajawab masalah ngalibetkeun basa manusa.
Transformers ngarobah sagalana
Dina 2017, a kertas panalungtikan judulna "Perhatian Dupi Sadaya Anjeun Peryogikeun" diusulkeun tipe anyar jaringan: Transformer.
Bari CNNs dianggo ku sababaraha kali nyaring porsi leutik hiji gambar, trafo nyambungkeun unggal unsur dina data jeung unggal elemen séjén. Peneliti nelepon prosés ieu "timer perhatian".
Nalika nyobian nga-parse kalimat, CNN sareng trafo dianggo béda pisan. Nalika CNN bakal difokuskeun ngawangun sambungan sareng kecap anu caket, trafo bakal nyiptakeun sambungan antara unggal kecap dina kalimah.
Prosés perhatian diri mangrupa bagian integral pamahaman basa manusa. Ku ngazum kaluar sarta nempo kumaha sakabéh kalimah pas babarengan, mesin bisa boga pamahaman jelas ngeunaan struktur kalimah urang.
Sakali model trafo munggaran dileupaskeun, peneliti geura-giru ngagunakeun arsitéktur anyar pikeun ngamangpaatkeun jumlah luar biasa data téks kapanggih dina internét.
GPT-3 sareng Internét
Dina 2020, OpenAI's GPT-3 model némbongkeun ngan kumaha éféktif trafo tiasa. GPT-3 tiasa ngahasilkeun téks anu sigana ampir teu tiasa dibédakeun tina manusa. Bagian anu ngajantenkeun GPT-3 langkung kuat nyaéta jumlah data latihan anu dianggo. Seuseueurna set data pra-latihan modél asalna tina set data anu katelah Common Crawl anu ngagaduhan langkung ti 400 milyar token.
Nalika kamampuan GPT-3 pikeun ngahasilkeun téks manusa anu réalistis nyaéta groundbreaking sorangan, peneliti mendakan kumaha modél anu sami tiasa ngabéréskeun tugas-tugas sanés.
Salaku conto, modél GPT-3 anu sami anu anjeun tiasa dianggo pikeun ngahasilkeun tweet ogé tiasa ngabantosan anjeun nyimpulkeun téks, nyerat ulang paragraf, sareng ngarengsekeun carita. Modél basa geus jadi kuat yén maranéhanana ayeuna dasarna parabot umum-tujuan nu nuturkeun sagala jenis paréntah.
Sifat tujuan umum GPT-3 ngamungkinkeun pikeun aplikasi sapertos kitu GitHub Copilot, anu ngamungkinkeun programer ngahasilkeun kode kerja tina basa Inggris biasa.
Modél difusi: Tina Téks ka Gambar
Kamajuan anu dilakukeun ku trafo sareng NLP ogé parantos muka jalan pikeun AI generatif dina widang anu sanés.
Dina ranah visi komputer, kami parantos nutupan kumaha jero diajar ngamungkinkeun mesin ngartos gambar. Najan kitu, urang masih diperlukeun pikeun manggihan cara pikeun AI ngahasilkeun gambar sorangan tinimbang ngan mengklasifikasikan aranjeunna.
Model gambar generatif sapertos DALL-E 2, Stable Diffusion, sareng Midjourney parantos populer kusabab kumaha aranjeunna tiasa ngarobih input téks kana gambar.
Modél gambar ieu ngandelkeun dua aspék konci: modél anu ngartos hubungan antara gambar sareng téks sareng modél anu leres-leres tiasa nyiptakeun gambar definisi luhur anu cocog sareng input.
OpenAI urang KLIP (Contrastive Language–Image Pre-training) nyaéta modél open-source anu boga tujuan pikeun ngabéréskeun aspék kahiji. Dibéré gambar, modél CLIP tiasa ngaduga déskripsi téks anu paling relevan pikeun gambar éta.
Modél CLIP jalanna ku diajar kumaha carana nimba fitur gambar penting jeung nyieun ngagambarkeun basajan tina hiji gambar.
Lamun pamaké nyadiakeun input téks sampel ka DALL-E 2, input nu dirobah jadi "gambar embedding" ngagunakeun modél CLIP. Tujuanana ayeuna nyaéta pikeun milarian cara pikeun ngahasilkeun gambar anu cocog sareng embedding gambar anu dihasilkeun.
AIs gambar generative panganyarna ngagunakeun a modél difusi pikeun tackle tugas sabenerna nyieun hiji gambar. Modél difusi ngandelkeun jaringan saraf anu tos dilatih pikeun terang kumaha cara ngaleungitkeun sora tambahan tina gambar.
Salila prosés latihan ieu, jaringan saraf antukna bisa diajar kumaha nyieun gambar resolusi luhur tina gambar noise acak. Kusabab urang parantos gaduh pemetaan téks sareng gambar anu disayogikeun ku CLIP, urang tiasa ngalatih modél difusi dina embeddings gambar CLIP pikeun nyieun prosés pikeun ngahasilkeun gambar naon.
Revolusi AI Generatif: Naon anu salajengna?
Kami ayeuna dina titik dimana terobosan dina AI generatif kajantenan unggal sababaraha dinten. Kalayan janten langkung gampang sareng langkung gampang pikeun ngahasilkeun sababaraha jinis média nganggo AI, naha urang kedah hariwang kumaha ieu tiasa mangaruhan masarakat urang?
Bari worries mesin ngagantikeun pagawe geus salawasna aya dina paguneman saprak penemuan mesin uap, sigana nu rada béda waktos sabudeureun.
Generative AI janten alat multiguna anu tiasa ngaganggu industri anu dianggap aman tina pengambilalihan AI.
Naha urang peryogi programer upami AI tiasa ngamimitian nyerat kode anu sampurna tina sababaraha petunjuk dasar? Naha jalma bakal nyéwa kreatif upami aranjeunna ngan ukur tiasa nganggo modél generatif pikeun ngahasilkeun kaluaran anu dipikahoyong langkung mirah?
Hese ngaduga masa depan revolusi AI generative. Tapi ayeuna yén kotak Pandora figurative geus dibuka, abdi miharep éta téhnologi bakal ngidinan pikeun inovasi leuwih seru nu bisa ninggalkeun dampak positif kana dunya.
Leave a Reply