Inawezekana tuko mwanzoni mwa mapinduzi mapya ya AI.
Ujuzi wa akili bandia unarejelea kanuni na miundo ambayo inaweza kuunda maudhui. Matokeo ya miundo kama hii ni pamoja na maandishi, sauti na picha ambazo mara nyingi zinaweza kuchukuliwa kimakosa kuwa pato halisi la binadamu.
Maombi kama vile GumzoGPT wameonyesha kuwa AI ya kuzalisha si kitu kipya tu. AI sasa ina uwezo wa kufuata maagizo ya kina na inaonekana kuwa na ufahamu wa kina wa jinsi ulimwengu unavyofanya kazi.
Lakini tulifikaje katika hatua hii? Katika mwongozo huu, tutapitia baadhi ya mafanikio muhimu katika utafiti wa AI ambayo yamefungua njia kwa mapinduzi haya mapya na ya kusisimua ya AI.
Kuongezeka kwa Mitandao ya Neural
Unaweza kufuatilia asili ya AI ya kisasa kwa utafiti juu ya kujifunza kwa kina na mitandao ya neva katika 2012.
Katika mwaka huo, Alex Krizhevsky na timu yake kutoka Chuo Kikuu cha Toronto waliweza kufikia algorithm sahihi sana ambayo inaweza kuainisha vitu.
The mtandao wa kisasa wa neva, inayojulikana sasa kama AlexNet, iliweza kuainisha vitu katika hifadhidata ya kuona ya ImageNet kwa kiwango cha chini zaidi cha makosa kuliko ya pili.
Mitandao ya Neural ni algoriti zinazotumia mtandao wa utendaji wa hisabati kujifunza tabia fulani kulingana na baadhi ya data ya mafunzo. Kwa mfano, unaweza kulisha data ya matibabu ya mtandao wa neva ili kufunza modeli kutambua ugonjwa kama saratani.
Matumaini ni kwamba mtandao wa neva hupata taratibu katika data na kuwa sahihi zaidi unapopewa data ya riwaya.
AlexNet ilikuwa matumizi ya mafanikio ya a mtandao wa neuba wa ushawishi au CNNs. Neno kuu la "convolutional" linarejelea nyongeza ya tabaka za ubadilishaji ambazo huweka mkazo zaidi kwenye data iliyo karibu zaidi.
Ingawa CNNs zilikuwa tayari wazo katika miaka ya 1980, zilianza kupata umaarufu mwanzoni mwa miaka ya 2010 wakati teknolojia ya hivi punde ya GPU iliposukuma teknolojia hiyo kwa viwango vipya.
Mafanikio ya CNN katika uwanja wa maono ya kompyuta ilisababisha kupendezwa zaidi katika utafiti wa mitandao ya neva.
Wakubwa wa teknolojia kama Google na Facebook waliamua kutoa mifumo yao ya AI kwa umma. API za kiwango cha juu kama vile Keras iliwapa watumiaji kiolesura kinachofaa mtumiaji kujaribu mitandao ya kina ya neva.
CNN zilikuwa nzuri katika utambuzi wa picha na uchanganuzi wa video lakini zilikuwa na shida linapokuja suala la kutatua shida zinazotegemea lugha. Kizuizi hiki katika uchakataji wa lugha asilia kinaweza kuwepo kwa sababu jinsi picha na maandishi ni matatizo tofauti kimsingi.
Kwa mfano, ikiwa una muundo unaoainisha ikiwa picha ina taa ya trafiki, taa ya trafiki inayohusika inaweza kuonekana popote kwenye picha. Walakini, aina hii ya upole haifanyi kazi vizuri katika lugha. Sentensi "Bob alikula samaki" na "Samaki alikula Bob" zina maana tofauti sana licha ya kutumia maneno sawa.
Ilikuwa wazi kwamba watafiti walihitaji kutafuta mbinu mpya ya kutatua matatizo yanayohusu lugha ya binadamu.
Transfoma hubadilisha kila kitu
Katika 2017, a karatasi ya utafiti yenye kichwa "Tahadhari Ndio Wote Unaohitaji" ilipendekeza aina mpya ya mtandao: Transformer.
Wakati CNN zinafanya kazi kwa kuchuja mara kwa mara sehemu ndogo za picha, transfoma huunganisha kila kipengele kwenye data na kila kipengele kingine. Watafiti huita mchakato huu "kujishughulisha".
Wakati wa kujaribu kuchanganua sentensi, CNN na transfoma hufanya kazi tofauti sana. Wakati CNN itazingatia kuunda miunganisho na maneno yaliyo karibu, kibadilishaji kitaunda miunganisho kati ya kila neno katika sentensi.
Mchakato wa kujiangalia ni sehemu muhimu ya kuelewa lugha ya binadamu. Kwa kusogeza nje na kuangalia jinsi sentensi nzima inavyolingana, mashine zinaweza kuwa na uelewa mzuri zaidi wa muundo wa sentensi.
Mara tu mifano ya kwanza ya transfoma ilipotolewa, watafiti hivi karibuni walitumia usanifu mpya kuchukua fursa ya kiasi cha ajabu cha data ya maandishi iliyopatikana kwenye mtandao.
GPT-3 na mtandao
Mnamo 2020, OpenAI's GPT-3 mfano ulionyesha jinsi transfoma bora inaweza kuwa. GPT-3 iliweza kutoa maandishi ambayo yanakaribia kutofautishwa na mwanadamu. Sehemu ya kile kilichofanya GPT-3 kuwa na nguvu sana ni kiasi cha data ya mafunzo iliyotumika. Seti nyingi za data za mafunzo ya awali za modeli hutoka kwenye mkusanyiko wa data unaojulikana kama Common Crawl ambao huja na zaidi ya tokeni bilioni 400.
Ingawa uwezo wa GPT-3 wa kutoa maandishi halisi ya mwanadamu ulikuwa wa msingi peke yake, watafiti waligundua jinsi mtindo huo huo unaweza kutatua kazi zingine.
Kwa mfano, muundo sawa wa GPT-3 unaoweza kutumia kutengeneza tweet pia unaweza kukusaidia kufanya muhtasari wa maandishi, kuandika upya aya na kumaliza hadithi. Mifano ya lugha zimekuwa na nguvu sana hivi kwamba sasa kimsingi ni zana za madhumuni ya jumla zinazofuata aina yoyote ya amri.
Asili ya madhumuni ya jumla ya GPT-3 imeruhusu matumizi kama hayo GitHub Copilot, ambayo inaruhusu waandaaji wa programu kutoa nambari ya kufanya kazi kutoka kwa Kiingereza wazi.
Miundo ya Usambazaji: Kutoka Maandishi hadi Picha
Maendeleo yaliyofanywa na transfoma na NLP pia yamefungua njia ya AI generative katika nyanja zingine.
Katika nyanja ya maono ya kompyuta, tayari tumeshughulikia jinsi kujifunza kwa kina kulivyoruhusu mashine kuelewa picha. Walakini, bado tulihitaji kutafuta njia ya AI kutengeneza picha zenyewe badala ya kuziainisha tu.
Miundo ya taswira zinazozalishwa kama vile DALL-E 2, Stable Diffusion na Midjourney imekuwa maarufu kwa sababu ya jinsi zinavyoweza kubadilisha maandishi kuwa picha.
Miundo hii ya picha inategemea vipengele viwili muhimu: muundo unaoelewa uhusiano kati ya picha na maandishi na muundo ambao unaweza kuunda picha ya ubora wa juu inayolingana na ingizo.
OpenAI ya KLIPU (Mafunzo ya awali ya Lugha–Taswira) ni modeli ya chanzo huria ambayo inalenga kutatua kipengele cha kwanza. Kwa kuzingatia picha, muundo wa CLIP unaweza kutabiri maelezo ya maandishi yanayofaa zaidi kwa picha hiyo.
Muundo wa CLIP hufanya kazi kwa kujifunza jinsi ya kutoa vipengele muhimu vya picha na kuunda uwakilishi rahisi wa picha.
Watumiaji wanapotoa sampuli ya uingizaji wa maandishi kwa DALL-E 2, ingizo hubadilishwa kuwa "upachikaji picha" kwa kutumia muundo wa CLIP. Lengo sasa ni kutafuta njia ya kutengeneza picha inayolingana na upachikaji wa picha uliotolewa.
Picha ya hivi punde ya AI hutumia a mfano wa kueneza ili kukabiliana na kazi ya kuunda picha. Miundo ya usambaaji hutegemea mitandao ya neva ambayo ilifunzwa mapema ili kujua jinsi ya kuondoa kelele iliyoongezwa kutoka kwa picha.
Wakati wa mchakato huu wa mafunzo, mtandao wa neva unaweza hatimaye kujifunza jinsi ya kuunda picha ya azimio la juu kutoka kwa picha ya kelele ya nasibu. Kwa kuwa tayari tunayo ramani ya maandishi na picha zinazotolewa na CLIP, tunaweza fundisha mfano wa uenezi kwenye upachikaji wa picha za CLIP ili kuunda mchakato wa kutoa picha yoyote.
Mapinduzi ya AI ya Kuzalisha: Je! ni nini kinachofuata?
Sasa tuko katika wakati ambapo mafanikio katika AI generative yanatokea kila siku kadhaa. Kwa kuwa inakuwa rahisi na rahisi kutoa aina tofauti za media kwa kutumia AI, je, tunapaswa kuwa na wasiwasi kuhusu jinsi hii inaweza kuathiri jamii yetu?
Ingawa wasiwasi wa mashine kuchukua nafasi ya wafanyikazi umekuwa kwenye mazungumzo kila wakati tangu uvumbuzi wa injini ya stima, inaonekana kuwa ni tofauti kidogo wakati huu kote.
Generative AI inakuwa zana ya madhumuni mengi ambayo inaweza kutatiza tasnia ambazo zilichukuliwa kuwa salama kutokana na unyakuzi wa AI.
Tutahitaji watengenezaji programu ikiwa AI inaweza kuanza kuandika nambari isiyo na dosari kutoka kwa maagizo machache ya kimsingi? Je!
Ni vigumu kutabiri mustakabali wa mapinduzi ya AI. Lakini sasa sanduku la Pandora la mfano limefunguliwa, natumaini kwamba teknolojia itaruhusu ubunifu zaidi wa kusisimua ambao unaweza kuacha athari nzuri kwa ulimwengu.
Acha Reply