Tha e nas coltaiche gu bheil thu mothachail gum faod coimpiutair dealbh a mhìneachadh.
Mar eisimpleir, faodar dealbh de chù a' cluich le do chlann eadar-theangachadh mar 'cù agus clann sa ghàrradh'. Ach an robh fios agad gu bheil an taobh eile a-nis comasach cuideachd? Bidh thu a’ sgrìobhadh beagan fhaclan, agus bidh an inneal a’ gineadh dealbh ùr.
Eu-coltach ri sgrùdadh Google, a bhios a’ sgrùdadh dhealbhan a th’ ann mar-thà, tha seo uile ùr. Anns na bliadhnachan mu dheireadh, tha OpenAI air a bhith mar aon de na prìomh bhuidhnean, ag aithris air toraidhean iongantach.
Bidh iad a’ trèanadh na h-algorithms aca air stòran-dàta mòr teacsa is dhealbhan. Dh'fhoillsich iad pàipear mun mhodail ìomhaigh GLIDE aca, a chaidh trèanadh air ceudan de mhilleanan de dhealbhan. A thaobh photorealism, tha e nas fheàrr na am modal 'DALL-E' a bh 'aca roimhe.
Anns an dreuchd seo, seallaidh sinn ri GLIDE OpenAI, aon de ghrunn iomairtean inntinneach a tha ag amas air dealbhan photorealistic a dhèanamh agus atharrachadh le modalan sgaoilidh teacsa. Feuch an tòisich sinn.
Na th’ann Fosgail AI Glide?
Ged a dh’ fhaodar a’ mhòr-chuid de dh’ ìomhaighean a mhìneachadh ann am faclan, tha feum air eòlas sònraichte agus tòrr ùine gus ìomhaighean a chruthachadh bho in-chur teacsa.
Le bhith a’ leigeil le àidseant AI dealbhan photorealistic a dhèanamh bho bhrosnachadh cànain nàdarrach chan ann a-mhàin a’ leigeil le daoine stuth lèirsinneach beairteach agus eadar-mheasgte a chruthachadh gun samhail ach tha e cuideachd a’ ceadachadh ùrachadh ath-aithriseach nas sìmplidhe agus smachd mionaideach air na h-ìomhaighean a chaidh a chruthachadh.
Faodar GLIDE a chleachdadh gus dealbhan a th’ ann mu thràth a dheasachadh le bhith a’ cleachdadh molaidhean teacsa cànain nàdarra gus nithean ùra a chuir a-steach, faileas is faileasan a chruthachadh, dealbh-peantadh, agus mar sin air adhart.
Faodaidh e cuideachd dealbhan loidhne bunaiteach a thionndadh gu dealbhan photorealistic, agus tha comasan saothrachaidh agus càraidh sampall neoni sònraichte aige airson suidheachaidhean iom-fhillte.
Tha rannsachadh o chionn ghoirid air sealltainn gum faod modalan sgaoilidh stèidhichte air coltas cuideachd dealbhan àrd-inbhe synthetigeach a thoirt gu buil, gu sònraichte nuair a thèid iad còmhla ri dòigh-stiùiridh a tha a’ cothromachadh measgachadh agus dìlseachd.
Dh'fhoillsich OpenAI a modail sgaoilidh treòraichte sa Chèitean, a leigeas le modalan sgaoilidh a bhith an urra ri bileagan seòrsachaidh. Bidh GLIDE a’ leasachadh air an t-soirbheachas seo le bhith a’ toirt eadar-dhealachadh treòraichte don duilgheadas a thaobh cruthachadh ìomhaighean le suidheachadh teacsa.
Às deidh dhaibh modal sgaoilidh paramadair 3.5 billean GLIDE a thrèanadh a’ cleachdadh inneal-còdaidh teacsa gu suidheachadh air tuairisgeulan cànain nàdarra, rinn an luchd-rannsachaidh deuchainn air dà ro-innleachd stiùiridh eile: stiùireadh CLIP agus stiùireadh gun sheòrsachadh.
Tha CLIP na dhòigh scalable airson a bhith ag ionnsachadh co-riochdachaidhean teacsa agus dealbhan a lìbhrigeas sgòr stèidhichte air cho faisg ‘s a tha ìomhaigh air ceann-sgrìobhadh.
Chleachd an sgioba an ro-innleachd seo anns na modalan sgaoilidh aca le bhith a’ cur modal CLIP an àite an seòrsaiche a bhios “a’ stiùireadh ”na modailean. Aig an aon àm, tha stiùireadh gun neach-seòrsachaidh na ro-innleachd airson a bhith a’ stiùireadh mhodalan sgaoilidh nach eil a’ toirt a-steach trèanadh seòrsaiche air leth.
Ailtireachd GLIDE
Tha trì pàirtean ann an ailtireachd GLIDE: Modail Sgaoileadh Ablated (ADM) air a thrèanadh gus ìomhaigh 64 × 64 a ghineadh, modal teacsa (cruth-atharrachaidh) a bheir buaidh air gineadh ìomhaigh tro sgiobalta teacsa, agus modal ath-shamplachaidh a dh’ atharraicheas ar n-ìomhaigh bheag 64 × 64. Dealbhan gu 256x256 piogsail a ghabhas eadar-mhìneachadh.
Bidh a’ chiad dà phàirt ag obair còmhla gus smachd a chumail air a’ phròiseas togail dhealbhan gus am bi e gu h-iomchaidh a’ nochdadh an teacsa gu sgiobalta, fhad ‘s a tha feum air an fhear mu dheireadh gus na h-ìomhaighean a chruthaicheas sinn a dhèanamh nas fhasa a thuigsinn. Chaidh am pròiseact GLIDE a bhrosnachadh le a aithisg air fhoillseachadh ann an 2021 sheall sin gu robh dòighean ADM nas fheàrr na na modalan ginealach as ùire a tha mòr-chòrdte an-dràsta a thaobh càileachd sampall dhealbhan.
Airson an ADM, chleachd na h-ùghdaran GLIDE an aon mhodail ImageNet 64 x 64 ri Dhariwal agus Nichol, ach le seanalan 512 an àite 64. Tha timcheall air 2.3 billean paramadair aig a’ mhodail ImageNet mar thoradh air an seo.
Bha sgioba GLIDE, eu-coltach ri Dhariwal agus Nichol, airson barrachd smachd dìreach a bhith aca air a’ phròiseas togail dhealbhan, agus mar sin chuir iad còmhla am modail lèirsinneach le cruth-atharrachaidh le comas aire. Bheir GLIDE beagan smachd dhut air toradh pròiseas gineadh dhealbhan le bhith a’ giullachd na molaidhean cuir a-steach teacsa.
Tha seo air a choileanadh le bhith a’ trèanadh a’ mhodail cruth-atharrachaidh air seata dàta mòr iomchaidh de dhealbhan agus fo-thiotalan (coltach ris an fhear a thathas ag obair sa phròiseact DALL-E).
Tha an teacsa air a chòdachadh an toiseach ann an sreath de chomharran K gus a shuidheachadh. Às deidh sin, thèid na comharran a luchdachadh a-steach do mhodail cruth-atharrachaidh. Faodar toradh an cruth-atharrachaidh an uairsin a chleachdadh ann an dà dhòigh. Airson a’ mhodail ADM, thathas a’ cleachdadh an in-ghabhail chomharran mu dheireadh an àite stèidheachadh a’ chlas.
San dàrna h-àite, thathas a’ ro-mheasadh sreath mu dheireadh an token emeddings - sreath de vectaran feart - gu neo-eisimeileach a rèir na tomhasan airson gach ìre aire anns a’ mhodal ADM agus air a cheangal ri gach co-theacs aire.
Ann an da-rìribh, tha seo a’ toirt comas don mhodail ADM dealbh a dhèanamh bho choimeasgaidhean ùra de chomharran teacsa coltach ris ann an dòigh gun samhail agus photorealistic, stèidhichte air an tuigse ionnsaichte aige air na faclan cuir a-steach agus na h-ìomhaighean co-cheangailte riutha. Tha 1.2 billean paramadair anns a’ chruth-atharrachaidh còdaidh teacsa seo agus bidh e a’ fastadh 24 blocaichean a tha air fhàgail le leud 2048.
Mu dheireadh, tha am modal sgaoilidh upsampler a ’toirt a-steach timcheall air 1.5 billean paramadair agus ag atharrachadh bhon mhodail bhunasach leis gu bheil an encoder teacsa aige nas lugha, le leud seanalan bonn 1024 agus 384, an taca ris a’ mhodail bunaiteach. Tha am modail seo, mar a tha an t-ainm a’ comharrachadh, a’ cuideachadh le bhith ag ùrachadh an t-sampall gus eadar-mhìneachadh a leasachadh an dà chuid airson innealan agus daoine.
Modail sgaoilidh
Bidh GLIDE a’ gineadh ìomhaighean a’ cleachdadh an dreach aige fhèin den ADM (ADM-G airson “treòraichte”). Tha am modail ADM-G na atharrachadh air a’ mhodail U-net sgaoilidh. Tha modal U-net sgaoilidh gu math eadar-dhealaichte bho na dòighean synthesis ìomhaigh as cumanta leithid VAE, GAN, agus cruth-atharraichean.
Bidh iad a’ togail sreath Markov de cheumannan sgaoilidh gus fuaim air thuaiream a thoirt a-steach don dàta mean air mhean, agus an uairsin ag ionnsachadh a’ phròiseas sgaoilidh a thionndadh air ais agus na sampallan dàta riatanach ath-thogail bhon fhuaim a-mhàin. Bidh e ag obair ann an dà ìre: sgaoileadh air adhart agus air ais.
Tha an dòigh sgaoilidh air adhart, le puing dàta bho fhìor chuairteachadh an t-sampall, a’ cur beagan fuaim ris an t-sampall thairis air sreath de cheumannan ro-shuidhichte. Mar a bhios na ceumannan ag àrdachadh ann am meud agus dòigh-obrach neo-chrìochnach, bidh an sampall a’ call a h-uile feart aithnichte agus tha an t-sreath a’ tòiseachadh a bhith coltach ri lùb isotropic Gaussian.
Rè an sgaoileadh air ais ìre, am modail sgaoilidh ag ionnsachadh buaidh an fhuaim a bharrachd air na dealbhan a thionndadh air ais agus an ìomhaigh a chaidh a thoirt a-mach a thoirt air ais chun chumadh tùsail aige le bhith a’ feuchainn ri bhith coltach ris an sgaoileadh sampall inntrigidh tùsail.
Dh'fhaodadh modail crìochnaichte sin a dhèanamh le fìor fhuaim Gaussian agus sgiobalta. Tha an dòigh ADM-G ag atharrachadh bhon fhear roimhe leis gu bheil modail, an dàrna cuid CLIP no cruth-atharrachaidh gnàthaichte, a’ toirt buaidh air an ìre sgaoilidh air ais le bhith a’ cleachdadh na comharran teacsa teacsa a thèid a chuir a-steach.
Sgilean gluasaid
1. Ginealach Ìomhaigh
Is dòcha gur e synthesis ìomhaighean an cleachdadh as mòr-chòrdte agus as fharsainge de GLIDE. Ged a tha na dealbhan beag agus gu bheil duilgheadas aig GLIDE le cruthan bheathaichean/daonna, tha an comas airson dealbh aon-dhealbh cha mhòr gun chrìoch.
Faodaidh e dealbhan a chruthachadh de bheathaichean, dhaoine ainmeil, cruthan-tìre, togalaichean, agus mòran a bharrachd, agus faodaidh e a dhèanamh ann an grunn stoidhlichean ealain a bharrachd air dealbhan-camara. Tha ùghdaran an luchd-rannsachaidh ag ràdh gu bheil GLIDE comasach air measgachadh farsaing de chuir-a-steach teacsa a mhìneachadh agus atharrachadh gu cruth lèirsinneach, mar a chithear anns na sampallan gu h-ìosal.
2. Glide inpeantadh
Dh'fhaodar a ràdh gur e peantadh dhealbhan fèin-ghluasadach GLIDE an cleachdadh as inntinniche. Faodaidh GLIDE dealbh a tha ann mu thràth a thoirt a-steach, a phròiseasadh leis an teacsa gu sgiobalta san amharc airson àiteachan a dh’ fheumar atharrachadh, agus an uairsin atharrachaidhean gnìomhach a dhèanamh air na pàirtean sin gu furasta.
Feumar a chleachdadh còmhla ri modail deasachaidh, leithid SDEdit, gus toraidhean eadhon nas fheàrr a thoirt gu buil. Anns an àm ri teachd, is dòcha gum bi aplacaidean a bhios a’ gabhail brath air comasan mar seo deatamach ann a bhith a’ leasachadh dhòighean-obrach gun chòd airson atharrachadh dhealbhan.
Co-dhùnadh
A-nis gu bheil sinn air a dhol tron phròiseas, bu chòir dhut tuigse fhaighinn air bunaitean mar a tha GLIDE ag obair, a bharrachd air farsaingeachd a chomasan ann an cruthachadh dhealbhan agus atharrachadh in-ìomhaigh.
Leave a Reply