Modelet e difuzionit kanë përfshirë globin nga stuhia me lëshimin e Dall-E 2, Imagen e Google, Difuzion i qëndrueshëmdhe Mesi i udhëtimit, duke ndezur inovacionin dhe duke shtrirë kufijtë e mësimit të makinerive.
Këto modele mund të prodhojnë një numër pothuajse të pakufizuar imazhesh nga kërkesat e fjalëve, duke përfshirë imazhe fotorealiste, magjike, futuriste dhe, natyrisht, të lezetshme.
Këto aftësi riimagjinojnë se çfarë do të thotë për njerëzit të ndërlidhen me silikonin, duke na dhënë mundësinë për të bërë pothuajse çdo pamje që mund të imagjinojmë.
Ndërsa këto modele zhvillohen ose paradigma e ardhshme gjeneruese merr përsipër, njerëzit do të jenë në gjendje të prodhojnë imazhe, filma dhe përvoja të tjera zhytëse vetëm me një mendim.
Në këtë postim, ne do të diskutojmë modeli i difuzionit, difuzion i qëndrueshëm, si funksionon dhe një tutorial për pikturimin e modelit të difuzionit, ndër të tjera.
Cili është modeli i Difuzionit?
Modelet e mësimit të makinerive që mund të krijojnë të dhëna të reja nga të dhënat e trajnimit quhen modele gjeneruese. Modele të tjera gjeneruese përfshijnë modele të bazuara në rrjedhën, autoenkoderë variacionalë dhe rrjete kundërshtare gjeneruese (GAN).
Secili mund të krijojë fotografi me cilësi të shkëlqyer. Modelet e difuzionit mësojnë të rikuperojnë të dhënat duke e kthyer këtë proces të shtimit të zhurmës pasi dëmtojnë të dhënat e trajnimit duke shtuar zhurmë. Për ta thënë ndryshe, modelet e difuzionit janë në gjendje të krijojnë fotografi koherente nga zhurma.
Modelet e difuzionit mësojnë duke futur zhurmë në foto, të cilat modeli më vonë zotëron heqjen e tyre. Për të prodhuar pamje realiste, modeli më pas aplikon këtë teknikë denoising për farat e rastësishme.
Duke kushtëzuar procesin e prodhimit të figurës, këto modele mund të përdoren së bashku me udhëzimin tekst-në-imazh për të gjeneruar një numër pothuajse të pakufishëm imazhesh vetëm nga teksti. Farat mund të drejtohen nga inputet nga ngulitje si CLIP për të dhënë aftësi të forta tekst-në-imazh.
Modelet e difuzionit mund të kryejnë një sërë detyrash, duke përfshirë krijimin e imazhit, denoising imazhi, inpainting, outpainting, dhe bit difuzion.
Tani, çfarë është difuzioni i qëndrueshëm?
Stable Diffusion është një model i mësimit të makinerive për krijimin e fotografive të bazuara në tekst, i ofruar nga Stabiliteti.AI. Ai është i aftë të gjenerojë imazhe nga teksti.
Përbërësit e difuzionit të qëndrueshëm
Difuzion i qëndrueshëm është një sistem i përbërë nga disa komponentë dhe koncepte. Nuk është një model i vetëm. Kur kontrollojmë prapa kapuçit, gjëja e parë që shohim është se ekziston një komponent për të kuptuar tekstin që konverton informacionin e tekstit në një paraqitje numerike që kap konceptet e tekstit.
Këtë kodues teksti mund ta quajmë Transformer model gjuhësor (teknikisht: koduesi i tekstit të një modeli CLIP). Ai merr tekstin hyrës dhe gjeneron një listë të numrave të plotë (një vektor) për secilën fjalë/token në tekst. Këto të dhëna më pas i dërgohen Gjeneratorit të Imazhit, i cili përbëhet nga disa komponentë.
Ekzistojnë dy hapa në gjeneratorin e imazhit:
1. Krijuesi i informacionit të imazhit
Komponenti kryesor në Difuzionin e Qëndrueshëm është ky element. Është vendi ku bëhet pjesa më e madhe e përmirësimit të performancës në krahasim me versionet e mëparshme.
Ky komponent kalon nëpër disa faza për të siguruar të dhëna fotografike. Krijuesi i informacionit të figurës vepron vetëm brenda hapësirës së informacionit të imazhit (ose hapësirës latente).
Është më i shpejtë se modelet e mëparshme të difuzionit që funksiononin në hapësirën e pikselëve për shkak të kësaj karakteristike. Teknikisht, ky komponent përbëhet nga një algoritëm planifikimi dhe një UNet Rrjeti nervoz.
Procesi që ndodh në këtë komponent quhet "difuzion". Një imazh me cilësi të lartë prodhohet përfundimisht si rezultat i informacionit që përpunohet në hapa (nga komponenti tjetër, dekoderi i imazhit).
2. Dekoder imazhi
Duke përdorur të dhënat që ka marrë nga prodhuesi i informacionit, dekoderi i imazhit krijon një fotografi. Ai ekzekutohet vetëm një herë për të krijuar foton e përfunduar të pikselit në përfundim të operacionit.
Udhëzues Stabil Diffusion Impainting
Ngjyrosja e figurës me difuzion të qëndrueshëm është teknika e plotësimit të zonave të munguara ose të dëmtuara të një imazhi. Qëllimi i pikturës së pikturës është të fshehë faktin që imazhi është restauruar.
Kjo teknikë përdoret shpesh për të eliminuar gjërat e padëshiruara nga një imazh ose për të rivendosur zonat e dëmtuara të fotografive historike. Ngjyrosja me difuzion të qëndrueshëm është një mënyrë relativisht e fundit e lyerjes që po jep efekte premtuese.
Ndjekja e udhëzimeve të mëposhtme do t'ju bëjë të filloni të eksploroni dhe modifikoni fotot ekzistuese nëse dëshironi të provoni të pikturoni me difuzion të qëndrueshëm:
- Shkoni te Huggingface Goditje e qëndrueshme e difuzionit
- Ngarkoni imazhin tuaj
- Fshini pjesën e imazhit tuaj që duhet të zëvendësohet.
- Futni kërkesën tuaj këtu (çfarë doni të shtoni në vend të asaj që po hiqni)
- Zgjidhni "vraponi"
Në videon lart, ngarkojmë një foto me tre limonë dhe i ndërrojmë me mollë. Unë personalisht rekomandoj ta provoni me fotografitë dhe kërkesat tuaja.
Përfundim
Në përgjithësi, pikturimi me difuzion të qëndrueshëm është një metodë e shkëlqyer për prodhimin e imazheve ose videove të rreme që duken të jenë jashtëzakonisht reale. Ndërsa shkojmë drejt avancimit të teknologjisë së re, do të bëhet gjithnjë e më e vështirë të dallosh midis autentikes dhe mashtrimit ndërsa teknologjia përparon.
Swahir
Pjesa e parë nuk ka asnjë lidhje me pjesën e dytë. Do të ishte vërtet interesante nëse autori do të kishte shpjeguar se si funksionon inpaint në kuadrin e modelit që ai shpjegoi më parë, mund të kishte dhënë njohuri. Por jo! Kjo do të kërkonte një kuptim të vërtetë, në vend të mbledhjes dhe përpunimit të një teksti të rastësishëm.