Përmbajtje[Fshih][Shfaqje]
Inteligjenca artificiale e re dhe e përmirësuar ka përmirësuar aftësitë, të kuptuarit dhe aftësinë për të prodhuar imazhe me rezolucion më të lartë. Kohët e fundit mund të keni hasur në disa imazhe të çuditshme dhe argëtuese që qarkullojnë nëpër internet.
Një qen Shiba Inu është i veshur me një beretë dhe një jakë të zezë. Dhe një vidër deti në mënyrën e "Vajzës me një vathë perle" të piktorit holandez Vermeer. Dhe ka një filxhan supë që duket si një përbindësh i leshtë.
Këto imazhe nuk janë krijuar nga një artist njerëzor.
Në vend të kësaj, DALL-E 2, një sistem i ri i AI që mund të konvertojë përshkrimet tekstuale në imazhe, i krijoi ato.
Thjesht shkruani atë që dëshironi të shihni dhe AI do ta krijojë atë për ju - me detaje të gjalla, cilësi të shkëlqyera dhe, në disa raste, shpikje të vërtetë. Në këtë postim, ne do t'i hedhim një vështrim të thellë studimit të fundit të OpenAI, DALL.E 2, si dhe mënyrën se si funksionon dhe shumë më tepër. Le të fillojmë.
Pra, çfarë është saktësisht DALL.E 2?
DALL-E 2 është një "model gjenerues", një lloj algoritmi i mësimit të makinerive që gjeneron rezultate të ndërlikuara në vend që të kryejë detyra parashikimi ose klasifikimi në të dhënat hyrëse.
Ju i jepni DALL-E 2 një përshkrim të shkruar dhe ai krijon një pamje që i korrespondon. Duke kombinuar konceptet, cilësitë dhe stilet, DALLE 2 i OpenAI-t mund të prodhojë grafika dhe arte novatore, realiste nga një përshkrim bazë gjuhësor.
Versioni i fundit, DALLE 2, thuhet se është më i gjithanshëm, i aftë për të bërë fotografi nga titrat me rezolucion më të lartë dhe në një spektër më të gjerë stilesh krijuese. Për shembull, fotografitë më poshtë (nga postimi i blogut DALL-E 2) krijohen nga përshkrimi "Një astronaut që kalëron një kalë".
Një përshkrim përfundon, "si një skicë me laps", ndërsa tjetri përfundon "në një mënyrë fotorealiste".
Ai gjithashtu mund të ndryshojë fotografitë ekzistuese me saktësi mahnitëse. Pra, mund të shtoni ose fshini elementë duke ruajtur ngjyrat, reflektimet dhe hijet, të gjitha duke ruajtur pamjen origjinale të imazhit.
Si funksionon kjo gjë?
DALL-E 2 përdor modele CLIP dhe difuzion, dy të sofistikuara të mësuarit e thellë qasjet e zhvilluara vitet e fundit. Megjithatë, ajo bazohet në të njëjtin nocion si të gjitha të tjerat e thella rrjetet nervore: të mësuarit me përfaqësim. CLIP trajnon dy në të njëjtën kohë rrjetet nervore në foto dhe mbishkrime.
Njëri rrjet mëson paraqitjet vizuale në figurë, ndërsa tjetri mëson paraqitjet e tekstit. Gjatë trajnimit, të dy rrjetet përpiqen të modifikojnë parametrat e tyre në mënyrë që fotografitë dhe përshkrimet e krahasueshme të rezultojnë në ngulitje të ngjashme.
"Difuzioni", një lloj modeli gjenerues që mëson të bëjë fotografi duke zhurmuar gradualisht dhe denoisuar mostrat e tij të trajnimit, është qasja tjetër e mësimit të makinerive e përdorur në DALL-E 2. Modelet e difuzionit janë të ngjashme me koduesit automatikë në atë që i transformojnë të dhënat hyrëse në një duke përfshirë përfaqësimin dhe më pas përdorni informacionin e ngulitjes për të rikrijuar të dhënat origjinale.
Duke përdorur OpenAI's model gjuhësor CLIP, i cili mund të lidhë përshkrimet tekstuale me fotografitë, fillimisht e përkthen kërkesën e shkruar në një formë të ndërmjetme që përfshin vetitë thelbësore që duhet të ketë një fotografi për t'u përshtatur me atë kërkesë (sipas CLIP).
Së dyti, DALL-E 2 krijon një CLIP-në përputhje imazh duke përdorur një model difuzioni, i cili është një rrjet nervor.
Në fotot e shtrembëruara me piksel të rastësishëm, mësohen modelet e difuzionit. Ata mësojnë se si të rivendosin formën origjinale të fotove. Modelet e difuzionit mund të prodhojnë imazhe sintetike me cilësi të lartë, veçanërisht kur përdoren në lidhje me një qasje udhëzuese që i jep përparësi saktësisë mbi diversitetin.
Si pasojë, modeli i difuzionit merr pikselat e rastësishëm dhe përdor CLIP për t'i kthyer ato në një imazh të ri që përputhet me kërkesën e fjalës. Për shkak të konceptit të difuzionit, DALL-E 2 mund të prodhojë imazhe me rezolucion më të lartë më shpejt se DALL-E.
Kuti përdorimi DALL.E 2
Në njëzet vitet e fundit, vizion kompjuteri teknologjia ka përparuar nga një nocion i thjeshtë në një zbulim të madh. Pavarësisht këtyre përparimeve, modelet e njohjes së fotografive dhe objekteve ende përballen me pengesa të rëndësishme në jetën e përditshme. Mungesa e grupeve të të dhënave është një nga të metat më të rëndësishme të njohjes së imazhit dhe vizionit kompjuterik. Për shkak se ka një mungesë të dhënash në të dy anët, trajnimi i modeleve të njohjes së imazhit për të dhënë rezultate 100 për qind të sakta është pothuajse i vështirë.
Për fat të mirë, modeli i ri i mësimit të makinerive të OpenAI mund të kapërcejë hendekun në teknologji. DALLE 2 është në gjendje të gjenerojë fotografi të mahnitshme bazuar në përshkrimet e tekstit. Ky prodhim i imazhit të rremë mund të sigurojë të dhëna për modelet e njohjes së imazhit bazuar në kërkesat e tyre. Mungesa e të dhënave është një pengesë e rëndësishme për identifikimin e objektit dhe figurës.
Në epokën dixhitale, grupet e të dhënave janë të kudondodhura, megjithatë ne jemi ende në kërkim të shkurtoreve për të ushqyer modelin e AI, në mënyrë që të mund të ofrojë rezultate të mira. Megjithatë, nuk është e thjeshtë të trajnosh një model të njohjes së imazhit. Kërkon një numër të madh grupesh të dhënash me pak dallime, të cilat mund të mos kishim qenë në gjendje t'i rikuperojmë thjesht.
Pra, cila është përgjigjja: Përgjigja është DALLE 2. Gjeneruesi i fotografive OpenAI, me kapacitetin e tij për të prodhuar imazhe nga tekstet dhe për të ndryshuar ato ekzistuese, mund të ndihmojë për të kapërcyer hendekun. Kjo do të ndihmojë në gjenerimin e të dhënave shtesë të trajnimit duke reduktuar gjithashtu sasinë e etiketimit të nevojshëm për njerëzit. Pavarësisht përfitimit të rëndësishëm, duhet të jeni të vetëdijshëm për prodhimet mashtruese të imazheve dhe imazhet që përjashtojnë përfshirjen. Kjo mund të çojë në metodat e zbulimit të imazhit që prodhojnë rezultate të njëanshme.
Kufizimet
DALL.E 2 mund të ketë një ndikim të dëmshëm nëse bie në duart e gabuara, sipas OpenAI. Në botën e sotme të falsifikimeve të thella, modeli mund të përdoret lehtësisht për të përhapur informacione të rreme ose imazhe raciste, kjo është arsyeja pse OpenAI lejon zhvilluesit të përdorin DALL.2 vetëm me ftesë. Modelja duhet të respektojë një kufizim rigoroz të përmbajtjes për të gjitha sugjerimet që merr.
Për të përjashtuar mundësinë e krijimit të ndonjë fotografie armiqësore ose të dhunshme nga DALL.E 2, grupi i të dhënave u krijua pa ndonjë armë vdekjeprurëse. Ndërsa OpenAI ka deklaruar se planifikon ta transformojë atë në një API në të ardhmen, në rastin e DALL.E 2, është i gatshëm të vazhdojë me kujdes.
Përfundim
DALL-E 2 është një tjetër zbulim interesant kërkimor OpenAI që hap derën për aplikacione të reja.
Një shembull është krijimi i grupeve masive të të dhënave për të përmbushur një nga të dhënat kryesore të pengesave të vizionit kompjuterik. Ndërsa çështja ekonomike për shumë aplikacione të bazuara në DALL-E do të përcaktohet nga çmimi dhe politikat që OpenAI vendos për përdoruesit e tij të API-së, të gjithë ata padyshim që do të avancojnë prodhimin e fotografive.
Lini një Përgjigju