Inhaltsverzeechnes[Verstoppen][Show]
Déi nei a verbessert AI huet verbessert Fäegkeeten, Verständnis, an d'Kapazitéit fir méi héich Opléisung Biller ze produzéieren. Dir hutt vläicht viru kuerzem e puer komesch an lëschteg Biller begéint, déi um Internet schwammen.
E Shiba Inu Hond ass an engem Baret an engem schwaarze Schildkröt gekleet. An e Mierotter wéi dem hollännesche Moler Vermeer sengem „Girl with a Pearl Earring“. An et gëtt eng Taass Zopp, déi ausgesäit wéi e Wollef Monster.
dës Biller goufen net vun engem mënschleche Kënschtler geschaf.
Amplaz huet DALL-E 2, en neien AI System deen Textbeschreiwungen a Biller konvertéiere kann, se erstallt.
Schreift einfach op wat Dir wëllt gesinn, an d'AI wäert et fir Iech kreéieren - a liewege Detailer, super Qualitéit, an, an e puer Fäll, echt Erfindung. An dësem Post wäerte mir en déiwe Bléck op OpenAI's lescht Etude, DALL.E 2, wéi och wéi et funktionnéiert, a vill méi. Loosst eis ufänken.
Also, wat ass genau DALL.E 2?
DALL-E 2 ass e "generativen Modell", eng Zort Maschinn Léieren Algorithmus déi komplizéiert Output generéiert anstatt Prognose oder Klassifikatioun Aufgaben op Inputdaten auszeféieren.
Dir gitt DALL-E 2 mat enger schrëftlecher Beschreiwung, an et schaaft e Bild dat entsprécht. Andeems Konzepter, Qualitéiten a Stiler kombinéiert ginn, kann OpenAI's DALLE 2 innovativ, realistesch Grafiken a Konscht aus enger Basissproochlecher Beschreiwung produzéieren.
Déi lescht Versioun, DALLE 2, gëtt gesot datt se méi villsäiteg sinn, fäeg Biller aus Iwwerschrëften mat méi héijer Opléisungen an engem méi breede Spektrum vu kreativen Stiler ze maachen. Zum Beispill, d'Biller hei drënner (aus dem DALL-E 2 Blog Post) ginn duerch d'Beschreiwung "En Astronaut reiden op engem Päerd" erstallt.
Eng Beschreiwung schléisst of, "wéi e Bleistift Skizz", wärend déi aner ofschléisst, "op eng fotorealistesch Manéier."
Et kann och existéierend Fotoen mat erstaunlecher Präzisioun änneren. Also, Dir kënnt Elementer derbäisetzen oder läschen andeems Dir Faarwen, Reflexiounen a Schatten behalen, alles wärend d'Erscheinung vum Originalbild behalen.
Wéi heescht et schaffen?
DALL-E 2 mécht Gebrauch vun CLIP an Diffusioun Modeller, zwee sophistikéiert ze léieren Approche entwéckelt an de leschte Joeren. Wéi och ëmmer, et baséiert op der selwechter Notioun wéi all aner déif neural Netzwierker: Representatioun Léieren. CLIP Zich gläichzäiteg zwee neural Netzwierker op Biller an Ënnerschrëften.
Een Netzwierk léiert déi visuell Representatioune am Bild, während deen aneren d'Text Representatioune léiert. Wärend dem Training probéieren déi zwee Netzwierker hir Parameteren ze änneren sou datt vergläichbar Biller a Beschreiwunge zu ähnlechen Embeddings resultéieren.
"Diffusioun", eng Aart vu generativen Modell, dee léiert Biller ze maachen andeems se hir Trainingsproben graduell Kaméidi an denoiséieren, ass déi aner Maschinnléieren Approche déi am DALL-E 2 benotzt gëtt. embedding Representatioun a benotzt dann d'Ebeddinginformatioun fir d'Originaldaten nei ze kreéieren.
Benotzt OpenAI's Sproochmodell CLIP, deen Textbeschreiwunge mat Fotoen verbannen kann, iwwersetzt als éischt déi schrëftlech Ufro an eng Zwëschenform, déi déi entscheedend Eegeschaften enthält, déi e Bild sollt hunn, fir dës Ufro ze passen (no CLIP).
Zweetens, DALL-E 2 schaaft e CLIP-konform Bild mat engem Diffusiounsmodell, wat en neuralt Netzwierk ass.
Op verzerrte Fotoen mat zoufälleg Pixelen ginn Diffusiounsmodeller geléiert. Si léiere wéi d'Original Form vun de Fotoen ze restauréieren. Diffusiounsmodeller kënne qualitativ héichwäerteg synthetesch Biller produzéieren, besonnesch wann se a Verbindung mat enger guidéierender Approche benotzt ginn, déi d'Genauegkeet iwwer d'Diversitéit prioritéiert.
Als Konsequenz huet den Diffusioun Modell hëlt déi zoufälleg Pixelen a benotzt CLIP fir se an en neit Bild ze konvertéieren dat dem Wuertprompt entsprécht. Wéinst der Diffusiounskonzept kann DALL-E 2 méi héichopléisende Biller produzéieren wéi DALL-E.
DALL.E 2 benotzen Fall
An de leschten zwanzeg Joer, Computer Visioun Technologie ass vun enger einfacher Notioun zu engem groussen Duerchbroch fortgeschratt. Trotz dëse Fortschrëtter stellen Bild- an Objekterkennungsmodeller nach ëmmer bedeitend Hindernisser am Alldag. D'Feele vu Datesätz ass ee vun de bedeitendsten Nodeeler vun der Bilderkennung a Computervisioun. Well et en Datemangel op béide Säiten ass, ass d'Ausbildung vun Bilderkennungsmodeller fir 100 Prozent korrekt Resultater bal schwéier.
Glécklecherweis kann dem OpenAI säin neie Maschinnléieremodell d'Lück an der Technologie iwwerbrécken. DALLE 2 ass kapabel erstaunlech Biller ze generéieren baséiert op Textbeschreiwungen. Dës gefälscht Bildproduktioun kann Daten un Bilderkennungsmodeller ubidden op Basis vun hiren Ufuerderungen. D'Feele vun Daten ass e wesentleche Stoussblock fir Objekt- a Bildidentifikatioun.
An der digitaler Ära sinn Datensätz ubiquitär, awer mir sichen nach ëmmer no Ofkiirzungen fir den AI Modell ze fidderen, sou datt et gutt Resultater liwwert. Wéi och ëmmer, et ass net einfach e Bilderkennungsmodell ze trainéieren. Et erfuerdert eng grouss Zuel vun Datesätz mat klengen Differenzen, déi mir vläicht net fäeg sinn einfach ze recuperéieren.
Also, wat ass d'Äntwert: D'Äntwert ass DALLE 2. Den OpenAI Bildgenerator, mat senger Kapazitéit fir Biller aus Texter ze produzéieren an existéierend z'änneren, kann hëllefen, d'Lück ze iwwerbrécken. Dëst hëlleft bei der Generatioun vun zousätzlech Trainingsdaten, wärend och d'Quantitéit u mënschlech Etikettéierung reduzéiert. Trotz dem bedeitende Virdeel, sollt Dir Iech bewosst sinn iwwer betrügeresch Bildproduktiounen a Biller déi d'Inklusioun ausschléissen. Dëst kéint zu Bilddetektiounsmethoden féieren, déi biased Resultater produzéieren.
Beschränkungen
DALL.E 2 ka gutt e schiedlechen Afloss hunn, wann et an déi falsch Hänn fällt, laut OpenAI. An der heiteger Welt vun deep Fälschungen kann de Modell einfach benotzt ginn fir falsch Informatioun oder rassistesch Bildmaterial ze verbreeden, dofir erlaabt OpenAI d'Entwéckler nëmmen DALL.2 op Invitatioun ze benotzen. De Modell muss eng rigoréis Inhaltsbeschränkung erfëllen fir all Virschléi déi se kritt.
Fir d'Potenzial vun DALL.E 2 auszeschléissen, déi feindlech oder gewalteg Biller kreéieren, gouf d'Dateset ouni déidlech Waff erstallt. Wärend OpenAI huet uginn datt et plangt et an Zukunft an eng API ze transforméieren, am Fall vun DALL.E 2, ass et gewëllt mat Vorsicht virzegoen.
Konklusioun
DALL-E 2 ass eng aner interessant OpenAI Fuerschung Entdeckung déi d'Dier opmaacht fir nei Uwendungen.
E Beispill ass massiv Datesätz ze kreéieren fir ee vun den Haaptknäppchen vun Computer Visioun ze treffen - Daten. Wärend de wirtschaftleche Fall fir vill DALL-E-baséiert Apps duerch de Präis an d'Politik festgeluegt ginn, déi OpenAI fir seng API Benotzer feststellt, wäerte se all ouni Zweifel d'Bildproduktioun viraussoen.
Hannerlooss eng Äntwert