Table di cuntinutu[Piattà][Mostra]
Grandi mudelli testu-à-imaghjini anu fattu un avanzamentu significativu in u sviluppu di l'IA, pruduciendu sintesi di stampa di alta qualità è diversificata da un promptatu di testu.
Questi mudelli ùn sò micca capaci di sintetizà rappresentazioni uniche di sughjetti in diversi paràmetri o di riplicà l'apparizione di sugetti in un determinatu settore di riferimentu.
Tecnulugii recentemente liberati cum'è DALL.E2 di OpenAI o StabilityAI Diffusione stabile è Midjourney sò digià pigliatu l'internet per tempesta. Hè ora di persunalizà i risultati. Eppuru cumu?
Google DreamBooth AI hè ghjuntu.
DreamBooth hà a capacità di ricunnosce u tema di una stampa, deconstruisce da u so cuntestu originale, è poi sintetizà precisamente in un novu cuntestu desideratu. Inoltre, pò esse usatu cù generatori di stampa AI attuali.
In questu articulu, avemu da piglià un ochju prufondu à DreamBooth, u so usu, u so tutoriale, i so limitazioni, è assai di più.
Cosa hè Dreambooth?
sognu, un novu mudellu di diffusione testu-à-imagine, hè statu prisentatu da Google. Un promptatu scrittu pò esse usatu cum'è guida da Google DreamBooth AI per generà una larga gamma di foto di u sughjettu sceltu da l'utilizatore in diverse paràmetri.
Un gruppu di ricerca di l'Università di Boston è Google hà sviluppatu DreamBooth, una tecnica di punta per l'alterazione di mudelli testu-à-imaghjini chì anu sottumessu una pre-formazione estensiva.
U cuncettu generale hè piuttostu simplice: volenu aumentà u dizziunariu di visione di lingua in modu chì l'ID di token pocu cumuni sò assuciati cù temi persunalizati chì l'utilizatori ponu definisce.
U scopu principale di u mudellu hè di cunnette l'utilizatori à u mudellu di diffusione testu-à-imagine dendu e risorse chì anu bisognu à pruduce rapprisintazioni fotorealistiche di i casi di u so sughjettu sceltu.
In cunsiquenza, sta tecnica pare travaglià bè per riassume e sfide in una varietà di situazioni.
DreamBooth di Google difiere da i strumenti di testu à l'imaghjini precedenti, cum'è DALL-E2, Diffusione stabile, e A mità di viaghju, In quantu dà l'utilizatori più cuntrollu di l'imaghjini di u tema prima di lascià à manipulà u mudellu di diffusione utilizendu inputs basati in testu.
Features
- DreamBooth AI puderia migliurà un mudellu testu à imagine cù 3-5 imagine.
- E foto fotorealistiche originali ponu esse create cù DreamBooth AI.
- Inoltre, u DreamBooth AI pò creà ritratti di un tema da parechje anguli.
Candidatura
Rendizioni d'arte
Stu compitu difiere specificamente da u trasferimentu di stile, chì mantene a semantica di a scena fonte mentre incorpore l'stile d'una altra maghjina in a scena originale.
Basatu annantu à l'approcciu creativo, l'IA pò realizà alterazioni di scena significativu mantenendu l'identificazione è e specificità di l'istanza di u tema.
Mudificazione di pruprietà
E caratteristiche di l'istanza di u sughjettu ponu esse mudificate da DreamBooth AI.
Accessorizazione
A forte cumpusizioni prima di u mudellu di generazione hè ciò chì rende l'abilità di DreamBooth AI per adornà l'ogetti cusì interessanti.
Ricontextualizazione
DreamBooth AI pò pruduce imaghjini distintivi per una certa istanza di sughjettu dendu à un mudellu furmatu una frase chì include l'identificatore unicu è u nomu di classa.
Puderà generà u sughjettu in posture, articulazioni è struttura di scena uniche, prima inaudite, invece di cambià l'ambienti. Riflessi realistichi è ombre, è ancu interazzione trà u sughjettu è l'uggetti circundante.
Tutorial di Dreambooth
In questu tutoriale, seguiteremu Notebook Google Collab, è ti camineraghju attraversu, chì vi farà capisce è aduprà per sè stessu.
Configurazione di GPU è installazione di librerie
U primu passu hè di scopre chì tipi di GPU è VRAM sò dispunibili. Installà uni pochi di esigenze è dipendenze hè ancu necessariu. Basta à appughjà u buttone di riproduzione, dopu aspittà chì finisci.
Crea un contu in Huggingface è genera un token
U prossimu passu hè di registrà per un contu Huggingface. Quandu avete finitu, cliccate nantu à i paràmetri in l'angulu superiore dirittu. Arrivà à a pagina dopu.
Crea u token è u nome cum'è dumandatu da quì. U token deve esse copiatu è incollatu in u Google collab in a cellula sottu.
Installa xformers
In questa tappa, pudete simpricimenti appughjà u buttone di ghjocu per installà xformers clicchendu nantu à u runtime.
Cunnette à Drive
Avà, basta à eseguisce sta cellula per cunnette à Google Drive.
Entre in u prompt
In a cellula seguente, vi basta à entre in u prompt.
Caricà ritratti
In stu passu, vi basta à carica i ritratti vo vulete furmà.
Train AI mudellu
Questa hè a fase più impurtante, postu chì avete aduprà DreamBooth per furmà un novu mudellu AI basatu annantu à tutte e vostre ritratti di riferimentu sottumessi. Duvete limità a vostra attenzione à dui campi di input. "—instance prompt" hè u primu paràmetru. Duvete furnisce un nome assai distintu quì.
L'argumentu "-lista di cuncetti" hè u sicondu campu di input criticu. Deve esse rinominatu per currisponde à quellu utilizatu in a sezione "Cambia u prompt".
Genera imagine AI
L'imaghjini AI seranu creati in questu stadiu, induve pudete inserisce l'istruzzioni di testu.
Limitazioni di Dreambooth
- U prompt di cumanda diventa una barriera per fà iterazioni in u tema cù alti gradi di dettagliu. DreamBooth pò cambià u cuntestu di u sughjettu, ma se u mudellu vole cambià u sughjettu stessu, ci sò prublemi cù u quadru.
- Un altru prublema hè l'overfitting di l'immagine di output à l'imagine di input. Se ùn ci sò micca abbastanza stampe furnite, u sughjettu pò esse micca cunsideratu o pò esse mischiatu cù u cuntestu di l'imaghjini sottumessi. Quandu si dumanda un cuntestu per una generazione strana, a listessa cosa passa.
cunchiusioni
Per pruduce outputs da una sola input di testu, a maiò parte di mudelli di testu à imagine necessitanu milioni di parametri è biblioteche.
DreamBooth simplifica l'acquisizione di u cuntenutu è l'utilizazione per i cunsumatori esigendu solu l'input di trè à cinque ritratti di tema cun un fondo testuale.
Lascia un Audiolibro