Índice analítico[Ocultar][Mostrar]
Os grandes modelos de texto a imaxe fixeron un avance significativo no desenvolvemento da IA ao producir unha síntese de imaxes diversificada e de alta calidade a partir dunha indicación de texto determinada.
Estes modelos son incapaces de sintetizar representacións únicas de suxeitos en varios escenarios ou de reproducir a aparencia dos suxeitos nun conxunto de referencia dado.
Tecnoloxías recentemente lanzadas como DALL.E2 de OpenAI ou StabilityAI Difusión estable e Midjourney xa están tomando internet por asalto. Agora é o momento de personalizar os resultados. Pero como?
Google DreamBooth AI chegou.
DreamBooth ten a capacidade de recoñecer o tema dunha imaxe, deconstruíla do seu contexto orixinal e, a continuación, sintetizala con precisión nun novo contexto desexado. Ademais, pódese usar cos xeradores de imaxes AI actuais.
Neste artigo, analizaremos en profundidade DreamBooth, o seu uso, o seu tutorial, as súas limitacións e moito máis.
Que é Dreambooth?
cabina de soños, un novo modelo de difusión de texto a imaxe, foi presentado por Google. Google DreamBooth AI pode usar unha indicación escrita como guía para xerar unha ampla gama de fotos do tema seleccionado polo usuario en diferentes configuracións.
Un grupo de investigación da Universidade de Boston e Google desenvolveu DreamBooth, unha técnica de vangarda para alterar modelos de texto a imaxe que foron sometidos a un amplo adestramento previo.
O concepto xeral é bastante sinxelo: queren aumentar o dicionario de visión lingüística de xeito que os ID de token pouco comúns estean asociados a temas personalizados que os usuarios poidan definir.
O obxectivo principal do modelo é conectar aos usuarios ao modelo de difusión texto a imaxe dándolles os recursos necesarios para producir representacións fotorrealistas das instancias da súa materia seleccionada.
Como consecuencia, esta técnica parece funcionar ben para resumir os desafíos nunha serie de situacións.
DreamBooth de Google difire das ferramentas anteriores de texto a imaxe, como DALL-E2, Difusión establee Media viaxe, xa que dá aos usuarios máis control sobre a imaxe do tema antes de deixar que manipulen o modelo de difusión mediante entradas baseadas en texto.
características
- DreamBooth AI pode mellorar un modelo de texto a imaxe con 3-5 imaxes.
- As fotos fotorrealistas orixinais pódense crear con DreamBooth AI.
- Ademais, a IA DreamBooth pode crear fotos dun tema desde varios ángulos.
aplicación
Representacións artísticas
Esta tarefa difire específicamente da transferencia de estilo, que mantén a semántica da escena fonte ao tempo que incorpora o estilo doutra imaxe á escena orixinal.
Baseándose no enfoque creativo, a IA pode realizar alteracións significativas da escena mantendo a identificación e as especificidades da instancia do tema.
Modificación da propiedade
DreamBooth AI pode modificar as características da instancia do asunto.
Accesorios
A forte composición anterior ao modelo de xeración é o que fai que a capacidade de DreamBooth AI para adornar obxectos sexa tan interesante.
Recontextualización
DreamBooth AI pode producir imaxes distintivas para unha determinada instancia de suxeito dándolle a un modelo adestrado unha frase que inclúa o identificador único e o substantivo da clase.
Pode xerar o suxeito en posturas, articulacións e estrutura da escena únicas e inéditas antes en lugar de cambiar o entorno. Reflexos e sombras realistas, así como interaccións entre o suxeito e os obxectos circundantes.
Tutorial de Dreambooth
Neste tutorial, imos seguir o Caderno de Google Collab, e vouche guiar por el, o que fará que o entendas e o uses por ti mesmo.
Configurando GPU e instalando bibliotecas
Descubrir que tipos de GPU e VRAM están dispoñibles é o primeiro paso. Tamén é necesario instalar algúns requisitos e dependencias. Só tes que premer o botón de reprodución e agardar a que remate.
Crea unha conta en Huggingface e xera un token
O seguinte paso é rexistrarse para crear unha conta de Huggingface. Cando remates, fai clic en Configuración na esquina superior dereita. Chegarás á páxina seguinte.
Crea o token e o nome tal e como se solicita desde aquí. O token debe copiarse e pegarse na colaboración de Google na cela de abaixo.
Instalar xformers
Nesta fase, pode simplemente premer o botón de reprodución para instalar xformers facendo clic no tempo de execución.
Conéctate a Drive
Agora só tes que executar esta cela para conectarte a Google Drive.
Introduza a solicitude
Na seguinte cela, só tes que introducir a solicitude.
Cargando imaxes
Neste paso, só tes que cargar as imaxes que querías adestrar.
Adestrar modelo AI
Esta é a fase máis importante, xa que empregarás DreamBooth para adestrar un novo modelo de IA baseado en todas as túas fotografías de referencia enviadas. Debe limitar a súa atención a dous campos de entrada. "—instance prompt" é o primeiro parámetro. Debes proporcionar aquí un nome moi distinto.
O argumento '–lista de conceptos' é o segundo campo de entrada crítico. Debe cambiarse o nome para que coincida co usado na sección "Cambiar a solicitude".
Xera imaxes AI
As imaxes de AI crearanse nesta fase, onde podes introducir as instrucións de texto.
Limitacións de Dreambooth
- O símbolo do sistema convértese nunha barreira para facer iteracións no tema con altos graos de detalle. DreamBooth pode cambiar o contexto do suxeito, pero se o modelo quere cambiar o propio tema, hai problemas co cadro.
- Outro problema é a sobreadaptación da imaxe de saída á imaxe de entrada. Se non se proporcionan suficientes imaxes, o tema pode non ser considerado ou mesturado co contexto das imaxes enviadas. Cando se pregunta un contexto para unha xeración estraña, ocorre o mesmo.
Conclusión
Para producir saídas a partir dunha única entrada de texto, a maioría dos modelos de texto a imaxe requiren millóns de parámetros e bibliotecas.
DreamBooth simplifica a adquisición e o uso de contido para os consumidores ao precisar só a entrada de tres a cinco fotografías temáticas xunto cun fondo textual.
Deixe unha resposta