초보자를 위한 Dreambooth 튜토리얼

차례[숨다][보여 주다]

드림부스란?
특징
어플리케이션+-
드림부스 튜토리얼+-
드림부스 제한 사항
결론

대형 텍스트-이미지 모델은 주어진 텍스트 프롬프트에서 고품질의 다양한 그림 합성을 생성함으로써 AI 개발에서 상당한 발전을 이루었습니다.

이러한 모델은 다양한 설정에서 피험자의 고유한 표현을 합성하거나 주어진 참조 집합에서 피험자의 모양을 복제할 수 없습니다.

OpenAI의 DALL.E2 또는 StabilityAI와 같은 새로 출시된 기술 안정적인 확산 Midjourney는 이미 인터넷에 폭풍을 일으키고 있습니다. 이제 결과를 사용자 정의할 때입니다. 그러나 어떻게?

Google DreamBooth AI가 도착했습니다.

DreamBooth는 그림의 주제를 인식하고 원본 컨텍스트에서 분해한 다음 원하는 새로운 컨텍스트로 정확하게 합성하는 기능이 있습니다. 또한 현재 AI 사진 생성기와 함께 사용할 수 있습니다.

이 기사에서는 DreamBooth, 사용법, 자습서, 제한 사항 등을 자세히 살펴보겠습니다.

드림부스란?

드림부스, 완전히 새로운 텍스트-이미지 확산 모델이 Google에서 발표되었습니다. Google DreamBooth AI는 서면 프롬프트를 지침으로 사용하여 다양한 설정에서 사용자가 선택한 주제의 광범위한 사진을 생성할 수 있습니다.

Boston University와 Google의 연구 그룹은 광범위한 사전 교육을 거친 텍스트-이미지 모델을 변경하는 최첨단 기술인 DreamBooth를 개발했습니다.

전반적인 개념은 다소 간단합니다. 사용자가 정의할 수 있는 사용자 정의 주제와 고유한 토큰 ID가 연결되도록 언어 비전 사전을 늘리기를 원합니다.

모델의 주요 목표는 사용자를 연결하는 것입니다. 텍스트-이미지 확산 모델 선택한 주제의 사례를 사실적으로 표현하는 데 필요한 리소스를 제공합니다.

결과적으로 이 기술은 다양한 상황에서 문제를 요약하는 데 잘 작동하는 것 같습니다.

Google의 DreamBooth는 다음과 같은 이전 텍스트-이미지 도구와 다릅니다. 달-이 2, 안정적인 확산및 중도, 사용자가 텍스트 기반 입력을 사용하여 확산 모델을 조작할 수 있게 하기 전에 주제 이미지를 더 많이 제어할 수 있습니다.

특징

DreamBooth AI는 3-5개의 이미지로 텍스트-이미지 모델을 개선할 수 있습니다.
DreamBooth AI로 사실적인 원본 사진을 만들 수 있습니다.
또한 DreamBooth AI는 여러 각도에서 주제의 사진을 만들 수 있습니다.

어플리케이션

예술 작품

이 작업은 원본 장면의 의미를 유지하면서 다른 이미지의 스타일을 원본 장면에 통합하는 스타일 전송과 특히 다릅니다.

아트 렌디션

창의적인 접근 방식을 기반으로 AI는 식별 및 주제 인스턴스 특성을 유지하면서 중요한 장면 변경을 수행할 수 있습니다.

속성 수정

대상 인스턴스의 특성은 DreamBooth AI에 의해 수정될 수 있습니다.

속성 수정

액세서리

생성 모델 이전의 강력한 구성은 DreamBooth AI의 개체 장식 기능을 흥미롭게 만드는 것입니다.

액세서리

재맥락화

DreamBooth AI는 훈련된 모델에 고유 식별자와 클래스 명사가 포함된 문장을 제공하여 특정 주제 인스턴스에 대해 고유한 이미지를 생성할 수 있습니다.

재맥락화

주변 환경을 바꾸는 것이 아니라 이전에 들어본 적 없는 독특한 자세, 관절 및 장면 구조로 주제를 생성할 수 있습니다. 사실적인 반사와 그림자, 피사체와 주변 물체 간의 상호 작용.

드림부스 튜토리얼

이 튜토리얼에서는 다음을 따릅니다. 구글 콜라보 노트북, 그리고 나는 당신이 그것을 이해하고 스스로 사용할 수 있도록 당신을 안내할 것입니다.

GPU 설정 및 라이브러리 설치

사용 가능한 GPU 및 VRAM 종류를 찾는 것이 첫 번째 단계입니다. 몇 가지 요구 사항과 종속성을 설치하는 것도 필요합니다. 재생 버튼을 누르고 완료될 때까지 기다리기만 하면 됩니다.

GPU 설정 및 라이브러리 설치

Huggingface 계정 생성 및 토큰 생성

다음 단계는 Huggingface 계정을 등록하는 것입니다. 완료되면 오른쪽 상단 모서리에 있는 설정을 클릭합니다. 다음 페이지에 도착합니다.

포옹하는 얼굴 토큰

여기에서 요청한 대로 토큰과 이름을 만듭니다. 토큰은 아래 셀의 Google 공동 작업에 복사하여 붙여넣어야 합니다.

Google Colab의 토큰

xformers 설치

이 단계에서 실행 버튼을 클릭하여 xformers를 설치하려면 재생 버튼을 누르기만 하면 됩니다.

Xformers 설치

드라이브에 연결

이제 이 셀을 실행하여 Google 드라이브에 연결하기만 하면 됩니다.

드라이브에 연결

프롬프트를 입력하세요

다음 셀에는 프롬프트를 입력하기만 하면 됩니다.

프롬프트를 입력

사진 업로드

이 단계에서는 훈련하려는 사진을 업로드하기만 하면 됩니다.

이 셀에 이미지를 업로드할 수 있습니다.

AI 모델 학습

제출된 모든 참조 사진을 기반으로 새 AI 모델을 교육하기 위해 DreamBooth를 활용하게 되므로 이것은 가장 중요한 단계입니다. 두 개의 입력 필드에 주의를 기울여야 합니다. "—인스턴스 프롬프트"는 첫 번째 매개변수입니다. 여기에 매우 고유한 이름을 제공해야 합니다.

'–concept list' 인수는 두 번째 중요한 입력 필드입니다. '프롬프트 변경' 섹션에서 사용한 것과 일치하도록 이름을 바꿔야 합니다.

AI 모델 교육

AI 이미지 생성

이 단계에서 AI 그림이 생성되며 텍스트 지침을 입력할 수 있습니다.

AI 이미지 생성

드림부스 제한 사항

명령 프롬프트는 높은 수준의 세부 사항으로 항목을 반복하는 데 장애가 됩니다. DreamBooth는 피사체의 컨텍스트를 변경할 수 있지만 모델이 피사체 자체를 변경하려는 경우 프레임에 문제가 있습니다.
또 다른 문제는 출력 그림을 입력 이미지에 과적합하는 것입니다. 제공된 사진이 충분하지 않은 경우 주제가 고려되지 않거나 제출된 이미지의 컨텍스트와 혼합될 수 있습니다. 홀수 세대에 대한 컨텍스트를 물으면 동일한 일이 발생합니다.

결론

단일 텍스트 입력에서 출력을 생성하려면 대량의 텍스트-이미지 모델에 수백만 개의 매개변수와 라이브러리가 필요합니다.

DreamBooth는 텍스트 배경과 함께 XNUMX~XNUMX개의 주제 사진을 입력하기만 하면 되므로 소비자의 콘텐츠 획득 및 사용을 단순화합니다.

초보자를 위한 Dreambooth 튜토리얼

드림부스란?

특징