차례[숨다][보여 주다]
당신은 컴퓨터가 그림을 설명할 수 있다는 것을 알고 있을 것입니다.
예를 들어, 아이들과 놀고 있는 개의 그림은 '정원의 개와 아이들'로 번역될 수 있습니다. 하지만 이제 그 반대의 방법도 가능하다는 것을 알고 계셨습니까? 단어를 입력하면 기계가 새로운 그림을 생성합니다.
기존 사진을 검색하는 구글 검색과 달리 이 모든 것이 신선하다. 최근 몇 년 동안 OpenAI는 놀라운 결과를 보고하는 선도적인 조직 중 하나였습니다.
그들은 방대한 텍스트 및 그림 데이터베이스에서 알고리즘을 훈련합니다. 그들은 수억 장의 사진으로 훈련된 GLIDE 이미지 모델에 대한 논문을 발표했습니다. 사실감 측면에서 이전 'DALL-E' 모델보다 성능이 뛰어납니다.
이 게시물에서는 텍스트 안내 확산 모델을 사용하여 사실적인 그림을 생성하고 변경하는 것을 목표로 하는 몇 가지 매력적인 이니셔티브 중 하나인 OpenAI의 GLIDE를 살펴보겠습니다. 의 시작하자.
AI 글라이드 열기?
대부분의 이미지는 말로 설명할 수 있지만 텍스트 입력에서 이미지를 생성하려면 전문 지식과 상당한 시간이 필요합니다.
AI 에이전트가 자연어 프롬프트에서 사실적인 그림을 생성하도록 허용하면 사람들이 전례 없이 쉽게 풍부하고 다양한 시각적 자료를 생성할 수 있을 뿐만 아니라 생성된 이미지를 더 간단하게 반복적으로 개선하고 세밀하게 제어할 수 있습니다.
GLIDE를 사용하면 자연어 텍스트 프롬프트를 활용하여 새 개체를 삽입하고, 그림자와 반사를 만들고, 수행하여 기존 사진을 편집할 수 있습니다. 이미지 인페인팅, 등등.
또한 기본 선 도면을 사실적인 사진으로 변환할 수 있으며 복잡한 상황에 대한 탁월한 제로 샘플 제조 및 수리 기능을 갖추고 있습니다.
최근 연구에 따르면 우도 기반 확산 모델은 특히 다양성과 충실도의 균형을 맞추는 안내 접근 방식과 결합할 때 고품질 합성 사진을 생성할 수 있음이 입증되었습니다.
OpenAI는 유도 확산 모델 XNUMX월에 확산 모델이 분류기의 레이블에 따라 조건부로 허용됩니다. GLIDE는 텍스트 조건부 이미지 생성 문제에 가이드 확산을 도입하여 이러한 성공을 개선합니다.
자연어 설명에 대한 조건을 지정하기 위해 텍스트 인코더를 사용하여 3.5억 개의 매개변수 GLIDE 확산 모델을 교육한 후 연구원은 CLIP 안내 및 분류자 없는 안내라는 두 가지 대안 안내 전략을 테스트했습니다.
CLIP은 이미지가 캡션에 얼마나 가까운지에 따라 점수를 제공하는 텍스트와 그림의 공동 표현을 학습하기 위한 확장 가능한 기술입니다.
팀은 분류자를 모델을 "안내"하는 CLIP 모델로 대체하여 확산 모델에서 이 전략을 사용했습니다. 한편, 분류기 없는 안내는 별도의 분류기 훈련을 포함하지 않는 확산 모델을 지시하는 전략입니다.
글라이드 아키텍처
GLIDE 아키텍처는 64 × 64 이미지를 생성하도록 훈련된 ADM(Ablated Diffusion Model), 텍스트 프롬프트를 통해 이미지 생성에 영향을 미치는 텍스트 모델(변환기), 작은 64 × 64 이미지를 더 해석하기 쉬운 256 x 256 픽셀로 변환하는 업샘플링 모델의 세 가지 구성 요소로 구성됩니다.
처음 두 구성 요소는 함께 작동하여 그림 생성 프로세스를 제어하여 텍스트 프롬프트를 적절하게 반영하고 후자는 우리가 만든 이미지를 이해하기 쉽게 만드는 데 필요합니다. GLIDE 프로젝트는 2021년에 발간된 보고서 ADM 기술이 현재 널리 사용되는 최신 생성 모델보다 그림 샘플 품질 측면에서 더 우수함을 보여주었습니다.
ADM의 경우 GLIDE 작성자는 Dhariwal 및 Nichol과 동일한 ImageNet 64 x 64 모델을 사용했지만 512개 대신 64개 채널을 사용했습니다. 그 결과 ImageNet 모델에는 약 2.3억 개의 매개변수가 있습니다.
GLIDE 팀은 Dhariwal 및 Nichol과 달리 그림 생성 프로세스를 보다 직접적으로 제어하기를 원했기 때문에 시각적 모델을 주의 활성화 변환기와 결합했습니다. GLIDE는 텍스트 입력 프롬프트를 처리하여 프로세스 출력을 생성하는 그림에 대한 일부 제어를 제공합니다.
이는 사진 및 캡션의 적절하게 큰 데이터 세트(DALL-E 프로젝트에서 사용된 것과 유사)에서 변환기 모델을 교육함으로써 달성됩니다.
텍스트는 처음에 조건을 지정하기 위해 일련의 K 토큰으로 인코딩됩니다. 그런 다음 토큰이 변환기 모델에 로드됩니다. 그런 다음 변압기의 출력을 두 가지 방식으로 사용할 수 있습니다. ADM 모델의 경우 클래스 임베딩 대신 최종 토큰 임베딩이 활용됩니다.
둘째, 토큰 임베딩의 최종 레이어(일련의 특징 벡터)는 ADM 모델의 각 주의 레이어에 대한 차원에 독립적으로 투영되고 각 주의 컨텍스트에 연결됩니다.
실제로 이를 통해 ADM 모델은 입력 단어 및 관련 이미지에 대한 학습된 이해를 기반으로 독특하고 사실적인 방식으로 유사한 텍스트 토큰의 새로운 조합으로부터 그림을 생성할 수 있습니다. 이 텍스트 인코딩 변환기는 1.2억 개의 매개변수를 포함하고 너비가 24인 2048개의 남은 블록을 사용합니다.
마지막으로, 업샘플러 확산 모델은 약 1.5억 개의 매개변수를 포함하며 기본 모델에 비해 텍스트 인코더가 더 작고 너비가 1024개이고 기본 채널이 384개라는 점에서 기본 모델과 다릅니다. 이 모델은 이름에서 알 수 있듯이 기계와 인간 모두에 대한 해석 가능성을 향상시키기 위해 샘플 업그레이드를 돕습니다.
확산 모델
GLIDE는 자체 버전의 ADM("가이드"의 경우 ADM-G)을 사용하여 이미지를 생성합니다. ADM-G 모델은 확산 U-net 모델을 수정한 것입니다. 확산 U-net 모델은 VAE, GAN 및 변환기와 같은 보다 일반적인 이미지 합성 기술과 크게 다릅니다.
그들은 확산 단계의 Markov 체인을 구축하여 무작위 노이즈를 데이터에 점차적으로 주입한 다음 확산 프로세스를 역전시키고 노이즈만으로 필요한 데이터 샘플을 재구성하는 방법을 배웁니다. 순방향 및 역방향 확산의 두 단계로 작동합니다.
샘플의 실제 분포에서 데이터 포인트가 제공된 순방향 확산 방법은 미리 설정된 일련의 단계를 통해 샘플에 소량의 노이즈를 추가합니다. 단계의 크기가 증가하고 무한대에 가까워지면 샘플에서 인식할 수 있는 모든 특성이 손실되고 시퀀스가 등방성 가우시안 곡선과 유사해지기 시작합니다.
역확산 중 위상, 확산 모델 추가된 노이즈가 사진에 미치는 영향을 역전시키는 방법을 배우고 원래 입력 샘플 분포를 닮으려고 시도하여 생성된 이미지를 원래 모양으로 되돌립니다.
완성된 모델은 실제 가우시안 노이즈 입력과 프롬프트로 그렇게 할 수 있습니다. ADM-G 방법은 CLIP 또는 맞춤형 변환기와 같은 모델이 입력된 텍스트 프롬프트 토큰을 사용하여 역방향 확산 단계에 영향을 미친다는 점에서 이전 방법과 다릅니다.
활공 기능
1. 이미지 생성
GLIDE의 가장 대중적이고 널리 사용되는 용도는 아마도 이미지 합성일 것입니다. 사진은 평범하고 GLIDE는 동물/인간 형태에 어려움이 있지만 원샷 이미지 제작의 가능성은 거의 무한합니다.
동물, 유명인, 풍경, 건물 등의 사진을 만들 수 있으며 다양한 예술 스타일과 사실적인 사진을 만들 수 있습니다. 연구원의 저자는 GLIDE가 아래 샘플에서 볼 수 있는 것처럼 다양한 텍스트 입력을 해석하고 시각적 형식으로 조정할 수 있다고 주장합니다.
2. 글라이드 인페인팅
GLIDE의 자동 사진 인페인팅은 아마도 가장 매력적인 용도일 것입니다. GLIDE는 기존 사진을 입력으로 가져오고 변경해야 하는 위치에 대해 텍스트 프롬프트를 염두에 두고 처리한 다음 해당 부분을 쉽게 수정할 수 있습니다.
더 나은 결과를 얻으려면 SDEdit와 같은 편집 모델과 함께 사용해야 합니다. 미래에는 이와 같은 기능을 활용하는 앱이 코드 없는 사진 변경 접근 방식을 개발하는 데 중요할 수 있습니다.
결론
이제 프로세스를 살펴보았으므로 GLIDE 작동 방식의 기본 사항과 그림 생성 및 이미지 내 수정 기능의 폭을 파악해야 합니다.
댓글을 남겨주세요.