최근 몇 년 동안 딥 러닝 모델은 인간의 언어를 이해하는 데 더욱 효과적이 되었습니다.
다음과 같은 프로젝트를 생각하십시오. GPT-3, 이제 전체 기사와 웹사이트를 만들 수 있습니다. GitHub는 최근에 소개했습니다. GitHub 부조종사, 필요한 코드 유형을 간단히 설명하여 전체 코드 스니펫을 제공하는 서비스입니다.
OpenAI, Facebook 및 Google의 연구원들은 딥 러닝을 사용하여 이미지에 캡션을 추가하는 또 다른 작업을 처리하는 방법을 연구하고 있습니다. 수백만 개의 항목이 있는 대규모 데이터 세트를 사용하여 그들은 몇 가지를 생각해 냈습니다. 놀라운 결과.
최근에 이 연구원들은 캡션에서 이미지를 생성하는 반대 작업을 수행하려고 시도했습니다. 이제 설명에서 완전히 새로운 이미지를 생성할 수 있습니까?
이 가이드에서는 OpenAI의 DALL-E 2와 Google의 Imagen AI라는 두 가지 가장 진보된 텍스트-이미지 모델을 살펴봅니다. 이러한 각 프로젝트는 우리가 알고 있는 사회를 변화시킬 수 있는 획기적인 방법을 도입했습니다.
그러나 먼저 텍스트에서 이미지로의 생성이 무엇을 의미하는지 이해해 봅시다.
텍스트-이미지 생성이란 무엇입니까?
텍스트-이미지 모델 컴퓨터가 프롬프트에 따라 새롭고 고유한 이미지를 만들 수 있습니다. 이제 사람들은 생성하려는 이미지에 대한 텍스트 설명을 제공할 수 있으며 모델은 해당 설명과 최대한 일치하는 시각적 개체를 생성하려고 합니다.
기계 학습 모델은 성능을 더욱 향상시키기 위해 이미지-캡션 쌍이 포함된 대규모 데이터 세트의 사용을 활용했습니다.
대부분의 텍스트를 이미지로 모델은 변환기 언어 모델을 사용합니다. 프롬프트를 해석합니다. 이 유형의 모델은 신경망 자연어의 문맥과 의미론적 의미를 학습하려고 합니다.
다음으로 다음과 같은 생성 모델 확산 모델 생성적 적대 네트워크는 이미지 합성에 사용됩니다.
DALLE 2 란 무엇입니까?
달-이 2 는 2022년 XNUMX월에 출시된 OpenAI의 컴퓨터 모델입니다. 이 모델은 단어와 문구를 이미지에 연결하기 위해 레이블이 지정된 수백만 장의 사진 데이터베이스에서 훈련되었습니다.
사용자는 "라자냐를 먹는 고양이"와 같은 간단한 문구를 입력할 수 있으며 DALL-E 2는 문구가 설명하려는 내용을 자체적으로 해석합니다.
처음부터 이미지를 만드는 것 외에도 DALL-E 2는 기존 이미지를 편집할 수도 있습니다. 아래 예에서 DALL-E는 소파가 추가된 방의 수정된 이미지를 생성할 수 있었습니다.
DALL-E 2는 OpenAI가 지난 몇 년 동안 출시한 많은 유사한 프로젝트 중 하나일 뿐입니다. OpenAI의 GPT-3는 다양한 스타일의 텍스트를 생성하는 것처럼 보였을 때 뉴스 가치가 되었습니다.
현재 DALL-E 2는 아직 베타 테스트 중입니다. 관심 있는 사용자는 대기자 명단 그리고 액세스를 기다립니다.
그것은 어떻게 작동합니까?
DALL-E 2의 결과는 인상적이지만 모든 것이 어떻게 작동하는지 궁금할 것입니다.
DALL-E 2는 OpenAI의 GPT-3 프로젝트를 다중 모드로 구현한 예입니다.
첫째, 사용자의 텍스트 프롬프트는 프롬프트를 표현 공간에 매핑하는 텍스트 인코더에 배치됩니다. DALL-E 2는 CLIP(Contrastive Language-Image Pre-Training)이라는 또 다른 OpenAI 모델을 사용하여 자연어에서 의미론적 정보를 얻습니다.
다음으로 알려진 모델은 이전에 텍스트 인코딩을 이미지 인코딩으로 매핑합니다. 이 이미지 인코딩은 텍스트 인코딩 단계에서 발견된 의미 체계 정보를 캡처해야 합니다.
실제 이미지를 생성하기 위해 DALL-E 2는 이미지 디코더를 사용하여 의미 정보 및 이미지 인코딩 세부 정보를 사용하여 시각적 개체를 생성합니다. OpenAI는 수정된 버전을 사용합니다. 활주 이미지 생성을 수행하는 모델. 글라이드는 확산 모델 이미지를 생성합니다.
DALL-E 2 모델에 GLIDE를 추가하여 더욱 사실적인 출력이 가능해졌습니다. GLIDE 모델은 확률적이거나 무작위로 결정되기 때문에 DALL-E 2 모델은 모델을 반복해서 실행하여 쉽게 변형을 생성할 수 있습니다.
제한 사항
DALL-E 2 모델의 인상적인 결과에도 불구하고 여전히 몇 가지 한계에 직면해 있습니다.
맞춤법 텍스트
DALL-E 2가 텍스트를 생성하도록 시도하는 프롬프트는 단어 철자에 어려움이 있음을 나타냅니다. 전문가들은 철자 정보가 훈련 데이터 세트.
구성 추론
연구자들은 DALL-E 2가 여전히 구성 추론에 약간의 어려움이 있음을 관찰합니다. 간단히 말해 모델은 이미지의 개별 측면을 이해할 수 있지만 여전히 이러한 측면 간의 관계를 파악하는 데 어려움을 겪고 있습니다.
예를 들어, "파란색 큐브 위의 빨간색 큐브"라는 프롬프트가 주어지면 DALL-E는 파란색 큐브와 빨간색 큐브를 정확하게 생성하지만 올바르게 배치하지 못합니다. 이 모델은 또한 특정 수의 개체를 그려야 하는 프롬프트에 어려움이 있는 것으로 관찰되었습니다.
데이터세트의 편향
프롬프트에 다른 세부 정보가 포함되지 않은 경우 DALL-E는 백인 또는 서양인과 환경을 묘사하는 것으로 관찰되었습니다. 이 표현 편향은 데이터 세트에 서양 중심 이미지가 풍부하기 때문에 발생합니다.
이 모델은 또한 성별 고정관념을 따르는 것으로 관찰되었습니다. 예를 들어 "승무원"이라는 프롬프트를 입력하면 대부분 여성 승무원의 이미지가 생성됩니다.
Google Imagen AI란?
Google의 이미지 AI 입력 텍스트에서 사실적인 이미지를 만드는 것을 목표로 하는 모델입니다. DALL-E와 유사하게 이 모델은 변환기 언어 모델을 사용하여 텍스트를 이해하고 확산 모델을 사용하여 고품질 이미지를 생성합니다.
Imagen과 함께 Google은 DrawBench라는 텍스트-이미지 모델에 대한 벤치마크도 출시했습니다. DrawBench를 사용하여 그들은 인간 평가자가 DALL-E 2를 포함한 다른 모델보다 Imagen 출력을 선호한다는 것을 관찰할 수 있었습니다.
그것은 어떻게 작동합니까?
DALL-E와 유사하게 Imagen은 먼저 사용자 프롬프트를 정지된 텍스트 인코더를 통해 포함된 텍스트로 변환합니다.
Imagen은 노이즈 패턴을 이미지로 변환하는 방법을 학습하는 확산 모델을 사용합니다. 이러한 이미지의 초기 출력은 저해상도이며 나중에 최종 이미지의 해상도를 높이기 위해 초고해상도 확산 모델로 알려진 다른 모델을 통과합니다. 첫 번째 확산 모델은 64×64 픽셀 이미지를 출력하고 나중에 고해상도 1024×1024 이미지로 확대됩니다.
Imagen 팀의 연구에 따르면 텍스트 데이터에 대해서만 훈련된 대규모 동결 언어 모델은 여전히 텍스트-이미지 생성을 위한 매우 효과적인 텍스트 인코더입니다.
이 연구는 또한 동적 임계값의 개념을 소개합니다. 이 방법을 사용하면 이미지를 생성할 때 안내 가중치를 증가시켜 이미지를 보다 사실적으로 표시할 수 있습니다.
DALLE 2 대 Imagen의 성능
Google 벤치마크의 예비 결과에 따르면 인간 응답자는 DALL-E 2 및 Latent Diffusion 및 VQGAN+CLIP과 같은 기타 텍스트-이미지 모델보다 Imagen에서 생성된 이미지를 선호합니다.
Imagen 팀의 결과는 그들의 모델이 DALL-E 2 모델의 알려진 약점인 철자 텍스트에서 더 나은 성능을 보인다는 것을 보여주었습니다.
그러나 Google은 아직 이 모델을 대중에게 공개하지 않았기 때문에 Google의 벤치마크가 얼마나 정확한지는 아직 알 수 없습니다.
결론
사실적인 텍스트-이미지 모델의 부상은 이러한 모델이 비윤리적으로 사용되기 때문에 논란의 여지가 있습니다.
이 기술은 노골적인 콘텐츠를 생성하거나 허위 정보를 제공하는 도구로 사용될 수 있습니다. Google과 OpenAI의 연구원들은 이 사실을 알고 있으며, 이것이 부분적으로는 이러한 기술이 모든 사람이 여전히 액세스할 수 없는 이유입니다.
Text-to-image 모델은 또한 상당한 경제적 영향을 미칩니다. DALL-E와 같은 모델이 주류를 이루면 모델, 사진 작가, 예술가와 같은 직업이 영향을 받습니까?
현재 이러한 모델에는 여전히 제한 사항이 있습니다. AI가 생성한 이미지를 자세히 살펴보면 결함이 드러납니다. OpenAI와 Google이 가장 효과적인 모델을 놓고 경쟁하는 상황에서 진정으로 완벽한 출력물, 즉 실제와 구별할 수 없는 이미지가 생성되는 것은 시간 문제일 수 있습니다.
기술이 그렇게 발전하면 어떤 일이 일어날 것이라고 생각합니까?
댓글을 남겨주세요.