차례[숨다][보여 주다]
새롭고 향상된 AI는 능력, 이해력, 고해상도 이미지 생성 능력을 향상시켰습니다. 최근에 인터넷에 떠도는 이상하고 재미있는 이미지를 접했을 수 있습니다.
시바견은 베레모와 검은색 터틀넥을 입고 있습니다. 그리고 네덜란드 화가 베르메르의 '진주 귀걸이를 한 소녀'를 본뜬 해달. 그리고 털복숭이 괴물처럼 보이는 수프 컵이 있습니다.
이 이미지 인간 예술가가 만들지 않았습니다.
대신 텍스트 설명을 이미지로 변환할 수 있는 새로운 AI 시스템인 DALL-E 2가 만들어졌습니다.
보고 싶은 것을 기록하기만 하면 AI가 생생한 세부 사항, 뛰어난 품질, 경우에 따라 진정한 창의성으로 그것을 만들어 드립니다. 이 게시물에서는 OpenAI의 최신 연구인 DALL.E 2와 작동 방식 등을 자세히 살펴보겠습니다. 시작하자.
그래서 정확히 무엇입니까 달이 2?
DALL-E 2는 입력 데이터에 대해 예측 또는 분류 작업을 수행하는 대신 복잡한 출력을 생성하는 일종의 기계 학습 알고리즘인 "생성 모델"입니다.
DALL-E 2에 서면 설명을 제공하면 그에 해당하는 그림이 생성됩니다. 개념, 품질 및 스타일을 결합하여 OpenAI의 DALLE 2는 기본 언어 설명에서 혁신적이고 사실적인 그래픽과 예술을 생성할 수 있습니다.
최신 버전인 DALLE 2는 더 높은 해상도와 더 넓은 범위의 창의적인 스타일로 캡션에서 사진을 만들 수 있는 더 다재다능하다고 합니다. 예를 들어, 아래 사진(DALL-E 2 블로그 게시물에서)은 "말을 탄 우주 비행사"라는 설명으로 만들어졌습니다.
하나의 설명은 "연필 스케치처럼" 결론을 내리는 반면, 다른 하나는 "사실적인 방식으로" 결론을 내립니다.
또한 기존 사진을 놀랍도록 정밀하게 변경할 수 있습니다. 따라서 원본 이미지의 모양을 유지하면서 색상, 반사 및 그림자를 유지하면서 요소를 추가하거나 삭제할 수 있습니다.
어떻게 진행합니까?
DALL-E 2는 CLIP 및 확산 모델을 사용합니다. 두 가지 정교한 깊은 학습 최근 몇 년 동안 개발된 접근 방식. 그러나 그것은 다른 모든 깊은 곳과 동일한 개념을 기반으로합니다. 신경망: 표현 학습. CLIP은 동시에 XNUMX개 훈련 신경망 사진과 캡션에.
한 네트워크는 그림의 시각적 표현을 학습하고 다른 네트워크는 텍스트 표현을 학습합니다. 훈련 중에 두 네트워크는 매개변수를 수정하여 비교 가능한 그림과 설명이 유사한 임베딩을 생성하도록 시도합니다.
훈련 샘플을 점진적으로 노이즈 및 노이즈 제거하여 그림을 만드는 방법을 학습하는 생성 모델 유형인 "확산"은 DALL-E 2에서 사용되는 또 다른 기계 학습 접근 방식입니다. 확산 모델은 입력 데이터를 임베딩 표현을 사용한 다음 임베딩 정보를 사용하여 원본 데이터를 재생성합니다.
OpenAI 사용 언어 모델 텍스트 설명을 사진과 연결할 수 있는 CLIP은 먼저 서면 프롬프트를 그림이 해당 프롬프트와 일치해야 하는 중요한 속성을 통합하는 중간 형식으로 변환합니다(CLIP에 따르면).
둘째, DALL-E 2는 CLIP 호환 확산 모델을 사용한 이미지, 신경망입니다.
임의의 픽셀이 있는 왜곡된 사진에서 확산 모델이 학습됩니다. 사진의 원래 형태를 복원하는 방법을 배웁니다. 확산 모델은 특히 다양성보다 정확성을 우선시하는 안내 접근 방식과 함께 사용할 때 고품질 합성 이미지를 생성할 수 있습니다.
그 결과, 확산 모델 임의의 픽셀을 가져와 CLIP을 사용하여 단어 프롬프트와 일치하는 새 이미지로 변환합니다. 확산 개념으로 인해 DALL-E 2는 DALL-E보다 더 빠르게 고해상도 이미지를 생성할 수 있습니다.
DALL.E 2 사용 사례
지난 XNUMX년 동안, 컴퓨터 비전 기술은 단순한 개념에서 주요 혁신으로 발전했습니다. 이러한 발전에도 불구하고 사진 및 물체 인식 모델은 여전히 일상 생활에서 상당한 장애물에 직면해 있습니다. 데이터 세트의 부재는 이미지 인식 및 컴퓨터 비전의 가장 중요한 단점 중 하나입니다. 양쪽 끝에 데이터가 부족하기 때문에 100% 정확한 결과를 제공하도록 이미지 인식 모델을 교육하는 것은 거의 어렵습니다.
다행히 OpenAI의 새로운 기계 학습 모델은 기술 격차를 해소할 수 있습니다. DALLE 2는 텍스트 설명을 기반으로 놀라운 그림을 생성할 수 있습니다. 이 가짜 사진 제작은 요구 사항에 따라 이미지 인식 모델에 데이터를 제공할 수 있습니다. 데이터의 부재는 물체 및 사진 식별에 있어 중요한 걸림돌입니다.
디지털 시대에 데이터 세트는 유비쿼터스이지만 우리는 여전히 AI 모델을 제공할 수 있는 지름길을 찾고 있으므로 좋은 결과를 제공할 수 있습니다. 그러나 이미지 인식 모델을 훈련시키는 것은 간단하지 않습니다. 그것은 우리가 간단히 검색할 수 없었을 수도 있는 약간의 차이를 가진 많은 수의 데이터 세트를 필요로 합니다.
답은 무엇입니까? 답은 DALLE 2입니다. 텍스트에서 이미지를 생성하고 기존 이미지를 변경할 수 있는 OpenAI 그림 생성기는 격차를 줄이는 데 도움이 될 수 있습니다. 이는 추가 교육 데이터 생성에 도움이 되는 동시에 필요한 수동 라벨링의 양을 줄이는 데 도움이 됩니다. 상당한 이점에도 불구하고 사기성 이미지 제작 및 포함을 제외하는 이미지에 대해 알고 있어야 합니다. 이는 편향된 결과를 생성하는 이미지 감지 방법으로 이어질 수 있습니다.
제한 사항
OpenAI에 따르면 DALL.E 2가 잘못된 손에 들어가면 해로운 영향을 미칠 수 있습니다. 오늘날의 딥 페이크 세계에서 모델은 잘못된 정보나 인종 차별적 이미지를 퍼뜨리는 데 쉽게 사용될 수 있습니다. 따라서 OpenAI는 개발자가 초대를 통해서만 DALL.2를 사용할 수 있도록 허용합니다. 모델은 그녀가 받는 모든 제안에 대해 엄격한 콘텐츠 제한을 준수해야 합니다.
DALL.E 2에서 적대적이거나 폭력적인 사진을 만들 가능성을 배제하기 위해 치명적인 무기 없이 데이터 세트를 만들었습니다. OpenAI는 향후 API로 전환할 계획이라고 밝혔지만 DALL.E 2의 경우 신중하게 진행할 의향이 있다.
결론
DALL-E 2는 새로운 응용 프로그램의 문을 여는 또 다른 흥미로운 OpenAI 연구 발견입니다.
한 가지 예는 컴퓨터 비전의 주요 병목 현상 중 하나인 데이터를 충족하기 위해 대규모 데이터 세트를 만드는 것입니다. 많은 DALL-E 기반 앱의 경제적 사례는 OpenAI가 API 사용자를 위해 설정한 가격과 정책에 따라 결정되지만 의심할 여지 없이 모두 사진 제작을 발전시킬 것입니다.
댓글을 남겨주세요.