확산 모델은 출시와 함께 전 세계를 휩쓸었습니다. 달-이 2, Google의 Imagen, 안정적인 확산및 중도, 혁신을 촉발하고 기계 학습의 경계를 확장합니다.
이 모델은 사실적, 마법적, 미래적, 물론 귀여운 이미지를 포함하여 단어 프롬프트에서 거의 무제한의 이미지를 생성할 수 있습니다.
이러한 기능은 인간이 실리콘과 인터페이스하는 것이 의미하는 바를 재해석하여 우리가 상상할 수 있는 거의 모든 그림을 만들 수 있는 능력을 제공합니다.
이러한 모델이 발전하거나 차세대 패러다임이 도래함에 따라 인간은 생각만으로 이미지, 영화 및 기타 몰입형 경험을 생산할 수 있습니다.
이번 포스팅에서 다룰 내용은 확산 모델, 안정적인 확산, 작동 방식, 확산 모델 인페인팅 튜토리얼 등을 참조하십시오.
확산 모델이란 무엇입니까?
학습 데이터에서 새로운 데이터를 생성할 수 있는 기계 학습 모델을 생성 모델이라고 합니다. 다른 생성 모델에는 흐름 기반 모델, 변형 자동 인코더 및 생성적 적대 네트워크(GAN)가 포함됩니다.
각각은 우수한 품질의 사진을 생성할 수 있습니다. 확산 모델은 노이즈를 추가하여 훈련 데이터를 손상시킨 후 이 노이즈 추가 프로세스를 역전시켜 데이터를 복구하는 방법을 학습합니다. 다시 말해, 확산 모델은 노이즈로부터 일관된 그림을 생성할 수 있습니다.
확산 모델은 나중에 모델이 제거를 마스터하는 사진에 노이즈를 도입하여 학습합니다. 현실적인 시각 효과를 생성하기 위해 모델은 이 노이즈 제거 기술을 임의의 시드에 적용합니다.
그림 생성 프로세스를 조절함으로써 이러한 모델을 텍스트에서 이미지로의 안내와 함께 사용하여 텍스트만으로 거의 무한한 수의 이미지를 생성할 수 있습니다. 강력한 텍스트-이미지 기능을 제공하기 위해 CLIP과 같은 임베딩의 입력을 통해 시드를 지정할 수 있습니다.
확산 모델은 이미지 생성, 이미지 노이즈 제거, 인페인팅, 아웃페인팅 및 비트 확산을 비롯한 다양한 작업을 수행할 수 있습니다.
이제 안정적인 확산이란 무엇입니까?
Stable Diffusion은 다음에서 제공하는 텍스트 기반 그림 생성을 위한 기계 학습 모델입니다. 안정성.AI. 텍스트에서 이미지를 생성할 수 있습니다.
안정확산의 구성요소
안정적인 확산 여러 구성 요소와 개념으로 구성된 시스템입니다. 단일 모델이 아닙니다. 후드 뒤를 확인할 때 가장 먼저 보게 되는 것은 텍스트 정보를 텍스트의 개념을 캡처하는 숫자 표현으로 변환하는 텍스트 이해 구성 요소가 있다는 것입니다.
이 텍스트 인코더를 Transformer라고 부를 수 있습니다. 언어 모델 (기술적으로: CLIP 모델의 텍스트 인코더). 입력 텍스트를 받아 텍스트의 각 단어/토큰에 대한 정수 목록(벡터)을 생성합니다. 그런 다음 해당 데이터는 여러 구성 요소로 구성된 이미지 생성기에 제공됩니다.
이미지 생성기에는 두 단계가 있습니다.
1. 이미지 정보 작성자
Stable Diffusion의 주요 구성 요소는 이 요소입니다. 이전 버전에 비해 성능이 가장 많이 향상되는 부분입니다.
이 구성 요소는 여러 단계를 거쳐 사진 데이터를 제공합니다. 영상정보의 작성자는 영상정보공간(또는 잠재공간) 내에서만 활동한다.
이 특성 때문에 픽셀 공간에서 작동하는 이전 확산 모델보다 빠릅니다. 기술적으로 이 구성 요소는 스케줄링 알고리즘과 UNet으로 구성됩니다. 신경망.
이 구성 요소에서 발생하는 프로세스를 "확산"이라고 합니다. 정보가 단계적으로(다음 구성 요소인 이미지 디코더에 의해) 처리된 결과 궁극적으로 고품질 이미지가 생성됩니다.
2. 이미지 디코더
정보 생산자로부터 받은 데이터를 사용하여 이미지 디코더는 그림을 만듭니다. 작업이 끝나면 완성된 픽셀 그림을 만들기 위해 한 번만 실행됩니다.
안정적인 확산 임페인팅 튜토리얼
Stable Diffusion 그림 인페인팅은 이미지의 누락되거나 손상된 부분을 채우는 기술입니다. 그림 인페인팅의 목적은 이미지가 복원되었다는 사실을 숨기는 것입니다.
이 기술은 이미지에서 원하지 않는 것을 제거하거나 역사적 사진의 손상된 부분을 복원하는 데 자주 사용됩니다. 안정적인 확산 인페인팅은 유망한 효과를 내는 비교적 최근의 인페인팅 방식입니다.
아래 지침을 따르면 안정적인 확산으로 인페인팅을 시도하려는 경우 기존 사진을 인페인팅하고 수정하는 방법을 탐색할 수 있습니다.
- 허깅페이스 바로가기 안정적인 확산 도장
- 나만의 이미지 업로드
- 이미지에서 교체해야 하는 부분을 지웁니다.
- 여기에 프롬프트를 입력하십시오(제거할 항목 대신 추가할 항목).
- "실행"을 선택하십시오
위 영상에서 우리는 레몬 XNUMX개가 있는 사진을 업로드하고 사과로 교환합니다. 나는 개인적으로 자신의 사진과 프롬프트로 시도해 볼 것을 권장합니다.
결론
일반적으로 스테디 디퓨전 인페인팅은 극도로 실제처럼 보이는 가짜 이미지나 비디오를 제작하는 훌륭한 방법입니다. 우리가 새로운 기술 발전을 향해 나아가면서 기술이 발전함에 따라 진품과 사기를 구별하는 것이 점점 더 어려워질 것입니다.
스와히르
전반부는 후반부와 전혀 관련이 없습니다. 저자가 앞에서 설명한 모델의 틀에서 inpaint가 어떻게 작동하는지 설명하고 통찰력을 줄 수 있었다면 정말 멋졌을 것입니다. 하지만! 그것은 임의의 텍스트를 수집하고 처리하는 것이 아니라 진정한 이해가 필요했을 것입니다.