확산 모델 소개

차례[숨다][보여 주다]

확산 모델이란 무엇입니까?
확산 모델 심층 분석+-
최종 목표
확산 모델의 이점
결론

최근 몇 년 동안 "확산 모델"이라고 하는 생성 모델이 점점 인기를 얻고 있습니다.

2020년대와 2021년대에 출판된 몇 가지 획기적인 출판물 덕분에 세계는 사진 합성에서 GAN을 능가하는 것과 같은 확산 모델이 무엇을 할 수 있는지 보았습니다.

실무자들은 가장 최근에 확산 모델의 사용을 보았습니다. 달-이 2, 지난달 공개된 OpenAI의 이미지 생성 모델.

많은 기계 학습 실무자들은 최근 급증하는 성공을 감안할 때 확산 모델의 내부 작동에 대해 의심의 여지가 없습니다.

이 게시물에서 우리는 확산 모델의 이론적 토대, 디자인, 장점 등을 살펴볼 것입니다. 시작하겠습니다.

확산 모델이란 무엇입니까?

이 모델을 확산 모델이라고 하는 이유부터 알아보겠습니다.

물리학 수업에서 열역학과 관련된 단어를 확산이라고 합니다. 냄새와 같은 물질이 한 위치에 많이 집중되어 있으면 시스템은 평형 상태가 아닙니다.

시스템이 평형에 도달하려면 확산이 발생해야 합니다. 향기 분자는 농도가 높은 영역에서 시스템 전체로 확산되어 시스템 전체를 균일하게 만듭니다.

모든 것은 결국 확산으로 인해 균질해집니다.

확산 모델은 이 열역학적 비평형 조건에 의해 동기가 부여됩니다. 확산 모델은 각 변수의 값이 이전 이벤트의 상태에 의존하는 일련의 변수인 Markov 체인을 사용합니다.

사진을 찍을 때 순방향 확산 단계 전체에 걸쳐 특정 양의 노이즈를 연속적으로 추가합니다.

노이즈가 많은 이미지를 저장한 후 추가 노이즈를 도입하여 시리즈의 후속 이미지를 생성합니다.

이 절차를 여러 번 수행합니다. 이 방법을 몇 번 반복하면 순수한 노이즈 그림이 생성됩니다.

그러면 이 어수선한 이미지에서 어떻게 그림을 만들 수 있습니까?

확산 과정은 다음을 사용하여 역전됩니다. 신경망. t에서 t-1까지의 그림을 생성하기 위해 역확산 과정에서 동일한 네트워크와 동일한 가중치가 사용됩니다.

네트워크가 그림을 예측하도록 하는 대신 작업을 더욱 단순화하기 위해 이미지에서 제거해야 하는 각 단계에서 노이즈를 예측할 수 있습니다.

어떤 시나리오에서든 신경망 설계 데이터 차원을 유지하는 방식으로 선택해야 합니다.

확산 모델 심층 분석

확산 모델의 구성 요소는 데이텀(종종 이미지)에 점차적으로 노이즈가 발생하는 순방향 프로세스(확산 프로세스라고도 함)와 노이즈가 제거되는 역방향 프로세스(역확산 프로세스라고도 함)입니다. 대상 분포에서 샘플로 다시 변환됩니다.

노이즈 레벨이 충분히 낮으면 조건부 가우시안을 사용하여 순방향 프로세스에서 샘플링 체인 전환을 설정할 수 있습니다. 이 지식을 Markov 가정과 결합하여 순방향 프로세스의 손쉬운 매개변수화 결과:

q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)

여기에 1 ....T는 충분히 높은 T에 대해 xT가 사실상 등방성 가우스임을 보장하는 분산 일정(학습 또는 고정)입니다.

큰 T

반대 과정은 확산 모델 마술이 일어나는 곳입니다. 모델은 새로운 데이터를 생성하기 위해 훈련 중에 이 확산 프로세스를 역전시키는 방법을 학습합니다. 모델은 다음과 같이 공동 분포를 학습합니다. (x0:티) 순수 가우스 잡음 방정식으로 시작한 결과

(엑스티):=N(xT,0,I).

pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N(xt−1; μθ(xt, t), Σθ( xt, t))

가우스 전환의 시간 종속 매개변수가 발견되는 곳입니다. 특히 Markov 공식이 주어진 역확산 전이 분포가 이전 시간 단계(또는 보는 방식에 따라 후속 시간 단계)에만 의존한다고 명시하는 방법에 유의하십시오.

pθ(xt−1|xt) := N(xt−1; µθ(xt, t), Σθ(xt, t))

모델 훈련

훈련 데이터의 확률을 최대화하는 역 마르코프 모델은 확산 모델을 훈련하는 데 사용됩니다. 실제로 훈련은 음의 로그 확률에 대한 변동 상한을 줄이는 것과 유사합니다.

E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L

모델

이제 목표 함수의 수학적 토대를 설정한 후 확산 모델을 실행하는 방법을 결정해야 합니다. 전달 프로세스에 필요한 유일한 결정은 분산 일정을 결정하는 것입니다. 이 일정의 값은 일반적으로 절차 중에 증가합니다.

역 절차에 대해 가우스 분포 매개변수화 및 모델 아키텍처 사용을 적극 고려합니다.

우리 디자인의 유일한 조건은 입력과 출력이 모두 동일한 치수를 갖는 것입니다. 이것은 확산 모델이 제공하는 엄청난 자유도를 강조합니다.

아래에서 이러한 옵션에 대해 더 자세히 살펴보겠습니다.

포워드 프로세스

전달 프로세스와 관련하여 변동 일정을 제공해야 합니다. 특히 시간 종속 상수로 설정하고 학습 가능성을 무시했습니다. 부터의 연대순 일정

β1 = 10−4 ~ βT = 0.02.

Lt 고정된 분산 일정으로 인해 학습 가능한 매개변수 집합과 관련하여 상수가 되므로 선택한 특정 값에 관계없이 훈련 중에 무시할 수 있습니다.

역과정

이제 역 프로세스를 정의하는 데 필요한 결정을 살펴보겠습니다. 역 Markov 전환을 Gaussian으로 설명한 방법을 기억하십시오.

pθ(xt−1|xt) := N(xt−1; µθ(xt, t), Σθ(xt, t))

이제 기능 유형을 식별했으므로. 매개변수화할 더 복잡한 기술이 있음에도 불구하고

Σθ(xt, t) = σ 2 t 나

σ 2t = βt

다시 말해, 다변량 가우시안은 동일한 분산, 즉 시간이 지남에 따라 변동할 수 있는 분산 값을 가진 개별 가우시안의 결과로 간주됩니다. 이러한 편차는 전달 프로세스 편차의 시간표와 일치하도록 설정됩니다.

이 새로운 공식의 결과로, 우리는 :

pθ(xt−1|xt) := N(xt−1; µθ(xt, t), Σθ(xt, t)) :=N(xt−1; µθ(xt, t), σ2 t I)

그 결과 아래에 표시된 대체 손실 함수가 생성되며, 저자는 보다 일관된 교육과 우수한 결과를 생성하는 것으로 나타났습니다.

Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

저자는 또한 이러한 확산 모델의 공식화와 Langevin 기반 점수 일치 생성 모델 간의 연결을 도출합니다. 파동 기반 양자 물리학 및 매트릭스 기반 양자 역학의 독립적이고 병렬적인 발전과 함께 동일한 현상의 두 가지 비교 가능한 공식이 밝혀진 것처럼 확산 모델과 점수 기반 모델은 동전의 양면이 될 수 있습니다.

네트워크 아키텍처

우리의 압축 손실 함수가 모델을 훈련시키는 것을 목표로 한다는 사실에도 불구하고 Σθ, 우리는 아직 이 모델의 아키텍처를 결정하지 않았습니다. 모델은 단순히 동일한 입력 및 출력 치수를 가져야 한다는 점을 염두에 두십시오.

이러한 제약을 감안할 때 U-Net과 같은 아키텍처가 그림 확산 모델을 생성하는 데 자주 사용되는 것은 예상 밖의 일이 아닙니다.

네트워크 아키텍처

연속 조건부 가우스 분포를 사용하는 동안 역 과정의 경로를 따라 수많은 변경이 이루어집니다. 역 절차의 목표는 정수 픽셀 값으로 구성된 그림을 만드는 것입니다. 따라서 모든 픽셀에 대한 각 잠재적 픽셀 값에 대한 이산(로그) 가능성을 결정하는 것이 필요합니다.

이것은 역확산 체인의 마지막 전환에 별도의 이산 디코더를 할당하여 수행됩니다. 특정 이미지의 가능성 추정 x0 주어진 x1.

pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N(x; μ i θ (x1, 1), σ2 1 ) dx

δ+(x) = ∞ x = 1 x + 1인 경우 x < 255인 경우 δ−(x) = −∞인 경우 x = −1 x − 1인 경우 1인 경우 x > −255

여기서 위 첨자 I은 한 좌표의 추출을 나타내고 D는 데이터의 차원 수를 나타냅니다.

이 시점의 목표는 시간에 따라 변하는 픽셀에 대한 잠재적 값의 분포가 주어진 특정 픽셀에 대한 각 정수 값의 가능성을 설정하는 것입니다. t = 1.

최종 목표

과학자들에 따르면 가장 큰 결과는 특정 시간 단계에서 그림의 노이즈 구성 요소를 예측하는 것입니다. 결국 그들은 다음 목표를 사용합니다.

Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

다음 이미지에는 확산 모델에 대한 교육 및 샘플링 절차가 간략하게 설명되어 있습니다.

최종 목표

확산 모델의 이점

이미 지적한 바와 같이, 확산 모델에 대한 연구의 양이 최근 증가하고 있다. 확산 모델은 이제 최첨단 이미지 품질을 제공하며 비평형 열역학에서 영감을 받았습니다.

확산 모델은 적대적 훈련이 필요하지 않은 등 최첨단 화질을 제공하는 것 외에도 다양한 이점을 제공합니다.

적대적 훈련의 단점은 널리 알려져 있으므로 동등한 성능과 훈련 효율성을 가진 비적대적 대안을 선택하는 것이 종종 바람직합니다.

확산 모델은 또한 훈련 효율성 측면에서 확장성과 병렬성의 이점을 제공합니다.

확산 모델이 겉보기에 허공에서 나온 것처럼 보이지만 이러한 결과의 기초는 여러 가지 사려 깊고 흥미로운 수학적 결정과 미묘함에 의해 마련되며 업계 모범 사례는 여전히 개발 중입니다.

결론

결론적으로, 연구자들은 비평형 열역학의 아이디어에 의해 동기가 부여된 일종의 잠재 변수 모델인 확산 확률 모델을 사용하여 고품질 사진 합성 결과를 보여줍니다.

그들은 최첨단 결과와 비적대적 훈련 덕분에 엄청난 일을 해냈고, 그들의 유아기를 감안할 때 앞으로 더 많은 발전이 예상될 수 있습니다.

특히 확산 모델은 DALL-E 2와 같은 고급 모델의 기능에 결정적인 역할을 하는 것으로 밝혀졌습니다.

여기에 전체 연구에 액세스할 수 있습니다.

확산 모델 소개

확산 모델이란 무엇입니까?