Trong những năm gần đây, các mô hình chung được gọi là “mô hình lan tỏa” ngày càng trở nên phổ biến và có lý do chính đáng.
Thế giới đã thấy những mô hình khuếch tán có khả năng như thế nào, chẳng hạn như vượt trội hơn GAN về tổng hợp hình ảnh, nhờ một số ấn phẩm mang tính bước ngoặt được xuất bản chỉ trong những năm 2020 & 2021.
Các học viên gần đây nhất đã thấy việc sử dụng các mô hình khuếch tán trong DALL-E2, Mô hình tạo hình ảnh của OpenAI đã được xuất bản vào tháng trước.
Nhiều người thực hành Machine Learning chắc chắn rất tò mò về hoạt động bên trong của Mô hình khuếch tán nhờ sự thành công vượt bậc gần đây của họ.
Trong bài đăng này, chúng ta sẽ xem xét cơ sở lý thuyết của Mô hình khuếch tán, thiết kế của chúng, lợi thế của chúng và hơn thế nữa. Hãy bắt đầu.
Mô hình khuếch tán là gì?
Hãy bắt đầu bằng cách tìm hiểu lý do tại sao mô hình này được gọi là mô hình khuếch tán.
Một từ liên quan đến nhiệt động lực học trong các lớp vật lý được gọi là sự khuếch tán. Một hệ thống không ở trạng thái cân bằng nếu có một nồng độ lớn vật chất, như mùi hương, ở một vị trí.
Sự khuếch tán phải xảy ra để hệ thống đi vào trạng thái cân bằng. Các phân tử của mùi hương khuếch tán khắp hệ thống từ một vùng có nồng độ cao hơn, làm cho hệ thống đồng nhất trong toàn bộ hệ thống.
Mọi thứ cuối cùng trở nên đồng nhất do sự khuếch tán.
Các mô hình khuếch tán được thúc đẩy bởi điều kiện không cân bằng nhiệt động lực học này. Mô hình khuếch tán sử dụng chuỗi Markov, là một chuỗi các biến trong đó giá trị của mỗi biến phụ thuộc vào trạng thái của sự kiện trước đó.
Chụp ảnh, chúng tôi liên tiếp thêm một lượng nhiễu cụ thể vào nó trong suốt giai đoạn khuếch tán về phía trước.
Sau khi lưu trữ hình ảnh nhiễu, chúng tôi tiến hành tạo hình ảnh tiếp theo trong chuỗi bằng cách đưa thêm nhiễu.
Một vài lần, thủ tục này được thực hiện. Hình ảnh nhiễu tinh khiết là kết quả của việc lặp lại phương pháp này một vài lần.
Làm thế nào sau đó chúng ta có thể tạo ra một bức tranh từ hình ảnh lộn xộn này?
Quá trình khuếch tán được đảo ngược bằng cách sử dụng mạng lưới thần kinh. Các mạng giống nhau và cùng trọng lượng được sử dụng trong quá trình khuếch tán ngược để tạo ra bức tranh từ t đến t-1.
Thay vì để mạng dự đoán hình ảnh, người ta có thể cố gắng dự đoán tiếng ồn ở mỗi bước, tiếng ồn phải được loại bỏ khỏi hình ảnh, để đơn giản hóa công việc hơn nữa.
Trong bất kỳ trường hợp nào, thiết kế mạng thần kinh phải được chọn theo cách duy trì tính kích thước của dữ liệu.
Đi sâu vào Mô hình khuếch tán
Các thành phần của mô hình khuếch tán là một quá trình thuận (còn được gọi là quá trình khuếch tán), trong đó một giá trị (thường là một hình ảnh) dần dần bị nhiễu và một quá trình ngược lại (còn được gọi là quá trình khuếch tán ngược), trong đó nhiễu là được chuyển đổi trở lại thành một mẫu từ phân phối mục tiêu.
Khi mức ồn đủ thấp, có thể sử dụng Gaussian có điều kiện để thiết lập các chuyển đổi chuỗi lấy mẫu trong quá trình chuyển tiếp. Một tham số hóa dễ dàng của quá trình chuyển tiếp là kết quả của việc kết hợp kiến thức này với giả định Markov:
q (x1: T | x0): = YT t = 1 q (xt | xt − 1), q (xt | xt − 1): = N (xt; p 1 - βtxt − 1, βtI)
Đây 1 ...T là một lịch trình phương sai (đã học hoặc cố định) đảm bảo rằng, đối với T đủ cao, xT hầu như là một Gauss đẳng hướng.
Quá trình ngược lại là nơi mà phép thuật mô hình khuếch tán xảy ra. Mô hình học cách đảo ngược quá trình khuếch tán này trong quá trình đào tạo để tạo ra dữ liệu mới. Mô hình học phân phối chung như (x0: T) kết quả của việc bắt đầu với phương trình tiếng ồn Gaussian thuần túy
(xT):=N (xT, 0, I).
pθ (x0: T): = p (xT) YT t = 1 pθ (xt − 1 | xt), pθ (xt − 1 | xt): = N (xt − 1; µθ (xt, t), Σθ ( xt, t))
nơi mà các tham số phụ thuộc thời gian của quá trình chuyển đổi Gauss được phát hiện. Đặc biệt, hãy lưu ý cách công thức Markov tuyên bố rằng phân phối chuyển tiếp khuếch tán ngược nhất định phụ thuộc hoàn toàn vào bước thời gian trước (hoặc bước thời gian tiếp theo, tùy thuộc vào cách bạn nhìn vào nó):
pθ (xt − 1 | xt): = N (xt − 1; µθ (xt, t), Σθ (xt, t))
Đào tạo người mẫu
Mô hình Markov ngược tối đa hóa xác suất của dữ liệu huấn luyện được sử dụng để huấn luyện mô hình khuếch tán. Nói một cách thực tế, việc huấn luyện cũng tương tự như việc giảm giới hạn trên của biến thiên đối với xác suất log âm.
E [- log pθ (x0)] ≤ Eq - log pθ (x0: T) q (x1: T | x0) = Eq - log p (xT) - X t≥1 log pθ (xt − 1 | xt) q (xt | xt − 1) =: L
mô hình
Bây giờ chúng ta cần quyết định cách thực hiện Mô hình khuếch tán của mình sau khi thiết lập nền tảng toán học cho hàm mục tiêu của chúng ta. Quyết định duy nhất cần thiết cho quá trình chuyển tiếp là xác định lịch trình phương sai, mà giá trị của nó thường tăng trong quá trình này.
Chúng tôi thực sự cân nhắc việc sử dụng tham số hóa phân phối Gaussian và kiến trúc mô hình cho quy trình ngược lại.
Điều kiện duy nhất của thiết kế của chúng tôi là cả đầu vào và đầu ra đều có cùng kích thước. Điều này nhấn mạnh mức độ tự do rất lớn mà Mô hình khuếch tán cung cấp.
Dưới đây, chúng tôi sẽ đi sâu hơn về các tùy chọn này.
Tiến trình chuyển tiếp
Chúng tôi phải cung cấp lịch trình phương sai liên quan đến quá trình chuyển tiếp. Chúng tôi đặc biệt đặt chúng là các hằng số phụ thuộc thời gian và bỏ qua khả năng chúng có thể học được. Lịch trình theo thứ tự thời gian từ
β1 = 10−4 đến βT = 0.02.
Lt trở thành một hằng số đối với tập hợp các tham số có thể học được của chúng tôi do lịch trình phương sai cố định, cho phép chúng tôi bỏ qua nó trong quá trình đào tạo bất kể các giá trị cụ thể đã chọn.
Quy trình đảo ngược
Bây giờ chúng ta xem xét các quyết định cần thiết để xác định quy trình ngược lại. Hãy nhớ cách chúng tôi đã mô tả quá trình chuyển đổi Markov ngược lại là Gaussian:
pθ (xt − 1 | xt): = N (xt − 1; µθ (xt, t), Σθ (xt, t))
Bây giờ chúng ta đã xác định được các loại chức năng. Mặc dù thực tế là có nhiều kỹ thuật phức tạp hơn để tham số hóa, chúng tôi chỉ đặt
Σθ (xt, t) = σ 2 t I
σ 2 t = bt
Nói một cách khác, chúng ta coi Gaussian đa biến là kết quả của những Gaussian riêng biệt có cùng phương sai, một giá trị phương sai có thể dao động theo thời gian. Các sai lệch này được thiết lập để phù hợp với thời gian biểu của các sai lệch quy trình chuyển tiếp.
Kết quả của công thức mới này, chúng ta có:
pθ (xt − 1 | xt): = N (xt − 1; µθ (xt, t), Σθ (xt, t)): = N (xt − 1; µθ (xt, t), σ2 t I)
Điều này dẫn đến hàm mất mát thay thế được hiển thị bên dưới, mà các tác giả đã tìm thấy để tạo ra sự đào tạo nhất quán hơn và kết quả tốt hơn:
Lsimple (θ): = Et, x0, h - θ (√ α¯tx0 + √ 1 - α¯t, t) 2
Các tác giả cũng rút ra mối liên hệ giữa việc xây dựng mô hình khuếch tán này và mô hình phát sinh kết hợp điểm dựa trên Langevin. Giống như sự phát triển độc lập và song song của vật lý lượng tử dựa trên sóng và cơ học lượng tử dựa trên ma trận, vốn cho thấy hai công thức có thể so sánh được của cùng một hiện tượng, có vẻ như Mô hình khuếch tán và Mô hình dựa trên điểm có thể là hai mặt của cùng một đồng xu.
Kiến trúc mạng
Mặc dù thực tế là hàm mất mát cô đọng của chúng tôi nhằm mục đích đào tạo một mô hình Σθ, chúng tôi vẫn chưa quyết định về kiến trúc của mô hình này. Hãy nhớ rằng mô hình chỉ đơn giản là phải có cùng kích thước đầu vào và đầu ra.
Với hạn chế này, có lẽ không có gì ngạc nhiên khi các kiến trúc giống như U-Net thường được sử dụng để tạo ra các mô hình khuếch tán hình ảnh.
Nhiều thay đổi được thực hiện dọc theo lộ trình của quá trình ngược lại trong khi sử dụng phân phối Gaussian có điều kiện liên tục. Hãy nhớ rằng mục tiêu của quy trình ngược lại là tạo ra một bức ảnh được tạo thành từ các giá trị pixel nguyên. Do đó, việc xác định khả năng (nhật ký) rời rạc cho mỗi giá trị pixel tiềm năng trên tất cả các pixel là cần thiết.
Điều này được thực hiện bằng cách chỉ định một bộ giải mã rời rạc riêng biệt cho quá trình chuyển đổi cuối cùng của chuỗi khuếch tán ngược. ước tính cơ hội của một hình ảnh nhất định x0 được x1.
pθ (x0 | x1) = YD i = 1 Z δ + (xi 0) δ− (xi 0) N (x; µ i θ (x1, 1), σ2 1) dx
δ + (x) = ∞ nếu x = 1 x + 1 255 nếu x <1 δ− (x) = −∞ nếu x = −1 x - 1 255 nếu x> −1
trong đó chỉ số trên I biểu thị việc trích xuất một tọa độ và D biểu thị số thứ nguyên trong dữ liệu.
Mục tiêu tại thời điểm này là thiết lập khả năng của mỗi giá trị số nguyên cho một pixel cụ thể dựa trên sự phân phối các giá trị tiềm năng cho pixel đó theo thời gian thay đổi t = 1.
Mục tiêu cuối cùng
Theo các nhà khoa học, kết quả lớn nhất đến từ việc dự báo thành phần nhiễu của một bức ảnh tại một thời điểm nhất định. Cuối cùng, họ thực hiện mục tiêu sau:
Lsimple (θ): = Et, x0, h - θ (√ α¯tx0 + √ 1 - α¯t, t) 2
Trong hình ảnh sau đây, các quy trình đào tạo và lấy mẫu cho mô hình khuếch tán của chúng tôi được mô tả ngắn gọn:
Lợi ích của mô hình khuếch tán
Như đã được chỉ ra, số lượng nghiên cứu về các mô hình khuếch tán đã tăng lên gần đây. Các Mô hình Khuếch tán hiện mang lại chất lượng hình ảnh Hiện đại và được lấy cảm hứng từ nhiệt động lực học không cân bằng.
Mô hình khuếch tán cung cấp nhiều lợi thế khác ngoài việc có chất lượng hình ảnh tiên tiến, chẳng hạn như không yêu cầu đào tạo đối thủ.
Hạn chế của đào tạo theo đối thủ đã được biết đến rộng rãi, do đó, người ta thường ưu tiên chọn các giải pháp thay thế không đối nghịch với hiệu suất và hiệu quả đào tạo tương đương.
Mô hình khuếch tán cũng cung cấp các lợi thế về khả năng mở rộng và khả năng song song hóa về hiệu quả đào tạo.
Mặc dù Mô hình khuếch tán dường như tạo ra các kết quả dường như ngoài không khí loãng, cơ sở cho những kết quả này được đặt ra bởi một số quyết định toán học và sự tinh tế chu đáo và thú vị, và các phương pháp hay nhất trong ngành vẫn đang được phát triển.
Kết luận
Kết luận, các nhà nghiên cứu chứng minh các phát hiện tổng hợp hình ảnh chất lượng cao bằng cách sử dụng các mô hình xác suất khuếch tán, một loại mô hình biến tiềm ẩn được thúc đẩy bởi các ý tưởng từ nhiệt động lực học không cân bằng.
Họ đã đạt được những điều to lớn nhờ vào kết quả hiện đại và đào tạo không đối thủ và ngay từ khi còn sơ sinh, có thể sẽ có nhiều tiến bộ hơn trong những năm tới.
Đặc biệt, người ta đã phát hiện ra rằng các mô hình khuếch tán rất quan trọng đối với chức năng của các mô hình tiên tiến như DALL-E 2.
Đây bạn có thể truy cập vào nghiên cứu hoàn chỉnh.
Bình luận