Bạn rất có thể biết rằng máy tính có thể mô tả một bức tranh.
Ví dụ, hình ảnh một con chó đang chơi với con bạn có thể được dịch là 'con chó và những đứa trẻ trong vườn.' Nhưng bạn có biết rằng cách làm ngược lại hiện nay cũng khả thi không? Bạn nhập một số từ và máy sẽ tạo ra một hình ảnh mới.
Không giống như tìm kiếm của Google, tìm kiếm các bức ảnh hiện có, tất cả đều mới. Trong những năm gần đây, OpenAI là một trong những tổ chức hàng đầu, báo cáo những kết quả đáng kinh ngạc.
Họ đào tạo các thuật toán của mình trên cơ sở dữ liệu hình ảnh và văn bản khổng lồ. Họ đã xuất bản một bài báo về mô hình ảnh GLIDE của họ, đã được đào tạo trên hàng trăm triệu bức ảnh. Về phương diện photorealism, nó vượt trội hơn so với mô hình 'DALL-E' trước đây của họ.
Trong bài đăng này, chúng ta sẽ xem xét GLIDE của OpenAI, một trong số những sáng kiến hấp dẫn nhằm sản xuất và thay đổi hình ảnh chân thực bằng các mô hình khuếch tán có hướng dẫn bằng văn bản. Hãy bắt đầu nào.
Là gì Mở AI Glide?
Trong khi hầu hết các hình ảnh có thể được mô tả bằng lời nói, việc tạo hình ảnh từ các đầu vào văn bản đòi hỏi kiến thức chuyên môn và một lượng thời gian đáng kể.
Việc cho phép tác nhân AI tạo ra các bức ảnh chân thực từ các lời nhắc ngôn ngữ tự nhiên không chỉ cho phép mọi người tạo ra tài liệu hình ảnh phong phú và đa dạng một cách dễ dàng chưa từng có mà còn cho phép tinh chỉnh lặp đi lặp lại đơn giản hơn và kiểm soát chi tiết các hình ảnh được tạo ra.
GLIDE có thể được sử dụng để chỉnh sửa ảnh hiện có bằng cách sử dụng lời nhắc văn bản bằng ngôn ngữ tự nhiên để chèn đối tượng mới, tạo bóng và phản chiếu, thực hiện vẽ hình ảnh, Và như vậy.
Nó cũng có thể biến các bản vẽ đường nét cơ bản thành các bức ảnh chân thực và nó có khả năng sản xuất và sửa chữa không mẫu đặc biệt cho các tình huống phức tạp.
Nghiên cứu gần đây đã chứng minh rằng các mô hình khuếch tán dựa trên khả năng cũng có thể tạo ra các bức ảnh tổng hợp chất lượng cao, đặc biệt khi được kết hợp với phương pháp hướng dẫn cân bằng giữa sự đa dạng và độ trung thực.
OpenAI đã xuất bản một mô hình khuếch tán có hướng dẫn vào tháng XNUMX, điều này cho phép các mô hình khuếch tán có điều kiện dựa trên nhãn của bộ phân loại. GLIDE cải thiện thành công này bằng cách mang lại sự phổ biến có hướng dẫn cho vấn đề tạo hình ảnh có điều kiện văn bản.
Sau khi đào tạo mô hình khuếch tán GLIDE 3.5 tỷ tham số sử dụng bộ mã hóa văn bản để điều kiện mô tả ngôn ngữ tự nhiên, các nhà nghiên cứu đã thử nghiệm hai chiến lược hướng dẫn thay thế: hướng dẫn CLIP và hướng dẫn không cần trình phân loại.
CLIP là một kỹ thuật có thể mở rộng để học các cách biểu diễn chung của văn bản và hình ảnh mang lại điểm số dựa trên mức độ gần của hình ảnh với chú thích.
Nhóm đã sử dụng chiến lược này trong các mô hình khuếch tán của họ bằng cách thay thế bộ phân loại bằng một mô hình CLIP để “hướng dẫn” các mô hình. Trong khi đó, hướng dẫn không có bộ phân loại là một chiến lược để định hướng các mô hình khuếch tán không liên quan đến việc đào tạo một bộ phân loại riêng biệt.
Kiến trúc GLIDE
Kiến trúc GLIDE bao gồm ba thành phần: Mô hình khuếch tán rút gọn (ADM) được đào tạo để tạo hình ảnh 64 × 64, mô hình văn bản (máy biến áp) ảnh hưởng đến việc tạo hình ảnh thông qua dấu nhắc văn bản và mô hình lấy mẫu tăng chuyển đổi 64 × 64 nhỏ của chúng tôi hình ảnh thành 256 x 256 pixel dễ hiểu hơn.
Hai thành phần đầu tiên làm việc cùng nhau để kiểm soát quá trình tạo hình ảnh để nó phản ánh một cách thích hợp lời nhắc văn bản, trong khi thành phần thứ hai được yêu cầu để làm cho hình ảnh chúng ta tạo ra dễ hiểu hơn. Dự án GLIDE được lấy cảm hứng từ một báo cáo xuất bản năm 2021 điều đó cho thấy rằng kỹ thuật ADM vượt trội hơn các mô hình tổng hợp hiện đại, phổ biến hiện nay về chất lượng mẫu hình ảnh.
Đối với ADM, các tác giả GLIDE đã sử dụng cùng một mô hình ImageNet 64 x 64 như Dhariwal và Nichol, nhưng với 512 kênh thay vì 64. Kết quả là mô hình ImageNet có khoảng 2.3 tỷ tham số.
Nhóm GLIDE, không giống như Dhariwal và Nichol, muốn có quyền kiểm soát trực tiếp nhiều hơn đối với quá trình tạo hình ảnh, do đó họ đã kết hợp mô hình trực quan với một máy biến áp hỗ trợ sự chú ý. GLIDE cung cấp cho bạn một số quyền kiểm soát đầu ra của quy trình tạo ảnh bằng cách xử lý các lời nhắc nhập văn bản.
Điều này được thực hiện bằng cách đào tạo mô hình máy biến áp trên một tập dữ liệu lớn phù hợp về ảnh và chú thích (tương tự như tập dữ liệu được sử dụng trong dự án DALL-E).
Ban đầu, văn bản được mã hóa thành một chuỗi K mã thông báo để tạo điều kiện cho nó. Sau đó, các mã thông báo được tải vào một mô hình máy biến áp. Đầu ra của máy biến áp sau đó có thể được sử dụng theo hai cách. Đối với mô hình ADM, việc nhúng mã thông báo cuối cùng được sử dụng thay vì nhúng lớp.
Thứ hai, lớp cuối cùng của mã thông báo nhúng - một loạt các vectơ đặc trưng - được chiếu độc lập với các kích thước cho mỗi lớp chú ý trong mô hình ADM và được nối với mỗi ngữ cảnh chú ý.
Trong thực tế, điều này cho phép mô hình ADM tạo ra một bức tranh từ các kết hợp mới của các mã thông báo văn bản tương tự theo một kiểu duy nhất và thực tế, dựa trên sự hiểu biết đã học của nó về các từ đầu vào và hình ảnh liên quan của chúng. Máy biến áp mã hóa văn bản này chứa 1.2 tỷ tham số và sử dụng 24 khối còn sót lại với chiều rộng 2048.
Cuối cùng, mô hình khuếch tán upsampler bao gồm khoảng 1.5 tỷ tham số và thay đổi so với mô hình cơ bản ở chỗ bộ mã hóa văn bản của nó nhỏ hơn, với chiều rộng 1024 và 384 kênh cơ sở, so với mô hình cơ sở. Mô hình này, như tên gọi đã chỉ ra, hỗ trợ việc nâng cấp mẫu để cải thiện khả năng diễn giải cho cả máy móc và con người.
Mô hình khuếch tán
GLIDE tạo hình ảnh bằng cách sử dụng phiên bản ADM của chính nó (ADM-G cho "được hướng dẫn"). Mô hình ADM-G là một sửa đổi của mô hình U-net khuếch tán. Mô hình U-net khuếch tán khác hẳn với các kỹ thuật tổng hợp hình ảnh phổ biến hơn như VAE, GAN và máy biến áp.
Họ xây dựng chuỗi các bước khuếch tán Markov để dần dần đưa nhiễu ngẫu nhiên vào dữ liệu, sau đó học cách đảo ngược quá trình khuếch tán và xây dựng lại các mẫu dữ liệu cần thiết chỉ từ nhiễu. Nó hoạt động theo hai giai đoạn: khuếch tán thuận và nghịch.
Phương pháp khuếch tán thuận, được cung cấp một điểm dữ liệu từ phân phối thực của mẫu, thêm một lượng nhỏ nhiễu vào mẫu qua một loạt các bước đặt trước. Khi các bước tăng kích thước và tiến gần đến vô cùng, mẫu mất tất cả các đặc điểm có thể nhận biết được và trình tự bắt đầu giống như một đường cong Gauss đẳng hướng.
Trong quá trình khuếch tán ngược giai đoạn, mô hình khuếch tán học cách đảo ngược ảnh hưởng của nhiễu thêm vào hình ảnh và dẫn hình ảnh được tạo ra trở lại hình dạng ban đầu bằng cách cố gắng giống với phân phối mẫu đầu vào ban đầu.
Một mô hình đã hoàn thành có thể làm như vậy với đầu vào tiếng ồn Gaussian thực và lời nhắc. Phương pháp ADM-G thay đổi so với phương pháp trước ở chỗ một mô hình, CLIP hoặc một máy biến áp tùy chỉnh, tác động đến giai đoạn khuếch tán ngược bằng cách sử dụng các mã nhắc văn bản được nhập vào.
Khả năng lướt
1. Thế hệ hình ảnh
Việc sử dụng GLIDE phổ biến và rộng rãi nhất có lẽ sẽ là tổng hợp hình ảnh. Mặc dù hình ảnh khiêm tốn và GLIDE gặp khó khăn với hình dạng động vật / người, nhưng tiềm năng để sản xuất hình ảnh một shot là gần như vô tận.
Nó có thể tạo ra các bức ảnh về động vật, người nổi tiếng, phong cảnh, tòa nhà, v.v. và nó có thể thực hiện điều đó theo nhiều phong cách nghệ thuật cũng như ảnh chân thực. Các tác giả của các nhà nghiên cứu khẳng định rằng GLIDE có khả năng diễn giải và điều chỉnh nhiều loại đầu vào văn bản thành định dạng trực quan, như được thấy trong các mẫu bên dưới.
2. Lướt trong tranh
Tính năng in ảnh tự động của GLIDE được cho là cách sử dụng hấp dẫn nhất. GLIDE có thể lấy một bức ảnh hiện có làm đầu vào, xử lý nó với lời nhắc văn bản trong tâm trí các vị trí cần được thay đổi, và sau đó thực hiện các sửa đổi tích cực đối với các phần đó một cách dễ dàng.
Nó phải được sử dụng cùng với một mô hình chỉnh sửa, chẳng hạn như SDEdit, để tạo ra kết quả tốt hơn nữa. Trong tương lai, các ứng dụng tận dụng các khả năng như thế này có thể rất quan trọng trong việc phát triển các phương pháp thay đổi hình ảnh không cần mã.
Kết luận
Bây giờ chúng ta đã trải qua quá trình này, bạn sẽ nắm được các nguyên tắc cơ bản về cách hoạt động của GLIDE, cũng như khả năng tạo ảnh và sửa đổi trong ảnh của nó.
Bình luận