Trong những năm gần đây, mô hình học sâu đã trở nên hiệu quả hơn trong việc hiểu ngôn ngữ của con người.
Hãy nghĩ về các dự án như GPT-3, hiện có thể tạo toàn bộ bài báo và trang web. GitHub gần đây đã giới thiệu Trợ lý GitHub, một dịch vụ cung cấp toàn bộ các đoạn mã bằng cách mô tả đơn giản loại mã bạn cần.
Các nhà nghiên cứu tại OpenAI, Facebook và Google đã và đang tìm cách sử dụng học sâu để xử lý một nhiệm vụ khác: tạo phụ đề cho hình ảnh. Sử dụng một tập dữ liệu lớn với hàng triệu mục nhập, họ đã đưa ra một số thật ngạc nhiên các kết quả.
Gần đây, các nhà nghiên cứu này đã cố gắng thực hiện nhiệm vụ ngược lại: tạo hình ảnh từ chú thích. Bây giờ có thể tạo một hình ảnh hoàn toàn mới ngoài mô tả không?
Hướng dẫn này sẽ khám phá hai trong số các mô hình chuyển văn bản thành hình ảnh tiên tiến nhất: DALL-E 2 của OpenAI và Imagen AI của Google. Mỗi dự án này đều đưa ra những phương pháp đột phá có thể thay đổi xã hội như chúng ta biết.
Nhưng trước tiên, hãy hiểu ý nghĩa của việc tạo văn bản thành hình ảnh.
Tạo văn bản thành hình ảnh là gì?
Mô hình chuyển văn bản thành hình ảnh cho phép máy tính tạo hình ảnh mới và độc đáo dựa trên lời nhắc. Giờ đây, mọi người có thể cung cấp mô tả văn bản về hình ảnh họ muốn sản xuất và mô hình sẽ cố gắng tạo hình ảnh phù hợp nhất với mô tả đó.
Các mô hình học máy đã tận dụng việc sử dụng các tập dữ liệu lớn có chứa các cặp chú thích hình ảnh để cải thiện hơn nữa hiệu suất.
Hầu hết văn bản thành hình ảnh mô hình sử dụng mô hình ngôn ngữ biến áp để giải thích lời nhắc. Loại mô hình này là một mạng lưới thần kinh cố gắng tìm hiểu ngữ cảnh và ý nghĩa ngữ nghĩa của ngôn ngữ tự nhiên.
Tiếp theo, các mô hình tổng quát như mô hình khuếch tán và mạng đối phương chung được sử dụng để tổng hợp hình ảnh.
DALLE 2 là gì?
DALL-E2 là một mô hình máy tính của OpenAI được phát hành vào tháng 2022 năm XNUMX. Mô hình được đào tạo trên cơ sở dữ liệu gồm hàng triệu hình ảnh được gắn nhãn để liên kết các từ và cụm từ với hình ảnh.
Người dùng có thể nhập một cụm từ đơn giản, chẳng hạn như “một con mèo đang ăn lasagna” và DALL-E 2 sẽ tạo ra cách diễn giải riêng về những gì cụm từ đang cố gắng mô tả.
Bên cạnh việc tạo hình ảnh từ đầu, DALL-E 2 cũng có thể chỉnh sửa hình ảnh hiện có. Trong ví dụ dưới đây, DALL-E có thể tạo hình ảnh đã sửa đổi của một căn phòng có thêm một chiếc ghế dài.
DALL-E 2 chỉ là một trong nhiều dự án tương tự mà OpenAI đã phát hành trong vài năm qua. GPT-3 của OpenAI trở nên đáng tin cậy khi nó dường như tạo ra văn bản với nhiều phong cách khác nhau.
Hiện tại, DALL-E 2 vẫn đang trong giai đoạn thử nghiệm beta. Người dùng quan tâm có thể đăng ký danh sách chờ và chờ truy cập.
Làm thế nào nó làm việc?
Mặc dù kết quả của DALL-E 2 rất ấn tượng, nhưng bạn có thể tự hỏi tất cả hoạt động của nó như thế nào.
DALL-E 2 là một ví dụ về việc triển khai đa phương thức của dự án GPT-3 của OpenAI.
Đầu tiên, lời nhắc văn bản của người dùng được đặt vào một bộ mã hóa văn bản ánh xạ lời nhắc tới một không gian biểu diễn. DALL-E 2 sử dụng một mô hình OpenAI khác có tên CLIP (Contrastive Language-Image Pre-Training) để lấy thông tin ngữ nghĩa từ ngôn ngữ tự nhiên.
Tiếp theo, một mô hình được gọi là trước khi ánh xạ mã hóa văn bản thành mã hóa hình ảnh. Mã hóa hình ảnh này sẽ nắm bắt thông tin ngữ nghĩa được tìm thấy trong bước mã hóa văn bản.
Để tạo ra hình ảnh thực tế, DALL-E 2 sử dụng bộ giải mã hình ảnh để tạo hình ảnh trực quan bằng cách sử dụng thông tin ngữ nghĩa và chi tiết mã hóa hình ảnh. OpenAI sử dụng phiên bản sửa đổi của TRƯỢT mô hình để thực hiện tạo ảnh. GLIDE dựa trên một mô hình khuếch tán để tạo hình ảnh.
Việc bổ sung GLIDE vào kiểu máy DALL-E 2 cho phép đầu ra ảnh thực hơn. Vì mô hình GLIDE được xác định ngẫu nhiên hoặc ngẫu nhiên, nên mô hình DALL-E 2 có thể dễ dàng tạo ra các biến thể bằng cách chạy đi chạy lại mô hình.
Hạn chế
Mặc dù có kết quả ấn tượng của mô hình DALL-E 2, nó vẫn gặp một số hạn chế.
Chính tả Văn bản
Các lời nhắc cố gắng làm cho DALL-E 2 tạo văn bản tiết lộ rằng nó gặp khó khăn khi đánh vần các từ. Các chuyên gia cho rằng điều này có thể là do thông tin chính tả không phải là một phần của tập dữ liệu đào tạo.
Lập luận tổng hợp
Các nhà nghiên cứu quan sát thấy rằng DALL-E 2 vẫn gặp một số khó khăn với lý luận thành phần. Nói một cách đơn giản, mô hình có thể hiểu các khía cạnh riêng lẻ của một hình ảnh trong khi vẫn gặp khó khăn trong việc tìm ra mối quan hệ giữa các khía cạnh này.
Ví dụ: nếu được đưa ra lời nhắc “khối vuông màu đỏ ở trên cùng của khối màu xanh lam”, DALL-E sẽ tạo ra một khối màu xanh lam và một khối màu đỏ một cách chính xác nhưng không đặt đúng vị trí của chúng. Mô hình cũng đã được quan sát là gặp khó khăn với các lời nhắc yêu cầu một số lượng đối tượng cụ thể được vẽ ra.
Sự thiên vị trong tập dữ liệu
Nếu lời nhắc không có chi tiết nào khác, DALL-E đã được quan sát để mô tả môi trường và người da trắng hoặc phương Tây. Sự sai lệch đại diện này xảy ra do sự phong phú của các hình ảnh tập trung vào phương Tây trong tập dữ liệu.
Mô hình cũng được quan sát là tuân theo các định kiến giới. Ví dụ: gõ vào lời nhắc “tiếp viên hàng không” chủ yếu tạo ra hình ảnh của các tiếp viên hàng không nữ.
Google Imagen AI là gì?
Google Hình ảnh AI là một mô hình nhằm mục đích tạo ra các hình ảnh chân thực từ văn bản đầu vào. Tương tự như DALL-E, mô hình này cũng sử dụng các mô hình ngôn ngữ biến áp để hiểu văn bản và dựa vào việc sử dụng các mô hình khuếch tán để tạo ra hình ảnh chất lượng cao.
Cùng với Imagen, Google cũng đã phát hành một điểm chuẩn cho các mô hình chuyển văn bản thành hình ảnh được gọi là DrawBench. Bằng cách sử dụng DrawBench, họ có thể quan sát thấy rằng những người xếp hạng của con người thích đầu ra Imagen hơn các mô hình khác bao gồm cả DALL-E 2.
Làm thế nào nó làm việc?
Tương tự như DALL-E, Imagen lần đầu tiên chuyển đổi lời nhắc của người dùng thành một văn bản nhúng thông qua bộ mã hóa văn bản cố định.
Imagen sử dụng một mô hình khuếch tán học cách chuyển đổi một dạng nhiễu thành hình ảnh. Đầu ra ban đầu của những hình ảnh này có độ phân giải thấp và sau đó được chuyển qua một mô hình khác được gọi là mô hình khuếch tán siêu phân giải để tăng độ phân giải của hình ảnh cuối cùng. Mô hình khuếch tán đầu tiên xuất ra hình ảnh 64 × 64 pixel và sau đó được thổi lên thành hình ảnh có độ phân giải cao 1024 × 1024.
Dựa trên nghiên cứu của nhóm Imagen, các mô hình ngôn ngữ cố định lớn chỉ được đào tạo trên dữ liệu văn bản vẫn là bộ mã hóa văn bản hiệu quả cao để tạo văn bản thành hình ảnh.
Nghiên cứu cũng giới thiệu khái niệm về ngưỡng động. Phương pháp này cho phép hình ảnh có vẻ chân thực hơn bằng cách tăng trọng lượng hướng dẫn khi tạo hình ảnh.
Hiệu suất của DALLE 2 vs Imagen
Kết quả sơ bộ từ điểm chuẩn của Google cho thấy người trả lời thích hình ảnh do Imagen tạo ra hơn DALL-E 2 và các mô hình chuyển văn bản thành hình ảnh khác như Diffusion tiềm ẩn và VQGAN + CLIP.
Kết quả đến từ nhóm Imagen cũng cho thấy rằng mô hình của họ hoạt động tốt hơn trong việc đánh vần văn bản, một điểm yếu đã biết của mô hình DALL-E 2.
Tuy nhiên, vì Google vẫn chưa công bố mô hình này cho công chúng, nên vẫn còn phải xem các điểm chuẩn của Google chính xác đến mức nào.
Kết luận
Sự gia tăng của các mô hình chuyển văn bản thành hình ảnh thực tế đang gây tranh cãi vì những mô hình này đã chín muồi để sử dụng phi đạo đức.
Công nghệ này có thể dẫn đến việc tạo ra nội dung rõ ràng hoặc như một công cụ để làm sai lệch thông tin. Các nhà nghiên cứu từ cả Google và OpenAI đều nhận thức được điều này, đó là một phần lý do tại sao những công nghệ này vẫn chưa thể tiếp cận được với tất cả mọi người.
Mô hình chuyển văn bản thành hình ảnh cũng có ý nghĩa kinh tế đáng kể. Liệu những nghề như người mẫu, nhiếp ảnh gia và nghệ sĩ có bị ảnh hưởng nếu những người mẫu như DALL-E trở thành xu hướng chủ đạo?
Hiện tại, các mô hình này vẫn còn những hạn chế. Giữ bất kỳ hình ảnh nào do AI tạo ra để xem xét kỹ lưỡng sẽ cho thấy sự không hoàn hảo của nó. Với việc cả OpenAI và Google đều cạnh tranh để tìm ra các mô hình hiệu quả nhất, có thể chỉ là vấn đề thời gian trước khi tạo ra một đầu ra thực sự hoàn hảo: một hình ảnh không thể phân biệt được với thực tế.
Bạn nghĩ điều gì sẽ xảy ra khi công nghệ tiến xa đến vậy?
Bình luận