Bạn có thể đã nghe nói về việc các mô hình AI chuyển văn bản thành hình ảnh đã trở nên mạnh mẽ như thế nào trong vài năm qua. Nhưng bạn có biết rằng chính công nghệ đó có thể giúp tạo ra bước nhảy vọt từ 2D sang 3D không?
Các mô hình 3D do AI tạo ra có trường hợp sử dụng rộng rãi trong bối cảnh kỹ thuật số ngày nay. Video games và phim dựa vào các nghệ sĩ 3D lành nghề và phần mềm mô hình hóa như Blender để tạo nội dung 3D để tạo cảnh do máy tính tạo.
Tuy nhiên, liệu ngành công nghiệp này có thể sử dụng máy học để tạo nội dung 3D mà tốn ít công sức hơn hay không, tương tự như cách các nghệ sĩ 2D ngày nay bắt đầu áp dụng công nghệ như DALL-E và midjourney?
Bài viết này sẽ khám phá một thuật toán mới cố gắng tạo một mô hình chuyển văn bản thành 3D hiệu quả bằng cách sử dụng mô hình khuếch tán.
Là gì giấc mơ?
Một vấn đề lớn với việc tạo mô hình khuếch tán trực tiếp tạo nội dung 3D là không có nhiều dữ liệu 3D sẵn có. Các mô hình khuếch tán 2D đã trở nên rất mạnh mẽ nhờ vào bộ dữ liệu hình ảnh khổng lồ được tìm thấy trên internet. Điều tương tự không thể xảy ra với nội dung 3D.
Một số kỹ thuật tạo 3D khắc phục tình trạng thiếu dữ liệu này bằng cách tận dụng lợi thế của dữ liệu 2D phong phú này.
Giấc mơ hợp nhất là một mô hình tổng quát có thể tạo mô hình 3D dựa trên mô tả văn bản được cung cấp. Mô hình DreamFusion sử dụng mô hình khuếch tán văn bản thành hình ảnh được đào tạo trước để tạo mô hình ba chiều thực tế từ lời nhắc văn bản.
Mặc dù không có dữ liệu đào tạo 3D, phương pháp này đã tạo ra các nội dung 3D nhất quán với hình thức và chiều sâu có độ trung thực cao.
Nó hoạt động như thế nào?
Thuật toán DreamFusion bao gồm hai mô hình chính: mô hình khuếch tán 2D và mô hình mạng lưới thần kinh có thể chuyển đổi hình ảnh 2D thành cảnh 3D gắn kết.
Mô hình chuyển văn bản thành hình ảnh của Google Imagen
Phần đầu tiên của thuật toán là mô hình khuếch tán. Mô hình này chịu trách nhiệm chuyển đổi văn bản thành hình ảnh.
Ảnh là một mô hình khuếch tán có thể tạo ra một mẫu lớn các biến thể hình ảnh của một đối tượng cụ thể. Trong trường hợp này, các biến thể hình ảnh của chúng tôi sẽ bao phủ tất cả các góc có thể có của đối tượng được cung cấp. Ví dụ: nếu chúng tôi muốn tạo mô hình 3D của một con ngựa, chúng tôi sẽ muốn có hình ảnh 2D của con ngựa từ mọi góc độ có thể. Mục tiêu là sử dụng Imagen để cung cấp càng nhiều thông tin càng tốt (màu sắc, phản xạ, mật độ) cho mô hình tiếp theo trong thuật toán của chúng tôi.
Tạo mô hình 3D với NeRF
Tiếp theo, Dreamfusion sử dụng một mô hình được gọi là Trường ánh sáng thần kinh hoặc NeRF để thực sự tạo mô hình 3D từ tập hợp hình ảnh đã tạo. NeRF có thể tạo các cảnh 3D phức tạp với bộ dữ liệu hình ảnh 2D.
Hãy cố gắng hiểu cách thức hoạt động của NeRF.
Mô hình nhằm mục đích tạo ra một chức năng cảnh thể tích liên tục được tối ưu hóa từ bộ dữ liệu hình ảnh 2D được cung cấp.
Nếu mô hình tạo ra một chức năng, đầu vào và đầu ra là gì?
Chức năng cảnh lấy vị trí 3D và hướng xem 2D làm đầu vào. Sau đó, chức năng này xuất ra một màu (ở dạng RGB) và mật độ âm lượng cụ thể.
Để tạo hình ảnh 2D từ một điểm nhìn cụ thể, mô hình sẽ tạo một tập hợp các điểm 3D và chạy các điểm đó thông qua chức năng cảnh để trả về một tập hợp các giá trị mật độ màu và âm lượng. Các kỹ thuật kết xuất khối lượng sau đó sẽ chuyển đổi các giá trị đó thành đầu ra hình ảnh 2D.
Sử dụng các mô hình khuếch tán NeRF và 2D cùng nhau
Bây giờ chúng ta đã biết cách NeRF hoạt động, hãy xem cách mô hình này có thể tạo mô hình 3D chính xác từ các hình ảnh được tạo của chúng ta.
Đối với mỗi lời nhắc văn bản được cung cấp, DreamFusion huấn luyện một NeRF được khởi tạo ngẫu nhiên từ đầu. Mỗi lần lặp lại chọn một vị trí camera ngẫu nhiên trong một tập hợp các tọa độ hình cầu. Hãy nghĩ về mô hình được bọc trong một quả cầu thủy tinh. Mỗi lần chúng tôi tạo một hình ảnh mới về mô hình 3D của mình, chúng tôi sẽ chọn một điểm ngẫu nhiên trong quả cầu làm điểm thuận lợi cho đầu ra của chúng tôi. DreamFusion cũng sẽ chọn một vị trí ánh sáng ngẫu nhiên l để sử dụng cho kết xuất.
Khi chúng ta có camera và vị trí ánh sáng, một mô hình NeRF sẽ được hiển thị. DreamFusion cũng sẽ chọn ngẫu nhiên giữa kết xuất có màu, kết xuất không có họa tiết và kết xuất suất phản chiếu không có bất kỳ bóng nào.
Chúng tôi đã đề cập trước đó rằng chúng tôi muốn mô hình chuyển văn bản thành hình ảnh (Imagen) của mình tạo ra đủ hình ảnh để tạo mẫu đại diện.
Làm thế nào để Dreamfusion thực hiện điều này?
Dreamfusion chỉ cần sửa đổi một chút dấu nhắc đầu vào để đạt được các góc mong muốn. Ví dụ: chúng tôi có thể đạt được các góc độ cao cao bằng cách thêm "chế độ xem trên cao" vào lời nhắc của chúng tôi. Chúng ta có thể tạo các góc khác bằng cách thêm các cụm từ như “mặt trước”, “mặt bên” và “mặt sau”.
Các cảnh được hiển thị lặp lại từ các vị trí máy ảnh ngẫu nhiên. Những kết xuất này sau đó đi qua một chức năng mất mát chưng cất điểm số. Một cách tiếp cận giảm độ dốc đơn giản sẽ từ từ cải thiện Mô hình 3D cho đến khi nó phù hợp với cảnh được mô tả bởi văn bản.
Khi chúng tôi đã kết xuất mô hình 3D bằng NeRF, chúng tôi có thể sử dụng Thuật toán Marching Cubes để xuất lưới 3D của mô hình của chúng tôi. Lưới này sau đó có thể được nhập vào các trình kết xuất 3D phổ biến hoặc phần mềm mô hình hóa.
Hạn chế
Mặc dù đầu ra của DreamFusion đủ ấn tượng vì nó sử dụng các mô hình khuếch tán văn bản thành hình ảnh hiện có theo một cách mới lạ, nhưng các nhà nghiên cứu đã lưu ý một số hạn chế.
Hàm mất mát SDS đã được quan sát để tạo ra kết quả quá bão hòa và quá mịn. Bạn có thể quan sát điều này trong màu sắc không tự nhiên và thiếu chi tiết chính xác được tìm thấy trong kết quả đầu ra.
Thuật toán DreamFusion cũng bị giới hạn bởi độ phân giải của đầu ra mô hình Imagen, là 64 x 64 pixel. Điều này dẫn đến các mô hình tổng hợp thiếu chi tiết tốt hơn.
Cuối cùng, các nhà nghiên cứu đã lưu ý rằng có một thách thức cố hữu trong việc tổng hợp các mô hình 3D từ dữ liệu 2D. Có nhiều mô hình 3D khả thi mà chúng ta có thể tạo từ một tập hợp các hình ảnh 2D, điều này làm cho việc tối ưu hóa trở nên khá khó khăn và thậm chí mơ hồ.
Kết luận
Kết xuất 3D của DreamFusion hoạt động rất tốt nhờ khả năng của các mô hình khuếch tán văn bản thành hình ảnh để tạo bất kỳ đối tượng hoặc cảnh nào. Thật ấn tượng khi một mạng thần kinh có thể hiểu được một cảnh trong không gian 3D mà không cần bất kỳ dữ liệu huấn luyện 3D nào. Tôi khuyên bạn nên đọc toàn bộ giấy để tìm hiểu thêm về các chi tiết kỹ thuật của thuật toán DreamFusion.
Hy vọng, công nghệ này sẽ cải thiện để cuối cùng tạo ra các mô hình 3D giống như ảnh thực. Hãy tưởng tượng toàn bộ trò chơi điện tử hoặc mô phỏng sử dụng môi trường do AI tạo ra. Nó có thể hạ thấp rào cản gia nhập đối với các nhà phát triển trò chơi điện tử để tạo ra thế giới 3D sống động!
Bạn nghĩ mô hình chuyển văn bản thành 3D sẽ đóng vai trò gì trong tương lai?
Bình luận