Mục lục[Ẩn giấu][Chỉ]
Này, bạn có biết rằng một cảnh 3D có thể được tạo từ đầu vào dữ liệu 2D trong vài giây với mô hình kết xuất thần kinh NeRF tức thì của NVIDIA và các bức ảnh về cảnh đó có thể được hiển thị trong mili giây?
Có thể nhanh chóng chuyển đổi bộ sưu tập ảnh tĩnh thành môi trường 3D kỹ thuật số bằng cách sử dụng kỹ thuật được gọi là kết xuất ngược, cho phép AI bắt chước cách ánh sáng hoạt động trong thế giới thực.
Đây là một trong những mô hình đầu tiên của loại hình này có thể kết hợp đào tạo mạng nơ-ron cực nhanh và kết xuất nhanh chóng, nhờ vào một kỹ thuật mà nhóm nghiên cứu của NVIDIA đã phát minh ra để hoàn thành hoạt động cực kỳ nhanh chóng - gần như ngay lập tức.
Bài viết này sẽ xem xét chuyên sâu về NeRF của NVIDIA, bao gồm tốc độ, các trường hợp sử dụng và các yếu tố khác.
Vậy, cái gì NeRF?
NeRF là viết tắt của các trường bức xạ thần kinh, dùng để chỉ kỹ thuật tạo ra các khung nhìn độc đáo của các cảnh phức tạp bằng cách tinh chỉnh chức năng cảnh liên tục cơ bản bằng cách sử dụng một số lượng nhỏ các khung nhìn đầu vào.
Khi được cung cấp một bộ sưu tập ảnh 2D làm đầu vào, các NeRF của NVIDIA sẽ sử dụng mạng thần kinh để trình bày và tạo cảnh 3D.
Một số lượng nhỏ ảnh chụp từ nhiều góc độ khác nhau xung quanh khu vực là cần thiết để mạng lưới thần kinh, cùng với vị trí của máy ảnh trong mỗi khung hình.
Những bức ảnh này được chụp càng sớm càng tốt, đặc biệt là trong những cảnh có diễn viên hoặc vật thể chuyển động.
Cảnh 3D do AI tạo sẽ bị nhòe nếu có quá nhiều chuyển động trong quá trình chụp ảnh 2D.
Bằng cách dự đoán màu sắc của ánh sáng phát ra theo mọi hướng từ bất kỳ vị trí nào trong môi trường 3D, NeRF lấp đầy hiệu quả các khoảng trống do dữ liệu này để lại để tạo ra toàn bộ hình ảnh.
Vì NeRF có thể tạo cảnh 3D trong vài mili giây sau khi nhận được đầu vào thích hợp, nên đây là cách tiếp cận NeRF nhanh nhất cho đến nay.
NeRF hoạt động nhanh đến mức gần như tức thời, do đó có tên gọi như vậy. Nếu các biểu diễn 3D tiêu chuẩn như lưới đa giác là ảnh vectơ, thì NeRF là ảnh bitmap: chúng nắm bắt mật độ cách ánh sáng phát ra từ một đối tượng hoặc bên trong một cảnh.
NeRF tức thì là điều cần thiết đối với 3D vì máy ảnh kỹ thuật số và nén JPEG đã từng là nhiếp ảnh 2D, nâng cao đáng kể tốc độ, sự tiện lợi và phạm vi chụp và chia sẻ 3D.
NeRF tức thì có thể được sử dụng để tạo hình đại diện hoặc thậm chí toàn bộ cảnh cho thế giới ảo.
Để bày tỏ lòng kính trọng đối với những ngày đầu của ảnh Polaroid, nhóm Nghiên cứu NVIDIA đã tái tạo bức ảnh nổi tiếng của Andy Warhol khi chụp một bức ảnh tức thì và chuyển nó thành cảnh 3D bằng Instant NeRF.
Nó có thực sự nhanh hơn 1,000 lần không?
Một cảnh 3D có thể mất hàng giờ để tạo trước NeRF, tùy thuộc vào độ phức tạp và chất lượng của nó.
AI đã đẩy nhanh quá trình này lên rất nhiều, nhưng vẫn có thể mất hàng giờ để đào tạo đúng cách. Sử dụng một phương pháp được gọi là mã hóa băm đa độ phân giải, được tiên phong bởi NVIDIA, Instant NeRF giảm thời gian hiển thị xuống 1,000.
Gói Mạng thần kinh CUDA nhỏ và Bộ công cụ NVIDIA CUDA đã được sử dụng để tạo mô hình. Theo NVIDIA, vì nó là một mạng nơ-ron nhẹ, nó có thể được đào tạo và sử dụng trên một GPU NVIDIA duy nhất, với thẻ NVIDIA Tensor Core hoạt động ở tốc độ nhanh nhất.
Trường hợp sử dụng
Ô tô tự lái là một trong những ứng dụng quan trọng nhất của công nghệ này. Những phương tiện này phần lớn hoạt động bằng cách tưởng tượng môi trường xung quanh khi chúng đi.
Tuy nhiên, vấn đề với công nghệ ngày nay là nó vụng về và mất quá nhiều thời gian.
Tuy nhiên, sử dụng Instant NeRF, tất cả những gì cần thiết cho một chiếc xe tự lái để ước tính / hiểu được kích thước và hình dạng của các vật thể trong thế giới thực là chụp ảnh tĩnh, biến chúng thành 3D và sau đó sử dụng thông tin đó.
Vẫn có thể có một cách sử dụng khác trong metaverse hoặc video game các ngành sản xuất.
Bởi vì Instant NeRF cho phép bạn xây dựng hình đại diện hoặc thậm chí toàn bộ thế giới ảo một cách nhanh chóng, điều này là đúng.
hầu như ít Nhân vật 3D sẽ cần phải lập mô hình vì tất cả những gì bạn cần làm là chạy mạng thần kinh và nó sẽ tạo ra một ký tự cho bạn.
Ngoài ra, NVIDIA vẫn đang khám phá việc áp dụng công nghệ này cho các ứng dụng bổ sung liên quan đến học máy.
Ví dụ: nó có thể được sử dụng để dịch các ngôn ngữ chính xác hơn trước đây và nâng cao mục đích chung học kĩ càng các thuật toán hiện đang được sử dụng cho nhiều nhiệm vụ hơn.
Kết luận
Nhiều vấn đề về đồ họa dựa vào cấu trúc dữ liệu theo tác vụ cụ thể để tận dụng độ mượt mà hoặc thưa thớt của vấn đề.
Giải pháp thay thế dựa trên học tập thực tế được cung cấp bởi mã hóa băm đa độ phân giải của NVIDIA tự động tập trung vào chi tiết thích hợp, bất kể khối lượng công việc là bao nhiêu.
Để tìm hiểu thêm về cách mọi thứ hoạt động bên trong, hãy xem chính thức GitHub kho.
Bình luận