Mục lục[Ẩn giấu][Chỉ]
Các mô hình chuyển văn bản thành hình ảnh lớn đã tạo ra một tiến bộ đáng kể trong sự phát triển của AI bằng cách tạo ra tổng hợp hình ảnh chất lượng cao và đa dạng từ một dấu nhắc văn bản nhất định.
Các mô hình này không thể tổng hợp các đại diện duy nhất của các đối tượng trong các cài đặt khác nhau hoặc để tái tạo diện mạo của các đối tượng trong một tập hợp tham chiếu nhất định.
Các công nghệ mới được phát hành như DALL.E2 của OpenAI hoặc StabilityAI's Khuếch tán ổn định và Midjourney đang chiếm lĩnh Internet như vũ bão. Bây giờ là lúc để tùy chỉnh kết quả. Tuy nhiên, làm thế nào?
Google DreamBooth AI đã ra mắt.
DreamBooth có khả năng nhận ra chủ đề của một bức tranh, giải cấu trúc nó khỏi bối cảnh ban đầu và sau đó tổng hợp chính xác nó thành một ngữ cảnh mong muốn mới. Ngoài ra, nó có thể được sử dụng với các trình tạo ảnh AI hiện tại.
Trong bài viết này, chúng ta sẽ xem xét sâu về DreamBooth, cách sử dụng, hướng dẫn sử dụng, những hạn chế của nó và nhiều hơn thế nữa.
Dreambooth là gì?
Dream Booth, một mô hình khuếch tán văn bản thành hình ảnh hoàn toàn mới, đã được trình bày bởi Google. Lời nhắc bằng văn bản có thể được sử dụng làm hướng dẫn bởi Google DreamBooth AI để tạo ra nhiều loại ảnh về chủ đề đã chọn của người dùng trong các cài đặt khác nhau.
Một nhóm nghiên cứu từ Đại học Boston và Google đã phát triển DreamBooth, một kỹ thuật tiên tiến để thay đổi mô hình văn bản thành hình ảnh đã trải qua quá trình đào tạo trước rất nhiều.
Khái niệm tổng thể khá đơn giản: họ muốn tăng từ điển hình ảnh ngôn ngữ để các ID mã thông báo không phổ biến được liên kết với các chủ đề tùy chỉnh mà người dùng có thể xác định.
Mục tiêu chính của mô hình là kết nối người dùng với mô hình khuếch tán văn bản sang hình ảnh bằng cách cung cấp cho họ các nguồn lực cần thiết để tạo ra các bản trình bày chân thực về các thể hiện của chủ đề mà họ đã chọn.
Do đó, kỹ thuật này dường như hoạt động tốt để tóm tắt các thử thách trong một loạt các tình huống.
DreamBooth của Google khác với các công cụ chuyển văn bản thành hình ảnh trước đây, chẳng hạn như DALL-E2, Khuếch tán ổn địnhvà midjourney, trong đó nó cung cấp cho người dùng nhiều quyền kiểm soát hơn đối với hình ảnh chủ đề trước khi cho phép họ thao tác mô hình khuếch tán bằng cách sử dụng đầu vào dựa trên văn bản.
Tính năng
- DreamBooth AI có thể cải thiện mô hình chuyển văn bản thành hình ảnh với 3-5 hình ảnh.
- Những bức ảnh chân thực gốc có thể được tạo bằng DreamBooth AI.
- Ngoài ra, DreamBooth AI có thể tạo ra các bức ảnh về một chủ đề từ nhiều góc độ.
Các Ứng Dụng
Biểu diễn nghệ thuật
Nhiệm vụ này đặc biệt khác với chuyển kiểu, giữ ngữ nghĩa của cảnh nguồn trong khi kết hợp kiểu của ảnh khác vào cảnh gốc.
Dựa trên cách tiếp cận sáng tạo, AI có thể thực hiện các thay đổi cảnh quan trọng trong khi vẫn duy trì nhận dạng và các chi tiết cụ thể của trường hợp chủ đề.
Sửa đổi tài sản
Các đặc điểm của đối tượng có thể được sửa đổi bởi DreamBooth AI.
Phụ kiện hóa
Thành phần cấu tạo mạnh mẽ trước mô hình thế hệ là điều khiến khả năng tô điểm các vật thể của DreamBooth AI trở nên thú vị.
Văn bản hóa lại
DreamBooth AI có thể tạo ra các hình ảnh đặc biệt cho một trường hợp chủ đề nhất định bằng cách cung cấp cho một mô hình được đào tạo một câu bao gồm từ định danh duy nhất và danh từ lớp.
Nó có thể tạo ra đối tượng ở các tư thế, khớp nối và cấu trúc cảnh độc đáo, chưa từng có trước đây thay vì thay đổi môi trường xung quanh. Phản xạ và bóng đổ thực tế, cũng như tương tác giữa chủ thể và các vật thể xung quanh.
Hướng dẫn về Dreambooth
Trong hướng dẫn này, chúng ta sẽ làm theo Sổ ghi chép Google Collab, và tôi sẽ hướng dẫn bạn qua nó, điều này sẽ khiến bạn hiểu và sử dụng nó một mình.
Thiết lập GPU và cài đặt thư viện
Tìm hiểu những loại GPU và VRAM có sẵn là bước đầu tiên. Việc cài đặt một vài yêu cầu và phụ thuộc cũng cần thiết. Đơn giản chỉ cần nhấn nút phát, sau đó đợi nó kết thúc.
Tạo tài khoản trên Huggingface và tạo mã thông báo
Bước tiếp theo là đăng ký tài khoản Huggingface. Khi bạn hoàn tất, hãy nhấp vào cài đặt ở góc trên cùng bên phải. Bạn sẽ đến trang tiếp theo.
Tạo mã thông báo và tên theo yêu cầu từ đây. Mã thông báo phải được sao chép và dán vào Google collab trong ô bên dưới.
Cài đặt xformers
Trong giai đoạn này, bạn có thể chỉ cần nhấn nút phát để cài đặt xformers bằng cách nhấp vào thời gian chạy.
Kết nối với Drive
Bây giờ, bạn chỉ cần chạy ô này để kết nối với google drive.
Nhập lời nhắc
Trong ô sau, bạn chỉ cần nhập lời nhắc.
Tải lên hình ảnh
Trong bước này, bạn chỉ cần tải lên các hình ảnh mà bạn muốn huấn luyện.
Đào tạo mô hình AI
Đây là giai đoạn quan trọng nhất, vì bạn sẽ sử dụng DreamBooth để đào tạo một mô hình AI mới dựa trên tất cả các bức ảnh tham khảo đã gửi của bạn. Bạn phải giới hạn sự chú ý của mình vào hai trường đầu vào. “— Lời nhắc thiết lập” là tham số đầu tiên. Bạn phải cung cấp một cái tên rất khác biệt ở đây.
Đối số '–concept list' là trường đầu vào quan trọng thứ hai. Nó phải được đổi tên để phù hợp với tên được sử dụng trong phần 'Thay đổi lời nhắc'.
Tạo hình ảnh AI
Ảnh AI sẽ được tạo ở giai đoạn này, nơi bạn có thể nhập các hướng dẫn bằng văn bản.
Hạn chế của Dreambooth
- Dấu nhắc lệnh trở thành rào cản đối với việc lặp lại chủ đề với mức độ chi tiết cao. DreamBooth có thể thay đổi bối cảnh của chủ thể, nhưng nếu người mẫu muốn tự thay đổi chủ thể thì sẽ có vấn đề với khung hình.
- Một vấn đề khác là lắp quá nhiều hình ảnh đầu ra vào hình ảnh đầu vào. Nếu không cung cấp đủ ảnh, đối tượng có thể không được xem xét hoặc có thể bị trộn lẫn với bối cảnh của ảnh đã gửi. Khi một bối cảnh cho một thế hệ kỳ quặc được hỏi, điều tương tự cũng diễn ra.
Kết luận
Để tạo ra kết quả từ một đầu vào văn bản, phần lớn các mô hình chuyển văn bản thành hình ảnh yêu cầu hàng triệu tham số và thư viện.
DreamBooth đơn giản hóa việc thu nhận và sử dụng nội dung cho người tiêu dùng bằng cách chỉ yêu cầu nhập từ ba đến năm bức ảnh chủ đề cùng với nền văn bản.
Bình luận