Chúng ta có thể chỉ mới bắt đầu một cuộc cách mạng AI thế hệ mới.
Trí tuệ nhân tạo sáng tạo đề cập đến các thuật toán và mô hình có khả năng tạo ra nội dung. Đầu ra của các mô hình như vậy bao gồm văn bản, âm thanh và hình ảnh thường có thể bị nhầm là đầu ra thực của con người.
Các ứng dụng như ChatGPT đã chỉ ra rằng AI tổng quát không chỉ là điều mới lạ. AI hiện có khả năng làm theo các hướng dẫn chi tiết và dường như có hiểu biết sâu sắc về cách thế giới vận hành.
Nhưng làm thế nào mà chúng ta đã đi đến điểm này? Trong hướng dẫn này, chúng ta sẽ điểm qua một số đột phá quan trọng trong nghiên cứu AI đã mở đường cho cuộc cách mạng AI thế hệ mới và thú vị này.
Sự trỗi dậy của mạng lưới thần kinh
Bạn có thể truy tìm nguồn gốc của AI hiện đại từ nghiên cứu về học sâu và mạng thần kinh 2012.
Vào năm đó, Alex Krizhevsky và nhóm của ông từ Đại học Toronto đã có thể đạt được một thuật toán có độ chính xác cao có thể phân loại các đối tượng.
Sản phẩm mạng lưới thần kinh tiên tiến, hiện được gọi là AlexNet, đã có thể phân loại các đối tượng trong cơ sở dữ liệu trực quan ImageNet với tỷ lệ lỗi thấp hơn nhiều so với người về nhì.
Mạng lưới thần kinh là các thuật toán sử dụng mạng các hàm toán học để tìm hiểu một hành vi cụ thể dựa trên một số dữ liệu huấn luyện. Ví dụ: bạn có thể cung cấp dữ liệu y tế cho mạng thần kinh để huấn luyện mô hình chẩn đoán một bệnh như ung thư.
Hy vọng là mạng thần kinh dần dần tìm thấy các mẫu trong dữ liệu và trở nên chính xác hơn khi được cung cấp dữ liệu mới.
AlexNet là một ứng dụng đột phá của một mạng lưới thần kinh tích chập hoặc CNN. Từ khóa “tích chập” đề cập đến việc bổ sung các lớp chập nhằm nhấn mạnh hơn vào dữ liệu gần nhau hơn.
Mặc dù CNN đã là một ý tưởng vào những năm 1980, nhưng chúng chỉ bắt đầu trở nên phổ biến vào đầu những năm 2010 khi công nghệ GPU mới nhất đã đẩy công nghệ này lên một tầm cao mới.
Thành công của CNN trong lĩnh vực thị giác máy tính đã dẫn đến sự quan tâm nhiều hơn đến việc nghiên cứu mạng lưới thần kinh.
Những gã khổng lồ công nghệ như Google và Facebook đã quyết định phát hành các khung AI của riêng họ ra công chúng. API cấp cao như Máy ảnh đã mang đến cho người dùng một giao diện thân thiện với người dùng để thử nghiệm các mạng thần kinh sâu.
CNN rất giỏi trong việc nhận dạng hình ảnh và phân tích video nhưng lại gặp khó khăn khi giải quyết các vấn đề dựa trên ngôn ngữ. Hạn chế này trong xử lý ngôn ngữ tự nhiên có thể tồn tại bởi vì hình ảnh và văn bản thực sự là những vấn đề khác nhau về cơ bản như thế nào.
Ví dụ: nếu bạn có một mô hình phân loại xem một hình ảnh có chứa đèn giao thông hay không, đèn giao thông được đề cập có thể xuất hiện ở bất kỳ đâu trong hình ảnh. Tuy nhiên, loại khoan hồng này không hoạt động tốt trong ngôn ngữ. Câu “Bob đã ăn cá” và “Cá đã ăn Bob” có ý nghĩa rất khác nhau mặc dù sử dụng cùng một từ.
Rõ ràng là các nhà nghiên cứu cần tìm ra một cách tiếp cận mới để giải quyết các vấn đề liên quan đến ngôn ngữ của con người.
Máy biến áp thay đổi mọi thứ
Trong 2017, một bài nghiên cứu có tiêu đề “Chú ý là tất cả những gì bạn cần” đã đề xuất một loại mạng mới: Máy biến áp.
Trong khi CNN hoạt động bằng cách lọc lặp đi lặp lại các phần nhỏ của hình ảnh, thì các máy biến áp kết nối mọi phần tử trong dữ liệu với mọi phần tử khác. Các nhà nghiên cứu gọi quá trình này là “tự chú ý”.
Khi cố gắng phân tích câu, CNN và máy biến áp hoạt động rất khác nhau. Trong khi CNN sẽ tập trung vào việc hình thành các kết nối với các từ gần nhau, thì một máy biến áp sẽ tạo ra các kết nối giữa từng từ trong một câu.
Quá trình tự chú ý là một phần không thể thiếu trong việc hiểu ngôn ngữ của con người. Bằng cách thu nhỏ và xem toàn bộ câu khớp với nhau như thế nào, máy móc có thể hiểu rõ hơn về cấu trúc của câu.
Khi các mô hình máy biến áp đầu tiên được phát hành, các nhà nghiên cứu đã sớm sử dụng kiến trúc mới để tận dụng lượng dữ liệu văn bản đáng kinh ngạc được tìm thấy trên internet.
GPT-3 và Internet
Vào năm 2020, OpenAI's GPT-3 mô hình cho thấy máy biến áp có thể hiệu quả như thế nào. GPT-3 có thể xuất văn bản gần như không thể phân biệt được với con người. Một phần khiến GPT-3 trở nên mạnh mẽ như vậy là lượng dữ liệu đào tạo được sử dụng. Hầu hết tập dữ liệu trước khi đào tạo của mô hình đến từ tập dữ liệu được gọi là Thu thập thông tin chung đi kèm với hơn 400 tỷ mã thông báo.
Mặc dù khả năng tạo văn bản giống người thật của GPT-3 đã là một bước đột phá, nhưng các nhà nghiên cứu đã phát hiện ra cách mà cùng một mô hình có thể giải quyết các tác vụ khác.
Ví dụ: cùng một mô hình GPT-3 mà bạn có thể sử dụng để tạo một tweet cũng có thể giúp bạn tóm tắt văn bản, viết lại một đoạn văn và kết thúc một câu chuyện. Các mô hình ngôn ngữ đã trở nên mạnh mẽ đến mức giờ đây về cơ bản chúng là những công cụ có mục đích chung tuân theo bất kỳ loại mệnh lệnh nào.
Bản chất mục đích chung của GPT-3 đã cho phép các ứng dụng như vậy Trợ lý GitHub, cho phép các lập trình viên tạo mã làm việc từ tiếng Anh đơn giản.
Mô hình khuếch tán: Từ văn bản đến hình ảnh
Tiến bộ đạt được với máy biến áp và NLP cũng đã mở đường cho AI sáng tạo trong các lĩnh vực khác.
Trong lĩnh vực thị giác máy tính, chúng tôi đã đề cập đến việc học sâu cho phép máy hiểu hình ảnh như thế nào. Tuy nhiên, chúng tôi vẫn cần tìm cách để AI tự tạo ra hình ảnh thay vì chỉ phân loại chúng.
Các mô hình hình ảnh tổng quát như DALL-E 2, Stable Diffusion và Midjourney đã trở nên phổ biến nhờ cách chúng có thể chuyển đổi kiểu nhập văn bản thành hình ảnh.
Các mô hình hình ảnh này dựa trên hai khía cạnh chính: một mô hình hiểu mối quan hệ giữa hình ảnh và văn bản và một mô hình thực sự có thể tạo ra hình ảnh độ nét cao phù hợp với đầu vào.
OpenAI's CLIP (Contrastive Language–Image Pre-training) là một mô hình mã nguồn mở nhằm giải quyết khía cạnh thứ nhất. Đưa ra một hình ảnh, mô hình CLIP có thể dự đoán mô tả văn bản phù hợp nhất cho hình ảnh cụ thể đó.
Mô hình CLIP hoạt động bằng cách học cách trích xuất các tính năng quan trọng của hình ảnh và tạo một biểu diễn hình ảnh đơn giản hơn.
Khi người dùng cung cấp đầu vào văn bản mẫu cho DALL-E 2, đầu vào được chuyển đổi thành “nhúng hình ảnh” bằng mô hình CLIP. Mục tiêu bây giờ là tìm cách tạo ra một hình ảnh phù hợp với việc nhúng hình ảnh được tạo ra.
AI hình ảnh thế hệ mới nhất sử dụng một mô hình khuếch tán để giải quyết nhiệm vụ thực sự tạo ra một hình ảnh. Các mô hình khuếch tán dựa trên các mạng thần kinh đã được đào tạo trước để biết cách loại bỏ nhiễu khỏi hình ảnh.
Trong quá trình đào tạo này, mạng thần kinh cuối cùng có thể học cách tạo ra một hình ảnh có độ phân giải cao từ một hình ảnh nhiễu ngẫu nhiên. Vì chúng tôi đã có bản đồ văn bản và hình ảnh do CLIP cung cấp nên chúng tôi có thể đào tạo một mô hình khuếch tán trên nhúng hình ảnh CLIP để tạo quy trình tạo bất kỳ hình ảnh nào.
Cuộc cách mạng AI sáng tạo: Điều gì sẽ xảy ra tiếp theo?
Hiện tại chúng ta đang ở thời điểm mà những đột phá về AI tổng quát đang diễn ra cứ sau vài ngày. Với việc tạo ra các loại phương tiện khác nhau bằng AI ngày càng trở nên dễ dàng hơn, chúng ta có nên lo lắng về việc điều này có thể ảnh hưởng đến xã hội của chúng ta như thế nào không?
Trong khi những lo lắng về việc máy móc thay thế công nhân luôn được nhắc đến kể từ khi phát minh ra động cơ hơi nước, thì có vẻ như lần này có một chút khác biệt.
AI sáng tạo đang trở thành một công cụ đa năng có thể phá vỡ các ngành được coi là an toàn trước sự tiếp quản của AI.
Liệu chúng ta có cần lập trình viên nếu AI có thể bắt đầu viết mã hoàn hảo từ một vài hướng dẫn cơ bản? Mọi người sẽ thuê những người sáng tạo nếu họ chỉ có thể sử dụng một mô hình chung để tạo ra sản phẩm mà họ muốn với giá rẻ hơn?
Rất khó để dự đoán tương lai của cuộc cách mạng trí tuệ nhân tạo. Nhưng giờ đây khi chiếc hộp Pandora tượng trưng đã được mở ra, tôi hy vọng rằng công nghệ này sẽ cho phép tạo ra nhiều đổi mới thú vị hơn có thể để lại tác động tích cực đến thế giới.
Bình luận