Trong nhiều năm, học sâu đã trở thành tiêu đề hàng đầu trong lĩnh vực công nghệ. Và, thật đơn giản để hiểu tại sao.
Nhánh trí tuệ nhân tạo này đang chuyển đổi các lĩnh vực từ chăm sóc sức khỏe đến ngân hàng sang vận tải, tạo điều kiện cho những tiến bộ không thể tưởng tượng được trước đây.
Học sâu được xây dựng trên một tập hợp các thuật toán phức tạp học cách trích xuất và dự đoán các mẫu phức tạp từ khối lượng dữ liệu khổng lồ.
Chúng ta sẽ xem xét 15 thuật toán học sâu tốt nhất trong bài đăng này, từ Mạng thần kinh chuyển đổi đến Mạng đối thủ sáng tạo đến mạng Bộ nhớ ngắn hạn dài.
Bài đăng này sẽ cung cấp những hiểu biết cần thiết về việc liệu bạn có phải là một người mới bắt đầu hoặc một chuyên gia trong lĩnh vực học sâu.
1. Mạng máy biến áp
Mạng biến áp đã biến đổi thị giác máy tính và các ứng dụng xử lý ngôn ngữ tự nhiên (NLP). Họ phân tích dữ liệu đến và sử dụng các quy trình chú ý để nắm bắt các mối quan hệ lâu dài. Điều này làm cho chúng nhanh hơn so với các mô hình tuần tự theo trình tự thông thường.
Mạng máy biến áp lần đầu tiên được mô tả trong ấn phẩm “Attention Is All You Need” của Vaswani et al.
Chúng bao gồm một bộ mã hóa và một bộ giải mã (2017). Mô hình máy biến áp đã thể hiện hiệu suất trong nhiều ứng dụng NLP, bao gồm Phân tích tâm lý, phân loại văn bản và dịch máy.
Các mô hình dựa trên máy biến áp cũng có thể được sử dụng trong thị giác máy tính cho các ứng dụng. Họ có thể thực hiện nhận dạng đối tượng và chú thích hình ảnh.
2. Mạng bộ nhớ ngắn hạn dài (LSTM)
Mạng bộ nhớ ngắn hạn dài (LSTM) là một dạng mạng lưới thần kinh đặc biệt được xây dựng để xử lý đầu vào tuần tự. Chúng được gọi là “dài hạn ngắn hạn” bởi vì chúng có thể nhớ lại kiến thức từ rất lâu trong khi quên đi những thông tin không cần thiết.
LSTM hoạt động thông qua một số “cổng” điều khiển luồng thông tin bên trong mạng. Tùy thuộc vào việc thông tin có được đánh giá là quan trọng hay không, các cổng này có thể cho phép hoặc ngăn chặn thông tin đó.
Kỹ thuật này cho phép LSTM nhớ lại hoặc quên thông tin từ các bước trong quá khứ, điều này rất quan trọng đối với các tác vụ như nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên và dự đoán chuỗi thời gian.
LSTM cực kỳ có lợi trong mọi trường hợp khi bạn có dữ liệu tuần tự cần được đánh giá hoặc dự báo. Chúng thường được sử dụng trong phần mềm nhận dạng giọng nói để chuyển lời nói thành văn bản hoặc trong thị trường chứng khoán phân tích để dự báo giá trong tương lai dựa trên dữ liệu trước đó.
3. Bản đồ tự tổ chức (SOM)
SOM là một loại nhân tạo mạng lưới thần kinh có thể học và biểu diễn dữ liệu phức tạp trong môi trường ít chiều. Phương pháp này hoạt động bằng cách chuyển đổi dữ liệu đầu vào nhiều chiều thành lưới hai chiều, với mỗi đơn vị hoặc nơ-ron đại diện cho một phần khác nhau của không gian đầu vào.
Các nơ-ron được liên kết với nhau và tạo ra một cấu trúc tôpô, cho phép chúng học và điều chỉnh theo dữ liệu đầu vào. Vì vậy, SOM dựa trên học tập không giám sát.
Thuật toán không cần dữ liệu được gắn nhãn để học hỏi từ. Thay vào đó, nó sử dụng các tính năng thống kê của dữ liệu đầu vào để khám phá các mẫu và mối tương quan giữa các biến.
Trong giai đoạn đào tạo, các tế bào thần kinh cạnh tranh để trở thành dấu hiệu tốt nhất của dữ liệu đầu vào. Và, chúng tự tổ chức thành một cấu trúc có ý nghĩa. SOM có nhiều ứng dụng, bao gồm nhận dạng hình ảnh và giọng nói, khai thác dữ liệu và nhận dạng mẫu.
Chúng hữu ích cho trực quan hóa dữ liệu phức tạp, phân cụm các điểm dữ liệu liên quan và phát hiện các điểm bất thường hoặc ngoại lệ.
4. Học tăng cường sâu
Sâu Học tăng cường là một loại máy học trong đó một tác nhân được đào tạo để đưa ra quyết định dựa trên hệ thống phần thưởng. Nó hoạt động bằng cách cho phép tác nhân tương tác với môi trường xung quanh và học hỏi thông qua thử và sai.
Đại lý được khen thưởng cho mọi hành động mà họ thực hiện và mục đích của đại lý là học cách tối ưu hóa lợi ích của mình theo thời gian. Điều này có thể được sử dụng để dạy các đặc vụ chơi trò chơi, lái ô tô và thậm chí điều khiển rô-bốt.
Q-Learning là một phương pháp Deep Reinforcement Learning nổi tiếng. Nó hoạt động bằng cách đánh giá giá trị của việc thực hiện một hành động nhất định trong một trạng thái cụ thể và cập nhật ước tính đó khi tác nhân tương tác với môi trường.
Sau đó, tác nhân sử dụng các ước tính này để xác định hành động nào có nhiều khả năng dẫn đến phần thưởng lớn nhất. Q-Learning đã được sử dụng để hướng dẫn các đại lý chơi trò chơi Atari, cũng như cải thiện việc sử dụng năng lượng trong các trung tâm dữ liệu.
Deep Q-Networks là một phương pháp Deep Reinforcement Learning (DQN) nổi tiếng khác. DQN tương tự như Q-Learning ở chỗ chúng ước tính các giá trị hành động bằng cách sử dụng mạng nơ-ron sâu thay vì bảng.
Điều này cho phép họ xử lý các cài đặt lớn, phức tạp với nhiều hành động thay thế. DQN đã được sử dụng để huấn luyện các đặc vụ chơi các trò chơi như cờ vây và Dota 2, cũng như để tạo ra các rô-bốt có thể học cách đi lại.
5. Mạng thần kinh tái phát (RNN)
RNN là một loại mạng thần kinh có thể xử lý dữ liệu tuần tự trong khi vẫn giữ trạng thái bên trong. Hãy xem nó tương tự như một người đọc một cuốn sách, trong đó mỗi từ được tiêu hóa trong mối quan hệ với những từ xuất hiện trước nó.
Do đó, RNN rất lý tưởng cho các tác vụ như nhận dạng giọng nói, dịch ngôn ngữ và thậm chí dự báo từ tiếp theo trong một cụm từ.
RNN hoạt động bằng cách sử dụng các vòng phản hồi để kết nối đầu ra của mỗi bước thời gian với đầu vào của bước thời gian tiếp theo. Điều này cho phép mạng sử dụng thông tin về bước thời gian trước đó để thông báo dự đoán của nó cho các bước thời gian trong tương lai. Thật không may, điều này cũng có nghĩa là các RNN dễ bị ảnh hưởng bởi vấn đề biến mất độ dốc, trong đó các độ dốc được sử dụng để đào tạo trở nên rất nhỏ và mạng gặp khó khăn trong việc tìm hiểu các mối quan hệ lâu dài.
Bất chấp hạn chế rõ ràng này, RNN đã được sử dụng trong nhiều ứng dụng. Các ứng dụng này bao gồm xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói và thậm chí cả sản xuất âm nhạc.
Google Translate, ví dụ: sử dụng hệ thống dựa trên RNN để dịch qua các ngôn ngữ, trong khi Siri, trợ lý ảo, sử dụng hệ thống dựa trên RNN để phát hiện giọng nói. RNN cũng đã được sử dụng để dự đoán giá cổ phiếu và tạo văn bản và đồ họa thực tế.
6. Mạng con nhộng
Capsule Networks là một loại thiết kế mạng thần kinh mới có thể xác định các mẫu và mối tương quan trong dữ liệu hiệu quả hơn. Chúng tổ chức các nơ-ron thành các “viên nang” mã hóa các khía cạnh nhất định của đầu vào.
Bằng cách này, họ có thể đưa ra dự đoán chính xác hơn. Capsule Networks trích xuất các thuộc tính phức tạp dần dần từ dữ liệu đầu vào bằng cách sử dụng nhiều lớp viên nang.
Kỹ thuật của Capsule Networks cho phép họ tìm hiểu các biểu diễn phân cấp của đầu vào đã cho. Họ có thể mã hóa chính xác các kết nối không gian giữa các mục bên trong một bức tranh bằng cách giao tiếp giữa các viên nang.
Nhận dạng đối tượng, phân đoạn ảnh và xử lý ngôn ngữ tự nhiên đều là các ứng dụng của Capsule Networks.
Capsule Networks có tiềm năng được sử dụng trong lái xe tự trị công nghệ. Chúng hỗ trợ hệ thống nhận dạng và phân biệt giữa các vật phẩm như ô tô, người và biển báo giao thông. Các hệ thống này có thể tránh va chạm bằng cách đưa ra các dự đoán chính xác hơn về hành vi của các đối tượng trong môi trường của chúng.
7. Bộ mã hóa tự động biến đổi (VAE)
VAE là một dạng công cụ học sâu được sử dụng để học không giám sát. Bằng cách mã hóa dữ liệu thành không gian có chiều thấp hơn và sau đó giải mã dữ liệu đó trở lại định dạng ban đầu, họ có thể học cách phát hiện các mẫu trong dữ liệu.
Họ giống như một nhà ảo thuật có thể biến một con thỏ thành một chiếc mũ và sau đó trở lại thành một chú thỏ con! VAE có lợi cho việc tạo hình ảnh hoặc âm nhạc trung thực. Và, chúng có thể được sử dụng để tạo dữ liệu mới có thể so sánh với dữ liệu gốc.
VAE tương tự như công cụ giải mã bí mật. Họ có thể khám phá cơ sở cấu trúc của dữ liệu bằng cách chia nhỏ nó thành các phần đơn giản hơn, giống như cách chia nhỏ một câu đố. Họ có thể sử dụng thông tin đó để xây dựng dữ liệu mới trông giống như dữ liệu gốc sau khi họ đã sắp xếp các phần.
Điều này có thể hữu ích để nén các tệp lớn hoặc tạo đồ họa hoặc âm nhạc mới theo một phong cách nhất định. VAE cũng có thể sản xuất nội dung mới, chẳng hạn như tin bài hoặc lời bài hát.
8. Mạng đối thủ sáng tạo (GAN)
GAN (Mạng đối thủ sáng tạo) là một dạng của hệ thống học sâu tạo ra dữ liệu mới giống với dữ liệu gốc. Họ hoạt động bằng cách đào tạo hai mạng: một trình tạo và một mạng phân biệt đối xử.
Trình tạo tạo ra dữ liệu mới có thể so sánh với dữ liệu gốc.
Và, bộ phân biệt cố gắng phân biệt giữa dữ liệu gốc và dữ liệu được tạo. Hai mạng được đào tạo song song, với bộ tạo cố gắng đánh lừa bộ phân biệt đối xử và bộ phân biệt cố gắng xác định đúng dữ liệu gốc.
Hãy coi GAN là sự giao thoa giữa kẻ giả mạo và thám tử. Trình tạo hoạt động tương tự như một trình giả mạo, tạo ra tác phẩm nghệ thuật mới giống với tác phẩm gốc.
Người phân biệt đối xử hoạt động như một thám tử, cố gắng phân biệt giữa tác phẩm nghệ thuật thật và giả mạo. Hai mạng được đào tạo song song, với trình tạo cải tiến trong việc tạo ra các giả mạo hợp lý và trình phân biệt cải thiện trong việc nhận ra chúng.
GAN có một số cách sử dụng, từ việc tạo ra những bức tranh chân thực về con người hoặc động vật đến việc tạo ra âm nhạc hoặc bài viết mới. Chúng cũng có thể được sử dụng để tăng cường dữ liệu, bao gồm việc kết hợp dữ liệu được tạo ra với dữ liệu thực để xây dựng tập dữ liệu lớn hơn cho các mô hình học máy đào tạo.
9. Mạng Q sâu (DQN)
Deep Q-Networks (DQN) là một loại thuật toán học tăng cường ra quyết định. Chúng hoạt động bằng cách học một hàm Q dự đoán phần thưởng mong đợi khi thực hiện một hành động nhất định trong một điều kiện cụ thể.
Hàm Q được dạy bằng phương pháp thử và sai, với thuật toán thử các hành động khác nhau và học hỏi từ các kết quả.
Hãy coi nó như một video game nhân vật thử nghiệm nhiều hành động khác nhau và khám phá hành động nào dẫn đến thành công! DQN đào tạo chức năng Q bằng cách sử dụng mạng thần kinh sâu, biến chúng thành công cụ hiệu quả cho các nhiệm vụ ra quyết định khó khăn.
Họ thậm chí đã đánh bại các nhà vô địch loài người trong các trò chơi như cờ vây và cờ vua, cũng như trong lĩnh vực người máy và ô tô tự lái. Vì vậy, nhìn chung, DQN làm việc bằng cách học hỏi kinh nghiệm để nâng cao kỹ năng ra quyết định của họ theo thời gian.
10. Mạng chức năng cơ sở xuyên tâm (RBFN)
Mạng chức năng cơ sở xuyên tâm (RBFN) là một loại mạng nơ-ron được sử dụng để ước tính các chức năng và thực hiện các nhiệm vụ phân loại. Chúng hoạt động bằng cách chuyển đổi dữ liệu đầu vào thành không gian có chiều cao hơn bằng cách sử dụng tập hợp các hàm cơ sở xuyên tâm.
Đầu ra của mạng là sự kết hợp tuyến tính của các hàm cơ sở và mỗi hàm cơ sở hướng tâm biểu thị một điểm trung tâm trong không gian đầu vào.
RBFN đặc biệt hiệu quả đối với các tình huống có tương tác đầu vào-đầu ra phức tạp và chúng có thể được dạy bằng nhiều kỹ thuật, bao gồm cả học có giám sát và không giám sát. Chúng đã được sử dụng cho mọi thứ, từ dự đoán tài chính đến nhận dạng hình ảnh và giọng nói đến chẩn đoán y tế.
Hãy coi RBFN là một hệ thống GPS sử dụng một loạt các điểm neo để tìm đường đi qua địa hình đầy thách thức. Đầu ra của mạng là sự kết hợp của các điểm neo, đại diện cho các hàm cơ sở xuyên tâm.
Chúng ta có thể duyệt qua thông tin phức tạp và đưa ra dự đoán chính xác về cách một kịch bản sẽ diễn ra bằng cách sử dụng RBFN.
11. Perceptron đa lớp (MLP)
Một dạng mạng thần kinh điển hình được gọi là perceptron đa lớp (MLP) được sử dụng cho các tác vụ học có giám sát như phân loại và hồi quy. Chúng hoạt động bằng cách xếp chồng một số lớp nút được liên kết hoặc nơ-ron, với mỗi lớp thay đổi phi tuyến tính dữ liệu đến.
Trong MLP, mỗi nơ-ron nhận đầu vào từ các nơ-ron ở lớp bên dưới và gửi tín hiệu đến các nơ-ron ở lớp trên. Đầu ra của mỗi nơ-ron được xác định bằng cách sử dụng một hàm kích hoạt, mang lại tính phi tuyến tính cho mạng.
Chúng có khả năng học các biểu diễn tinh vi của dữ liệu đầu vào vì chúng có thể có một số lớp ẩn.
MLP đã được áp dụng cho nhiều nhiệm vụ khác nhau, chẳng hạn như phân tích tình cảm, phát hiện gian lận và nhận dạng giọng nói và hình ảnh. MLP có thể được so sánh với một nhóm điều tra viên làm việc cùng nhau để phá một vụ án khó.
Cùng nhau, họ có thể ghép nối các sự kiện và giải quyết tội phạm mặc dù thực tế là mỗi người có một lĩnh vực chuyên môn cụ thể.
12. Mạng thần kinh tích chập (CNN)
Hình ảnh và video được xử lý bằng mạng thần kinh tích chập (CNN), một dạng mạng thần kinh. Chúng hoạt động bằng cách sử dụng một tập hợp các bộ lọc có thể học được hoặc hạt nhân để trích xuất các đặc điểm quan trọng từ dữ liệu đầu vào.
Các bộ lọc lướt qua hình ảnh đầu vào, thực hiện các phép chập để xây dựng bản đồ đặc trưng ghi lại các khía cạnh thiết yếu của hình ảnh.
Vì CNN có thể học cách biểu diễn theo thứ bậc của các đặc điểm hình ảnh nên chúng đặc biệt hữu ích cho các tình huống liên quan đến khối lượng dữ liệu hình ảnh khổng lồ. Một số ứng dụng đã sử dụng chúng, chẳng hạn như phát hiện đối tượng, phân loại ảnh và nhận diện khuôn mặt.
Hãy coi CNNs như một họa sĩ sử dụng nhiều cọ vẽ để tạo ra một kiệt tác. Mỗi bút vẽ là một hạt nhân và nghệ sĩ có thể xây dựng một hình ảnh chân thực, phức tạp bằng cách trộn nhiều hạt nhân. Chúng tôi có thể trích xuất các đặc điểm quan trọng từ ảnh và sử dụng chúng để dự báo chính xác nội dung của ảnh bằng cách sử dụng CNN.
13. Mạng niềm tin sâu sắc (DBN)
DBN là một dạng mạng thần kinh được sử dụng cho các tác vụ học không giám sát như giảm kích thước và học tính năng. Chúng hoạt động bằng cách xếp chồng một số lớp Máy Boltzmann bị hạn chế (RBM), là mạng thần kinh hai lớp có khả năng học cách khôi phục dữ liệu đầu vào.
DBN rất có lợi cho các vấn đề dữ liệu nhiều chiều vì chúng có thể học cách biểu diễn đầu vào nhỏ gọn và hiệu quả. Chúng đã được sử dụng cho mọi thứ, từ nhận dạng giọng nói đến phân loại hình ảnh cho đến khám phá thuốc.
Ví dụ, các nhà nghiên cứu đã sử dụng DBN để ước tính ái lực gắn kết của các ứng cử viên thuốc với thụ thể estrogen. DBN đã được đào tạo về tập hợp các đặc tính hóa học và ái lực ràng buộc, và nó có thể dự đoán chính xác ái lực ràng buộc của các ứng cử viên thuốc mới.
Điều này làm nổi bật việc sử dụng DBN trong phát triển thuốc và các ứng dụng dữ liệu chiều cao khác.
14. Bộ mã hóa tự động
Bộ mã hóa tự động là các mạng thần kinh được sử dụng cho các nhiệm vụ học tập không giám sát. Chúng nhằm mục đích tái tạo lại dữ liệu đầu vào, ngụ ý rằng chúng sẽ học cách mã hóa thông tin thành một biểu diễn nhỏ gọn và sau đó giải mã nó trở lại thành đầu vào ban đầu.
Bộ mã hóa tự động rất hiệu quả để nén dữ liệu, loại bỏ nhiễu và phát hiện bất thường. Chúng cũng có thể được sử dụng để học tính năng, trong đó biểu diễn nhỏ gọn của bộ mã hóa tự động được đưa vào một tác vụ học có giám sát.
Hãy coi bộ mã hóa tự động là học sinh ghi chép trong lớp. Học sinh lắng nghe bài giảng và ghi lại những điểm có liên quan nhất một cách ngắn gọn và hiệu quả.
Sau đó, học sinh có thể học và ghi nhớ bài học bằng ghi chú của mình. Mặt khác, một bộ mã hóa tự động mã hóa dữ liệu đầu vào thành một biểu diễn nhỏ gọn mà sau đó có thể được sử dụng cho các mục đích khác nhau như phát hiện bất thường hoặc nén dữ liệu.
15. Máy Boltzmann bị hạn chế (RBM)
RBM (Máy Boltzmann bị hạn chế) là một loại mạng thần kinh tổng quát được sử dụng cho các nhiệm vụ học tập không giám sát. Chúng được tạo thành từ một lớp hiển thị và một lớp ẩn, với các nơ-ron trong mỗi lớp, được liên kết nhưng không nằm trong cùng một lớp.
RBM được đào tạo bằng cách sử dụng một kỹ thuật được gọi là phân kỳ tương phản, đòi hỏi phải thay đổi trọng số giữa các lớp hiển thị và ẩn để tối ưu hóa xác suất của dữ liệu đào tạo. RBM có thể tạo dữ liệu mới sau khi được đào tạo bằng cách lấy mẫu từ bản phân phối đã học.
Nhận dạng hình ảnh và giọng nói, lọc cộng tác và phát hiện bất thường là tất cả các ứng dụng đã sử dụng RBM. Chúng cũng đã được sử dụng trong các hệ thống đề xuất để tạo các đề xuất phù hợp bằng cách học các mẫu từ hành vi của người dùng.
RBM cũng đã được sử dụng trong học tập tính năng để tạo ra một biểu diễn nhỏ gọn và hiệu quả cho dữ liệu nhiều chiều.
Tóm tắt và phát triển đầy hứa hẹn trên đường chân trời
Các phương pháp học sâu, chẳng hạn như Mạng thần kinh chuyển đổi (CNN) và Mạng thần kinh tái phát (RNN), là một trong những phương pháp tiếp cận trí tuệ nhân tạo tiên tiến nhất. CNN đã chuyển đổi nhận dạng hình ảnh và âm thanh, trong khi RNN đã tiến bộ đáng kể trong xử lý ngôn ngữ tự nhiên và phân tích dữ liệu tuần tự.
Bước tiếp theo trong quá trình phát triển của các phương pháp này có thể tập trung vào việc cải thiện hiệu quả và khả năng mở rộng của chúng, cho phép chúng phân tích các tập dữ liệu lớn hơn và phức tạp hơn, cũng như nâng cao khả năng diễn giải và khả năng học hỏi từ dữ liệu ít được dán nhãn hơn.
Học sâu có khả năng tạo ra những bước đột phá trong các lĩnh vực như chăm sóc sức khỏe, tài chính và hệ thống tự trị khi nó phát triển.
Bình luận