Mục lục[Ẩn giấu][Chỉ]
Thế giới đang nhanh chóng thay đổi do trí tuệ nhân tạo và máy học, có tác động đến mọi khía cạnh của cuộc sống hàng ngày của chúng ta.
Từ trợ lý giọng nói sử dụng NLP và học máy để đặt lịch hẹn, tra cứu sự kiện trên lịch của chúng tôi và phát nhạc đến các thiết bị chính xác đến mức chúng có thể đoán trước nhu cầu của chúng tôi trước khi chúng tôi cân nhắc.
Máy tính có thể chơi cờ, giải phẫu và phát triển thành những cỗ máy thông minh hơn, giống con người hơn với sự hỗ trợ của các thuật toán học máy.
Chúng ta đang ở thời kỳ tiến bộ công nghệ liên tục, và bằng cách xem máy tính đã phát triển như thế nào qua thời gian, chúng ta có thể đưa ra dự đoán về những gì sẽ xảy ra trong tương lai.
Dân chủ hóa các công cụ và phương pháp tính toán là một trong những khía cạnh quan trọng nổi bật của cuộc cách mạng này. Nhà khoa học dữ liệu đã tạo ra các máy tính xử lý dữ liệu mạnh mẽ trong suốt XNUMX năm qua bằng cách dễ dàng triển khai các phương pháp tiên tiến. Kết quả thật đáng kinh ngạc.
Trong bài đăng này, chúng ta sẽ xem xét kỹ hơn học máy thuật toán và tất cả các biến thể của chúng.
Vậy, thuật toán Học máy là gì?
Phương pháp được hệ thống AI sử dụng để thực hiện nhiệm vụ của nó — nói chung, dự đoán các giá trị đầu ra từ dữ liệu đầu vào nhất định — được gọi là thuật toán học máy.
Thuật toán học máy là một quy trình sử dụng dữ liệu và được sử dụng để tạo ra các mô hình học máy sẵn sàng cho sản xuất. Nếu học máy là đầu tàu thực hiện một công việc, thì các thuật toán học máy là đầu tàu di chuyển công việc.
Cách tiếp cận máy học tốt nhất để sử dụng sẽ được xác định bởi vấn đề kinh doanh mà bạn đang cố gắng giải quyết, loại tập dữ liệu bạn đang sử dụng và các tài nguyên bạn có sẵn.
Các thuật toán học máy là những thuật toán biến một tập dữ liệu thành một mô hình. Tùy thuộc vào loại vấn đề bạn đang cố gắng trả lời, khả năng xử lý có sẵn và loại dữ liệu bạn có, các thuật toán học tập được giám sát, không giám sát hoặc tăng cường có thể hoạt động tốt.
Vì vậy, chúng ta đã nói về việc học có giám sát, không giám sát và tăng cường, nhưng chúng là gì? Hãy cùng khám phá chúng.
Học tập có giám sát, không giám sát & củng cố
Học tập có giám sát
Trong học tập có giám sát, mô hình AI được phát triển dựa trên đầu vào đã được cung cấp và nhãn thể hiện kết quả dự đoán. Dựa trên các đầu vào và đầu ra, mô hình phát triển một phương trình ánh xạ và sử dụng phương trình ánh xạ đó, nó dự báo nhãn của các đầu vào trong tương lai.
Giả sử chúng ta cần tạo một mô hình có thể phân biệt giữa một con chó và một con mèo. Nhiều bức ảnh về mèo và chó được đưa vào mô hình với nhãn cho biết chúng là mèo hay chó để huấn luyện người mẫu.
Mô hình tìm cách thiết lập một phương trình liên hệ giữa các nhãn trên ảnh đầu vào với những ảnh đó. Ngay cả khi người mẫu chưa bao giờ nhìn thấy hình ảnh trước đây, sau khi huấn luyện, nó có thể nhận biết đó là mèo hay chó.
Học tập không giám sát
Học không giám sát liên quan đến việc đào tạo mô hình AI chỉ trên các đầu vào mà không gắn nhãn chúng. Mô hình chia dữ liệu đầu vào thành các nhóm có các đặc điểm liên quan.
Sau đó, nhãn tương lai của đầu vào sẽ được dự báo tùy thuộc vào mức độ phù hợp chặt chẽ của các thuộc tính của nó với một trong các phân loại. Hãy xem xét tình huống mà chúng ta phải chia một nhóm các quả bóng màu đỏ và màu xanh lam thành hai loại.
Giả sử rằng các đặc điểm khác của quả bóng là giống hệt nhau, ngoại trừ màu sắc. Trên cơ sở làm thế nào nó có thể chia các quả bóng thành hai lớp, mô hình tìm kiếm các đặc điểm khác nhau giữa các quả bóng.
Hai cụm bóng — một màu xanh và một màu đỏ — được tạo ra khi các quả bóng được chia thành hai nhóm dựa trên màu sắc của chúng.
Học tăng cường
Trong học tập củng cố, mô hình AI tìm cách tối đa hóa lợi nhuận tổng thể bằng cách hành động tốt nhất có thể trong một trường hợp cụ thể. Phản hồi về kết quả trước đó của nó giúp mô hình học hỏi.
Hãy nghĩ về tình huống khi rô bốt được hướng dẫn chọn đường đi giữa điểm A và B. Đầu tiên rô bốt chọn một trong hai khóa học vì nó chưa có kinh nghiệm trước.
Robot nhận đầu vào trên lộ trình mà nó đi và thu thập kiến thức từ đó. Robot có thể sử dụng đầu vào để khắc phục sự cố trong lần tiếp theo khi nó gặp phải trường hợp tương tự.
Ví dụ: nếu robot chọn phương án B và nhận được phần thưởng, chẳng hạn như phản hồi tích cực, lúc này nó sẽ hiểu rằng nó phải chọn cách B để tăng phần thưởng.
Bây giờ cuối cùng những gì tất cả các bạn đang chờ đợi, là các thuật toán.
Các thuật toán học máy chính
1. Hồi quy tuyến tính
Cách tiếp cận học máy đơn giản nhất khác với học có giám sát là hồi quy tuyến tính. Với kiến thức từ các biến độc lập, nó hầu hết được sử dụng để giải quyết các vấn đề hồi quy và tạo dự đoán về các biến phụ thuộc liên tục.
Tìm đường phù hợp nhất, có thể hỗ trợ dự đoán kết quả cho các biến phụ thuộc liên tục, là mục đích của hồi quy tuyến tính. Giá nhà, tuổi và tiền lương là một số ví dụ về giá trị liên tục.
Mô hình được gọi là hồi quy tuyến tính đơn giản sử dụng một đường thẳng để tính toán mối liên hệ giữa một biến độc lập và một biến phụ thuộc. Có nhiều hơn hai biến độc lập trong hồi quy tuyến tính bội.
Mô hình hồi quy tuyến tính có bốn giả định cơ bản:
- Độ tuyến tính: Có một kết nối tuyến tính giữa X và giá trị trung bình của Y.
- Độ co giãn đồng nhất: Với mọi giá trị của X, phương sai dư là như nhau.
- Tính độc lập: Các quan sát độc lập với nhau về tính độc lập.
- Tính chuẩn: Khi X cố định, Y được phân phối chuẩn.
Hồi quy tuyến tính thực hiện một cách đáng ngưỡng mộ đối với dữ liệu có thể được phân tách theo dòng. Nó có thể kiểm soát việc trang bị quá mức bằng cách sử dụng các kỹ thuật chính quy hóa, xác nhận chéo và giảm kích thước. Tuy nhiên, có những trường hợp yêu cầu kỹ thuật tính năng mở rộng, đôi khi có thể dẫn đến việc trang bị quá nhiều và gây tiếng ồn.
2. Hồi quy logistic
Hồi quy logistic là một kỹ thuật học máy khác khác với phương pháp học có giám sát. Công dụng chính của nó là phân loại, trong khi nó cũng có thể được sử dụng cho các bài toán hồi quy.
Hồi quy logistic được sử dụng để dự báo biến phụ thuộc phân loại bằng cách sử dụng thông tin từ các yếu tố độc lập. Mục đích là để phân loại đầu ra, chỉ có thể rơi vào khoảng từ 0 đến 1.
Tổng trọng số của các đầu vào được xử lý bởi hàm sigmoid, một hàm kích hoạt chuyển đổi các giá trị từ 0 đến 1.
Cơ sở của hồi quy logistic là ước tính khả năng xảy ra tối đa, một phương pháp để tính toán các tham số của phân phối xác suất giả định dựa trên dữ liệu quan sát cụ thể.
3. Cây quyết định
Một phương pháp học máy khác tách rời phương pháp học có giám sát là cây quyết định. Đối với cả vấn đề phân loại và hồi quy, phương pháp tiếp cận cây quyết định có thể được sử dụng.
Công cụ ra quyết định này, giống như một cái cây, sử dụng các hình ảnh biểu diễn trực quan để hiển thị các kết quả, chi phí và hậu quả tiềm năng của các hành động. Bằng cách chia dữ liệu thành các phần riêng biệt, ý tưởng này tương tự như tâm trí con người.
Dữ liệu đã được chia thành các phần riêng biệt càng nhiều càng tốt. Mục tiêu chính của Cây quyết định là xây dựng một mô hình đào tạo có thể được sử dụng để dự báo lớp của biến mục tiêu. Các giá trị bị thiếu có thể được xử lý tự động bằng cách sử dụng Cây quyết định.
Không có yêu cầu đối với mã hóa một lần, biến giả hoặc các bước xử lý trước dữ liệu khác. Nó cứng nhắc theo nghĩa là rất khó để thêm dữ liệu mới vào nó. Nếu bạn có thêm dữ liệu được gắn nhãn, bạn nên đào tạo lại cây trên toàn bộ tập dữ liệu.
Do đó, cây quyết định là một lựa chọn tồi cho bất kỳ ứng dụng nào yêu cầu thay đổi mô hình động.
Dựa trên loại biến mục tiêu, cây quyết định được phân thành hai loại:
- Biến phân loại: Một cây quyết định trong đó biến mục tiêu là biến phân loại.
- Biến liên tục: Cây quyết định trong đó biến mục tiêu là Liên tục.
4. Rừng Ngẫu Nhiên
Phương pháp Rừng ngẫu nhiên là kỹ thuật học máy tiếp theo và là một thuật toán học máy có giám sát được sử dụng rộng rãi trong các vấn đề phân loại và hồi quy. Nó cũng là một phương pháp dựa trên cây, tương tự như cây quyết định.
Một rừng cây hay nhiều cây quyết định được sử dụng theo phương pháp rừng ngẫu nhiên để đưa ra phán đoán. Khi xử lý các nhiệm vụ phân loại, phương pháp rừng ngẫu nhiên sử dụng các biến phân loại trong khi xử lý các nhiệm vụ hồi quy với bộ dữ liệu có chứa các biến liên tục.
Phương pháp rừng ngẫu nhiên thực hiện một tập hợp, hoặc kết hợp nhiều mô hình, có nghĩa là các dự đoán được thực hiện bằng cách sử dụng một nhóm các mô hình thay vì chỉ một mô hình.
Khả năng được sử dụng cho cả các bài toán phân loại và hồi quy, vốn tạo nên phần lớn các hệ thống học máy hiện đại, là một lợi ích chính của rừng ngẫu nhiên.
Hai chiến lược khác nhau được Ensemble sử dụng:
- Đóng gói: Bằng cách này, nhiều dữ liệu hơn được tạo ra cho tập dữ liệu đào tạo. Để giảm bớt sự thay đổi trong các dự báo, điều này được thực hiện.
- Thúc đẩy là quá trình kết hợp người học yếu với người học mạnh bằng cách xây dựng các mô hình kế tiếp, dẫn đến mô hình cuối cùng với độ chính xác tối đa.
5. Bayes ngây thơ
Vấn đề phân loại nhị phân (hai lớp) và nhiều lớp có thể được giải quyết bằng cách sử dụng kỹ thuật Naive Bayes. Khi phương pháp được giải thích bằng cách sử dụng các giá trị đầu vào nhị phân hoặc danh mục, cách đơn giản nhất để nắm bắt. Một giả định được đưa ra bởi bộ phân loại Naive Bayes là sự tồn tại của một đối tượng trong một lớp không liên quan đến sự hiện diện của bất kỳ đối tượng nào khác.
Công thức trên chỉ ra:
- P (H): Khả năng giả thuyết H là đúng. Xác suất trước được gọi là điều này.
- P (E): Khả năng xảy ra bằng chứng
- P (E | H): Khả năng giả thuyết được hỗ trợ bởi bằng chứng.
- P (H | E): Khả năng giả thuyết là đúng với bằng chứng.
Bộ phân loại Naive Bayes sẽ tính đến từng đặc điểm riêng lẻ khi xác định khả năng xảy ra một kết quả nhất định, ngay cả khi các thuộc tính này được kết nối với nhau. Mô hình Naive Bayesian dễ xây dựng và hiệu quả đối với các tập dữ liệu lớn.
Nó được biết là hoạt động tốt hơn ngay cả những kỹ thuật phân loại phức tạp nhất trong khi vẫn là cơ bản. Nó là một tập hợp các thuật toán đều dựa trên Định lý Bayes, chứ không phải là một phương pháp duy nhất.
6. K-Những người hàng xóm gần nhất
Kỹ thuật K-hàng xóm gần nhất (kNN) là một tập con của học máy có giám sát có thể được sử dụng để giải quyết các vấn đề phân loại và hồi quy. Thuật toán KNN giả định rằng các đối tượng có thể so sánh được có thể được tìm thấy gần đó.
Tôi nhớ lại nó như là một tập hợp của những cá nhân cùng chí hướng. kNN tận dụng ý tưởng về sự tương đồng giữa các điểm dữ liệu khác bằng cách sử dụng sự gần gũi, gần gũi hoặc khoảng cách. Để gắn nhãn dữ liệu không nhìn thấy dựa trên các điểm dữ liệu quan sát được gắn nhãn gần nhất, một phương pháp toán học được sử dụng để xác định khoảng cách giữa các điểm trên biểu đồ.
Bạn phải xác định khoảng cách giữa các điểm dữ liệu để xác định các điểm có thể so sánh gần nhất. Các phép đo khoảng cách như khoảng cách Euclid, khoảng cách Hamming, khoảng cách Manhattan và khoảng cách Minkowski có thể được sử dụng cho việc này. K được gọi là số hàng xóm gần nhất và nó thường là một số lẻ.
KNN có thể được áp dụng cho các bài toán phân loại và hồi quy. Dự đoán được đưa ra khi KNN được sử dụng cho các vấn đề hồi quy dựa trên giá trị trung bình hoặc giá trị trung bình của K lần xuất hiện tương tự nhất.
Kết quả của thuật toán phân loại dựa trên KNN có thể được xác định là lớp có tần suất xuất hiện cao nhất trong số K lần xuất hiện giống nhau nhất. Mọi trường hợp về cơ bản đều bỏ phiếu cho lớp của họ và dự đoán thuộc về lớp nhận được nhiều phiếu nhất.
7. K-có nghĩa là
Đó là một kỹ thuật cho việc học tập không có giám sát nhằm giải quyết các vấn đề phân cụm. Tập dữ liệu được chia thành một số cụm nhất định - hãy gọi nó là K - theo cách sao cho các điểm dữ liệu của mỗi cụm là đồng nhất và khác biệt với các điểm trong các cụm khác.
Phương pháp phân cụm K-mean:
- Đối với mỗi cụm, thuật toán K-mean chọn k centroid hoặc điểm.
- Với các trung tâm hoặc cụm K gần nhất, mỗi điểm dữ liệu tạo thành một cụm.
- Bây giờ, các trung tâm mới được sản xuất tùy thuộc vào các thành viên cụm đã có mặt.
- Khoảng cách gần nhất cho mỗi điểm dữ liệu được tính bằng cách sử dụng các trung tâm cập nhật này. Cho đến khi các trung tâm không thay đổi, quá trình này được lặp lại.
Nó nhanh hơn, đáng tin cậy hơn và dễ hiểu hơn. Nếu có vấn đề, khả năng thích ứng của k-mean 'làm cho việc điều chỉnh trở nên đơn giản. Khi các tập dữ liệu khác biệt hoặc tách biệt với nhau, kết quả là tốt nhất. Nó không thể quản lý dữ liệu thất thường hoặc ngoại lệ.
8. Hỗ trợ Máy Vector
Khi sử dụng kỹ thuật SVM để phân loại dữ liệu, dữ liệu thô được hiển thị dưới dạng các dấu chấm trong không gian n chiều (trong đó n là số đối tượng bạn có). Dữ liệu sau đó có thể được phân loại dễ dàng vì giá trị của mỗi đối tượng địa lý sau đó được kết nối với một tọa độ cụ thể.
Để tách dữ liệu và đưa chúng vào biểu đồ, hãy sử dụng các đường được gọi là bộ phân loại. Cách tiếp cận này vẽ mỗi điểm dữ liệu dưới dạng một điểm trong không gian n chiều, trong đó n là số lượng đối tượng bạn có và giá trị của mỗi đối tượng là một giá trị tọa độ cụ thể.
Bây giờ chúng ta sẽ tìm một đường chia dữ liệu thành hai tập dữ liệu đã được phân loại khác nhau. Khoảng cách từ các điểm gần nhất trong mỗi nhóm trong hai nhóm sẽ xa nhau nhất dọc theo đường này.
Vì hai điểm gần nhất là những điểm cách xa dòng nhất trong ví dụ trên, đường phân chia dữ liệu thành hai nhóm được phân loại khác nhau là đường giữa. Bộ phân loại của chúng tôi là dòng này.
9. Giảm kích thước
Sử dụng cách tiếp cận giảm kích thước, dữ liệu đào tạo có thể có ít biến đầu vào hơn. Nói một cách dễ hiểu, nó đề cập đến quá trình thu nhỏ kích thước tập hợp tính năng của bạn. Hãy tưởng tượng tập dữ liệu của bạn có 100 cột; giảm kích thước sẽ giảm số lượng đó xuống 20 cột.
Mô hình tự động phát triển phức tạp hơn và có nguy cơ trang bị quá mức lớn hơn khi số lượng tính năng tăng lên. Vấn đề lớn nhất khi làm việc với dữ liệu ở các kích thước lớn hơn là điều được gọi là “lời nguyền về chiều”, xảy ra khi dữ liệu của bạn chứa quá nhiều đặc điểm.
Các yếu tố sau có thể được sử dụng để thực hiện giảm kích thước:
- Để tìm và chọn các đặc điểm thích hợp, lựa chọn tính năng được sử dụng.
- Sử dụng các tính năng đã có, kỹ thuật tính năng tạo ra các tính năng mới theo cách thủ công.
Kết luận
Học máy không giám sát hoặc không giám sát đều có thể xảy ra. Chọn học có giám sát nếu dữ liệu của bạn kém phong phú và được gắn thẻ tốt để đào tạo.
Các tập dữ liệu lớn thường sẽ hoạt động và tạo ra kết quả tốt hơn bằng cách sử dụng phương pháp học không giám sát. Học kĩ càng phương pháp tốt nhất nếu bạn có một bộ sưu tập dữ liệu lớn luôn sẵn sàng.
Học tăng cường và học tăng cường sâu là một số chủ đề bạn đã nghiên cứu. Các đặc điểm, cách sử dụng và ràng buộc của mạng nơ-ron hiện đã rõ ràng đối với bạn. Cuối cùng nhưng không kém phần quan trọng, bạn đã xem xét các tùy chọn cho các ngôn ngữ lập trình, IDE và nền tảng khác nhau khi tạo ra ngôn ngữ lập trình của riêng mình mô hình học máy.
Điều tiếp theo bạn cần làm là bắt đầu nghiên cứu và sử dụng từng học máy cách tiếp cận. Ngay cả khi chủ đề rộng, bất kỳ chủ đề nào cũng có thể hiểu được trong vài giờ nếu bạn tập trung vào chiều sâu của nó. Mỗi chủ thể đứng độc lập với những chủ thể khác.
Bạn phải suy nghĩ về từng vấn đề một, nghiên cứu vấn đề đó, áp dụng nó vào thực tế và sử dụng ngôn ngữ bạn chọn để triển khai (các) thuật toán trong đó.
Bình luận