Các thuật toán học máy không được giám sát

Mục lục[Ẩn giấu][Chỉ]

Học máy không giám sát là gì?
Các thuật toán học máy không được giám sát+-
Áp dụng phương pháp học không giám sát
Vấn đề với Học không giám sát
Kết luận

Một trong những tiêu chí chính cho bất kỳ loại hình hoạt động nào của công ty là sử dụng hiệu quả thông tin. Tại một số thời điểm, khối lượng dữ liệu được tạo ra vượt quá khả năng xử lý cơ bản.

Đó là lúc các thuật toán học máy phát huy tác dụng. Tuy nhiên, trước khi bất kỳ điều này có thể xảy ra, thông tin phải được nghiên cứu và giải thích. Tóm lại, nó là thứ mà học máy không giám sát được sử dụng để làm.

Trong bài viết này, chúng tôi sẽ xem xét chuyên sâu về học máy không giám sát, bao gồm các thuật toán, trường hợp sử dụng và nhiều hơn nữa.

Học máy không giám sát là gì?

Các thuật toán học máy không được giám sát xác định các mẫu trong tập dữ liệu không có hệ quả đã biết hoặc được gắn nhãn. Được giám sát thuật toán học máy có đầu ra được gắn nhãn.

Biết được sự phân biệt này giúp bạn hiểu tại sao không thể sử dụng các phương pháp học máy không giám sát để giải quyết các vấn đề hồi quy hoặc phân loại, vì bạn không biết giá trị / câu trả lời cho dữ liệu đầu ra có thể là bao nhiêu. Bạn không thể đào tạo một thuật toán bình thường nếu bạn không biết giá trị / câu trả lời.

Hơn nữa, Học không giám sát có thể được sử dụng để xác định cấu trúc cơ bản của dữ liệu. Các thuật toán này phát hiện các mẫu hoặc nhóm dữ liệu ẩn mà không cần sự tương tác của con người.

Khả năng phát hiện những điểm tương đồng và tương phản trong thông tin khiến nó trở thành một lựa chọn tuyệt vời để phân tích dữ liệu khám phá, kỹ thuật bán chéo, phân khúc người tiêu dùng và xác định hình ảnh.

Hãy xem xét tình huống sau: bạn đang ở trong một cửa hàng tạp hóa và nhìn thấy một loại trái cây không rõ nguồn gốc mà bạn chưa từng thấy trước đây. Bạn có thể dễ dàng phân biệt trái cây chưa biết khác với trái cây khác xung quanh dựa trên quan sát của bạn về hình thức, kích thước hoặc màu sắc của nó.

Các thuật toán học máy không được giám sát

Clustering

Clustering chắc chắn là cách tiếp cận học tập không giám sát được sử dụng rộng rãi nhất. Cách tiếp cận này đặt các mục dữ liệu có liên quan vào các cụm được tạo ngẫu nhiên.

Tự nó, một mô hình ML phát hiện ra bất kỳ mẫu, điểm tương đồng và / hoặc sự khác biệt nào trong cấu trúc dữ liệu chưa được phân loại. Một mô hình sẽ có thể khám phá bất kỳ nhóm hoặc lớp tự nhiên nào trong dữ liệu.

Clustering

Các loại

Có một số hình thức phân cụm có thể được sử dụng. Hãy xem xét những cái quan trọng nhất trước.

Phân cụm độc quyền, đôi khi được gọi là phân cụm “cứng”, là một kiểu nhóm trong đó một phần dữ liệu chỉ thuộc về một cụm.
Phân cụm chồng chéo, thường được gọi là phân cụm “mềm”, cho phép các đối tượng dữ liệu thuộc về nhiều hơn một cụm ở các mức độ khác nhau. Hơn nữa, phân cụm xác suất có thể được sử dụng để giải quyết các vấn đề phân cụm “mềm” hoặc ước tính mật độ, cũng như để đánh giá xác suất hoặc khả năng xảy ra của các điểm dữ liệu thuộc các cụm nhất định.
Tạo một hệ thống phân cấp của các mục dữ liệu được nhóm là mục tiêu của phân nhóm phân cấp, như tên đã chỉ ra. Các mục dữ liệu được giải cấu trúc hoặc kết hợp dựa trên hệ thống phân cấp để tạo các cụm.

Trường hợp sử dụng:

Phát hiện bất thường:

Bất kỳ loại ngoại lệ nào trong dữ liệu có thể được phát hiện bằng cách sử dụng phân cụm. Ví dụ, các công ty trong lĩnh vực vận tải và hậu cần có thể sử dụng tính năng phát hiện bất thường để phát hiện ra các trở ngại về hậu cần hoặc tiết lộ các bộ phận cơ khí bị hư hỏng (bảo trì dự đoán).

Các tổ chức tài chính có thể sử dụng công nghệ này để phát hiện các giao dịch gian lận và phản hồi nhanh chóng, có khả năng tiết kiệm rất nhiều tiền. Tìm hiểu thêm về cách phát hiện bất thường và gian lận bằng cách xem video của chúng tôi.

Phân khúc khách hàng và thị trường:

Các thuật toán phân cụm có thể hỗ trợ trong việc nhóm những người có đặc điểm giống nhau và tạo ra cá tính của người tiêu dùng để tiếp thị hiệu quả hơn và các sáng kiến được nhắm mục tiêu.

K-nghĩa

K-mean là một phương pháp phân cụm còn được gọi là phân vùng hoặc phân đoạn. Nó chia các điểm dữ liệu thành một số cụm xác định trước được gọi là K.

Trong phương pháp K-mean, K là đầu vào vì bạn cho máy tính biết bạn muốn xác định bao nhiêu cụm trong dữ liệu của mình. Mỗi mục dữ liệu sau đó được gán cho trung tâm cụm gần nhất, được gọi là trung tâm (các chấm đen trong hình).

K có nghĩa là

Cái sau đóng vai trò là không gian lưu trữ dữ liệu. Kỹ thuật phân cụm có thể được thực hiện nhiều lần cho đến khi các cụm được xác định rõ.

K-có nghĩa là mờ

K-mean mờ là một phần mở rộng của kỹ thuật K-mean, được sử dụng để thực hiện phân cụm chồng chéo. Không giống như kỹ thuật K-mean, K-mean mờ chỉ ra rằng các điểm dữ liệu có thể thuộc nhiều cụm với các mức độ gần nhau khác nhau.

Khoảng cách giữa các điểm dữ liệu và tâm của cụm được sử dụng để tính toán độ gần nhau. Do đó, có thể có những trường hợp khi các cụm khác nhau chồng chéo lên nhau.

Mô hình hỗn hợp Gaussian

Mô hình hỗn hợp Gaussian (GMM) là một phương pháp được sử dụng trong phân nhóm xác suất. Bởi vì giá trị trung bình và phương sai là không xác định, các mô hình giả định rằng có một số lượng cố định của phân phối Gaussian, mỗi phân phối đại diện cho một cụm riêng biệt.

Để xác định một điểm dữ liệu cụ thể thuộc về cụm nào, phương pháp này về cơ bản được sử dụng.

Phân cụm phân cấp

Chiến lược phân cụm phân cấp có thể bắt đầu với mỗi điểm dữ liệu được gán cho một cụm khác nhau. Hai cụm gần nhau nhất sau đó được trộn thành một cụm duy nhất. Việc hợp nhất lặp đi lặp lại tiếp tục cho đến khi chỉ còn một cụm ở trên cùng.

Phương pháp này được gọi là từ dưới lên hoặc kết tụ. Nếu bạn bắt đầu với tất cả các mục dữ liệu được liên kết với cùng một cụm và sau đó tiến hành phân tách cho đến khi mỗi mục dữ liệu được gán thành một cụm riêng biệt, phương pháp được gọi là phân nhóm phân cấp từ trên xuống hoặc phân chia.

Thuật toán Apriori

Phân tích rổ thị trường đã phổ biến các thuật toán apriori, dẫn đến các công cụ đề xuất khác nhau cho các nền tảng âm nhạc và cửa hàng trực tuyến.

Chúng được sử dụng trong tập dữ liệu giao dịch để tìm các tập phổ biến hoặc nhóm các mặt hàng, nhằm dự đoán khả năng tiêu thụ một sản phẩm này dựa trên mức tiêu thụ sản phẩm khác.

Ví dụ: nếu tôi bắt đầu phát radio của OneRepublic trên Spotify với “Counting Stars”, thì một trong những bài hát khác trên kênh này chắc chắn sẽ là bài hát của Imagine Dragon, chẳng hạn như “Bad Liar”.

Điều này dựa trên thói quen nghe trước đây của tôi cũng như cách nghe của những người khác. Các phương thức Apriori đếm các tập phổ biến bằng cách sử dụng một cây băm, duyệt qua bề rộng của tập dữ liệu trước tiên.

Giảm kích thước

Giảm kích thước là một loại học tập không giám sát sử dụng một tập hợp các chiến lược để giảm thiểu số lượng tính năng - hoặc thứ nguyên - trong một tập dữ liệu. Cho phép chúng tôi làm rõ.

Có thể hấp dẫn để kết hợp càng nhiều dữ liệu càng tốt trong khi tạo tập dữ liệu cho học máy. Đừng hiểu lầm chúng tôi: chiến lược này hoạt động tốt vì nhiều dữ liệu hơn thường mang lại kết quả chính xác hơn.

Giả sử rằng dữ liệu được lưu trữ trong không gian N chiều, với mỗi đối tượng đại diện cho một chiều khác nhau. Có thể có hàng trăm thứ nguyên nếu có nhiều dữ liệu.

Hãy xem xét bảng tính Excel, với các cột đại diện cho các đặc điểm và các hàng đại diện cho các mục dữ liệu. Khi có quá nhiều thứ nguyên, các thuật toán ML có thể hoạt động kém và trực quan hóa dữ liệu có thể trở nên khó khăn.

Vì vậy, nó hợp lý để giới hạn các đặc điểm hoặc kích thước và chỉ truyền tải thông tin thích hợp. Giảm kích thước chỉ có vậy. Nó cho phép một lượng dữ liệu đầu vào có thể quản lý được mà không ảnh hưởng đến tính toàn vẹn của tập dữ liệu.

Phân tích thành phần chính (PCA)

Phân tích thành phần chính là một cách tiếp cận giảm kích thước. Nó được sử dụng để giảm thiểu số lượng các tính năng trong bộ dữ liệu khổng lồ, dẫn đến việc dữ liệu đơn giản hơn mà không ảnh hưởng đến độ chính xác.

Nén tập dữ liệu được thực hiện bằng một phương pháp được gọi là trích xuất tính năng. Nó chỉ ra rằng các phần tử từ tập hợp ban đầu được pha trộn thành một tập hợp mới, nhỏ hơn. Những đặc điểm mới này được gọi là thành phần chính.

Tất nhiên, có những thuật toán bổ sung mà bạn có thể sử dụng trong các ứng dụng học tập không có giám sát của mình. Những thứ được liệt kê ở trên chỉ là phổ biến nhất, đó là lý do tại sao chúng được thảo luận chi tiết hơn.

Áp dụng phương pháp học không giám sát

Phương pháp học tập không giám sát được sử dụng cho các nhiệm vụ nhận thức trực quan như nhận dạng đối tượng.
Máy học không giám sát cung cấp các khía cạnh quan trọng cho hệ thống hình ảnh y tế, chẳng hạn như nhận dạng hình ảnh, phân loại và phân đoạn, được sử dụng trong X quang và bệnh lý học để chẩn đoán bệnh nhân nhanh chóng và đáng tin cậy.
Học tập không giám sát có thể giúp xác định xu hướng dữ liệu có thể được sử dụng để tạo ra các chiến lược bán kèm hiệu quả hơn bằng cách sử dụng dữ liệu trước đây về hành vi của người tiêu dùng. Trong quá trình thanh toán, điều này được các doanh nghiệp trực tuyến sử dụng để đề xuất các tiện ích bổ sung phù hợp cho khách hàng.
Các phương pháp học tập không giám sát có thể sàng lọc khối lượng dữ liệu khổng lồ để tìm ra những điểm bất thường. Những bất thường này có thể làm tăng thông báo về thiết bị bị trục trặc, lỗi của con người hoặc vi phạm an ninh.

Vấn đề với Học không giám sát

Học tập không giám sát hấp dẫn theo nhiều cách khác nhau, từ khả năng tìm thấy thông tin chi tiết quan trọng về dữ liệu để tránh ghi nhãn dữ liệu tốn kém các hoạt động. Tuy nhiên, có một số hạn chế khi sử dụng chiến lược này để huấn luyện mô hình học máy mà bạn nên biết. Dưới đây là một số ví dụ.

Vì dữ liệu đầu vào thiếu các nhãn dùng làm khóa phản hồi, nên kết quả của các mô hình học tập không được giám sát có thể kém chính xác hơn.
Học không giám sát thường hoạt động với các bộ dữ liệu lớn, có thể làm tăng độ phức tạp của tính toán.
Phương pháp này yêu cầu sự xác nhận đầu ra của con người, các chuyên gia nội bộ hoặc bên ngoài trong đối tượng điều tra.
Các thuật toán phải kiểm tra và tính toán mọi tình huống có thể xảy ra trong suốt giai đoạn huấn luyện, điều này mất một thời gian.

Kết luận

Sử dụng dữ liệu hiệu quả là chìa khóa để thiết lập lợi thế cạnh tranh trong một thị trường cụ thể.

Bạn có thể phân đoạn dữ liệu bằng cách sử dụng các thuật toán học máy không được giám sát để kiểm tra sở thích của đối tượng mục tiêu của bạn hoặc để xác định cách một loại nhiễm trùng nhất định phản ứng với một phương pháp điều trị cụ thể.

Có một số ứng dụng thực tế, và nhà khoa học dữ liệu, các kỹ sư và kiến trúc sư có thể hỗ trợ bạn xác định mục tiêu và phát triển các giải pháp ML độc đáo cho công ty của bạn.

Các thuật toán học máy không được giám sát

Học máy không giám sát là gì?