任何類型的公司活動的主要標準之一是信息的有效利用。 在某些時候,創建的數據量超過了基本處理的能力。
這就是機器學習算法發揮作用的地方。 然而,在這一切發生之前,必須對信息進行研究和解釋。 簡而言之,這就是無監督機器學習的用途。
在本文中,我們將深入研究無監督機器學習,包括其算法、用例等。
什麼是無監督機器學習?
無監督機器學習算法識別數據集中沒有已知或標記結果的模式。 監督 機器學習算法 有一個標記的輸出。
了解這種區別有助於您理解為什麼無監督機器學習方法不能用於解決回歸或分類問題,因為您不知道輸出數據的值/答案是什麼。 如果您不知道值/答案,則無法正常訓練算法。
此外,無監督學習可用於識別數據的基本結構。 這些算法無需人工交互即可檢測隱藏模式或數據分組。
它檢測信息相似性和對比的能力使其成為探索性數據分析、交叉銷售技術、消費者細分和圖片識別的絕佳選擇。
考慮以下場景:您在雜貨店裡看到一種您以前從未見過的不明水果。 根據對形狀、大小或顏色的觀察,您可以很容易地將未知水果與周圍的其他水果區分開來。
無監督機器學習算法
聚類
毫無疑問,聚類是使用最廣泛的無監督學習方法。 這種方法將相關數據項放入隨機生成的集群中。
機器學習模型本身可以發現未分類數據結構中的任何模式、相似性和/或差異。 模型將能夠發現數據中的任何自然分組或類。
類型
可以使用多種形式的聚類。 讓我們先看看最重要的。
- 排他聚類,有時稱為“硬”聚類,是一種分組類型,其中單個數據僅屬於一個集群。
- 重疊聚類,通常稱為“軟”聚類,允許數據對像在不同程度上屬於多個聚類。 此外,概率聚類可用於解決“軟”聚類或密度估計問題,以及評估屬於某些聚類的數據點的概率或似然性。
- 顧名思義,創建分組數據項的層次結構是層次聚類的目標。 根據層次結構對數據項進行解構或組合以生成集群。
用例:
- 異常檢測:
可以使用聚類檢測數據中任何類型的異常值。 例如,運輸和物流公司可以利用異常檢測來發現物流障礙或披露損壞的機械部件(預測性維護)。
金融機構可以使用該技術檢測欺詐性交易並迅速做出反應,從而可能節省大量資金。 觀看我們的視頻,了解有關發現異常和欺詐的更多信息。
- 客戶和市場細分:
聚類算法可以幫助對具有相似特徵的人進行分組,並為更有效的營銷和有針對性的舉措創建消費者角色。
K均值
K-means 是一種聚類方法,也稱為分區或分割。 它將數據點劃分為預定數量的集群,稱為 K。
在 K-means 方法中,K 是輸入,因為您告訴計算機您想在數據中識別多少個集群。 隨後將每個數據項分配給最近的聚類中心,稱為質心(圖片中的黑點)。
後者用作數據存儲空間。 聚類技術可以多次執行,直到聚類被明確定義。
模糊 K 均值
Fuzzy K-means 是 K-means 技術的擴展,用於進行重疊聚類。 與 K-means 技術不同,模糊 K-means 表明數據點可能屬於許多集群,每個集群具有不同程度的接近度。
數據點和集群質心之間的距離用於計算接近度。 結果,可能會出現各種集群重疊的情況。
高斯混合模型
高斯混合模型 (GMM) 是一種用於概率聚類的方法。 由於均值和方差未知,模型假設存在固定數量的高斯分佈,每個分佈代表一個不同的集群。
為了確定一個特定的數據點屬於哪個集群,本質上是使用該方法。
層次聚類
層次聚類策略可以從分配給不同聚類的每個數據點開始。 然後將彼此最接近的兩個集群混合成一個集群。 迭代合併繼續,直到只有一個集群留在頂部。
這種方法被稱為自下而上或凝聚。 如果您從綁定到同一集群的所有數據項開始,然後進行拆分,直到將每個數據項分配為單獨的集群,則該方法稱為自頂向下或分裂層次聚類。
先驗算法
購物籃分析普及了先驗算法,產生了音樂平台和在線商店的各種推薦引擎。
它們用於事務數據集中以查找頻繁項集或項分組,以便根據對另一種產品的消費來預測消費一種產品的可能性。
例如,如果我開始在 Spotify 上播放 OneRepublic 的電台“Counting Stars”,那麼這個頻道上的其他歌曲之一肯定是 Imagine Dragon 的歌曲,例如“Bad Liar”。
這是基於我以前的聽力習慣以及其他人的聽力模式。 Apriori 方法使用哈希樹計算項目集,遍歷數據集廣度優先。
降維
降維是一種無監督學習,它使用一組策略來最小化數據集中的特徵或維度的數量。 請允許我們澄清一下。
在創建您的 機器學習數據集. 不要誤會我們的意思:這種策略效果很好,因為更多的數據通常會產生更準確的結果。
假設數據存儲在 N 維空間中,每個特征代表不同的維度。 如果有很多數據,可能會有數百個維度。
考慮 Excel 電子表格,其中列代表特徵,行代表數據項。 當維度太多時,ML 算法可能會表現不佳並且 數據可視化 可能會變得困難。
因此,限制特徵或維度並僅傳達相關信息是合乎邏輯的。 降維就是這樣。 它允許可管理數量的數據輸入,而不會影響數據集的完整性。
主成分分析(PCA)
主成分分析是一種降維方法。 它用於最小化龐大數據集中的特徵數量,從而在不犧牲準確性的情況下提高數據的簡單性。
數據集壓縮是通過一種稱為特徵提取的方法完成的。 它表明原始集合中的元素被混合成一個新的、更小的元素。 這些新特徵被稱為主要成分。
當然,您可以在無監督學習應用程序中使用其他算法。 上面列出的只是最普遍的,這就是為什麼要更詳細地討論它們。
無監督學習的應用
- 無監督學習方法用於視覺感知任務,例如物體識別。
- 無監督機器學習為醫學成像系統提供了關鍵方面,例如圖像識別、分類和分割,這些在放射學和病理學中用於快速可靠地診斷患者。
- 無監督學習可以幫助識別數據趨勢,利用過去的消費者行為數據來創建更有效的交叉銷售策略。 在結帳過程中,在線企業使用它向客戶推薦正確的附加組件。
- 無監督學習方法可以篩選大量數據以找出異常值。 這些異常可能會引起設備故障、人為錯誤或安全漏洞的注意。
無監督學習的問題
無監督學習以多種方式吸引人,從發現重要見解的潛力 數據以避免昂貴的數據標記 操作。 但是,使用這種策略來訓練有幾個缺點 機器學習模型 你應該知道的。 這裡有些例子。
- 由於輸入數據缺少作為響應鍵的標籤,無監督學習模型的結果可能不太精確。
- 無監督學習經常使用大量數據集,這會增加計算複雜性。
- 該方法需要人工確認輸出,無論是內部還是外部專家在調查主題。
- 算法必須在整個訓練階段檢查和計算每個可能的場景,這需要一些時間。
結論
有效的數據利用是在特定市場建立競爭優勢的關鍵。
您可以使用無監督機器學習算法對數據進行分段,以檢查目標受眾的偏好或確定特定感染對特定治療的反應。
有幾個實際應用,並且 數據科學家、工程師和架構師可以幫助您定義目標並為您的公司開發獨特的 ML 解決方案。
發表評論