大多數機器學習和深度學習模型在很大程度上依賴於數據量和多樣性才能正常運行。 訓練期間提供的數據的數量和多樣性對這些模型的預測準確性有重大影響。
已經被教導有效執行複雜任務的深度學習模型通常包括隱藏的神經元。 可訓練參數的數量根據隱藏神經元的數量而增加。
所需的數據量與模型可學習參數的數量成正比。 處理有限數據困難的一種方法是對當前數據進行各種變換以合成新數據。
從現有數據合成新數據的技術稱為“數據增強”。 數據增強可用於滿足兩個要求:數據量和開發準確數據所需的訓練數據的多樣性 機器學習或深度學習模型.
在這篇文章中,我們將仔細研究數據增強、它的類型、它為何如此重要等等。
那麼,什麼是數據增強?
數據增強是從現有數據中開發新的和有代表性的數據的過程。 您可以通過包含現有數據的修改版本或合成新數據來實現此目的。
此方法生成的數據集將改善您的機器學習或 深度學習模型 通過最小化過度擬合的風險。 這是使用附加信息更改或“增強”數據集的過程。
這種補充輸入的範圍可能從圖像到文本,它提高了機器學習系統的性能。
假設我們要建立一個模型來對犬種進行分類,並且我們有大量的除了哈巴狗以外的所有品種的照片。 因此,該模型將難以對哈巴狗進行分類。
我們可以在收藏中添加額外的(真實的或虛假的)哈巴狗照片,或者我們可以將當前的哈巴狗照片翻倍(例如,通過複製和扭曲它們以使它們人為地獨一無二)。
數據增強目前有什麼用途?
申請 機器學習 正在迅速發展和多樣化,尤其是在深度學習領域。 人工智能行業面臨的挑戰可以通過數據增強技術來克服。
數據增強可以通過向訓練數據集中添加新的和多樣化的示例來提高機器學習模型的性能和結果。
當數據集大且足夠時,機器學習模型的性能更好且更準確。 對於機器學習模型,數據收集和標記可能既耗時又昂貴。
公司可以通過更改數據集和利用數據增強策略來降低運營成本。
清洗數據是數據模型開發的階段之一,對於高精度模型至關重要。 但是,如果數據清理降低了可表示性,該模型將無法預測來自實際世界的正確輸入。
機器學習模型可以通過採用數據增強方法來加強,這些方法會產生模型在現實世界中可能遇到的差異。
數據增強的類型
真實數據增強
當您將真實的補充數據添加到數據集時,就會發生真正的數據擴充。 這可以從具有附加屬性的文本文件(用於標記的圖片)到與原始對象相當的其他對象的圖像,甚至是實際事物的記錄。
例如,通過向圖像文件添加更多特徵,機器學習模型可以更輕鬆地檢測到該項目。
可能會包含關於每張圖像的更多元數據(例如,它的名稱和描述),以便我們的 AI 模型在開始對這些照片進行訓練之前更多地了解每張圖像所代表的內容。
當需要將新鮮照片分類到我們預先確定的類別之一時,例如“貓”或“狗”,該模型可以更好地檢測圖像中存在的項目並因此整體表現更好。
綜合數據 提高
除了添加更多真實數據,您還可以貢獻 綜合數據 或看起來真實的人造數據。
這有利於神經風格遷移等困難任務,但也適用於任何設計,無論您使用的是 GAN(生成對抗網絡)、CNN(卷積神經網絡)還是其他深度神經網絡架構。
例如,如果我們想正確地對哈巴狗進行分類,而不必外出拍攝大量照片,我們可以將一些虛假的哈巴狗照片添加到狗圖像集合中。
當收集數據困難、昂貴或耗時時,這種形式的數據增強對於提高模型準確性特別有效。 在這種情況下,我們正在人為地擴展數據集。
假設我們最初的 1000 張狗品種照片組僅包含 5 張哈巴狗圖像。 與其添加來自真實狗的其他實際哈巴狗照片,不如通過克隆當前的一張並稍微扭曲它以使其看起來仍然像哈巴狗來創建一張假照片。
數據增強技術
數據增強方法需要對現有數據進行少量修改。 這與改寫聲明相同。 我們可以將數據增強分為三類:
文本
- 單詞替換:這種數據增強方法包括用同義詞替換當前術語。 例如,“這部電影很愚蠢”可以變成“這部電影很白痴”。
- 句子/單詞改組:此策略涉及在保持整體連貫性的同時切換短語或單詞的順序。
- 句法樹操作:您在使用相同術語的同時將現有句子更改為語法準確。
- 隨機刪除:雖然這種策略會產生醜陋的文字,但它是有效的。 結果,“我不會購買這張唱片,因為它被劃傷”這行變成了“我不會買這個,因為它被劃傷了”。 這句話不太清楚,但它仍然是一個合理的補充。
- 反向翻譯:這種方法既有效又令人愉快。 用您的語言編寫一份聲明,將其翻譯成另一種語言,然後將其重新翻譯回您的原始語言。
圖片
- 內核過濾器:這種方法銳化或模糊圖片。
- 圖像組合:雖然看起來很奇怪,但您可以混合照片。
- 隨機擦除:刪除當前圖片的一小部分。
- 幾何變換:這種方法包括任意翻轉、旋轉、裁剪或翻譯圖片。
- 翻轉圖片:您可以將圖像從水平方向翻轉到垂直方向。
- 顏色空間轉換:您可以修改 RGB 顏色通道或增強任何當前顏色。
- 重新縮放是調整視覺比例的過程。 您可以選擇縮小或縮小。 當您向內縮放時,圖像變得小於初始大小。 如果向外縮放,圖片會比原圖大。
音頻
- 音高:這種方法涉及改變音頻音高。
- 更改速度:更改音頻文件或錄音的速度。
- 更多噪音:您可以為音頻文件添加更多噪音。
用例
醫學成像是目前數據增強的一個突出用例。 醫學圖片集合很小,由於規則和隱私問題,共享數據很困難。
此外,在罕見疾病的情況下,數據集受到更多限制。 醫學影像公司使用數據增強來多樣化他們的數據集。
面臨的挑戰
可擴展性、多樣化的數據集和相關性是開發有效數據增強技術需要解決的一些問題。
在可擴展性方面,增強數據必須是可擴展的,以便許多不同的模型可以使用它。 您需要確保這可以復制以用於未來的模型,因為建立一個生成大量相關、有價值、增強數據的數據增強系統可能需要一些時間。
在異質性方面,各種數據集具有不同的特徵,在開發增強數據時必須考慮這些特徵。 為了開發適當的增強數據,必須利用每個數據集的屬性。
換句話說,數據增強在數據集和用例之間會有所不同。
最後,為了保證增加的數據的優勢超過任何危害,在被機器學習模型使用之前,應該使用合適的指標來評估增加的數據。
例如,基於圖像的增強數據中存在顯著的背景噪聲或不相關的項目可能會對模型的性能產生不利影響。
結論
最終,無論您是試圖預測損失、識別財務欺詐還是更好地構建 圖像分類 在模型中,數據增強是構建更準確、更健壯的模型的關鍵方法。
通過卓越的訓練程序,簡單的預處理和數據增強甚至可以幫助團隊開發尖端模型。
企業可以利用數據增強來減少準備訓練數據所花費的時間,並創建更準確、更快速的機器學習模型.
通過擴展數據集中相關數據的數量,數據增強還可以使已經擁有大量數據的機器學習模型受益。
發表評論