高級分析和機器學習程序由數據推動,但由於隱私和業務程序方面的挑戰,學術界可能難以訪問這些數據。
可以以實際數據無法共享和利用的方式共享和利用合成數據,是一個潛在的新方向。 然而,這種新策略並非沒有危險或缺點,因此企業必須仔細考慮他們在何處以及如何使用其資源。
在當前的人工智能時代,我們也可以說數據是新的石油,但只有少數人坐在噴油器上。 因此,很多人都在生產自己的燃料,既實惠又高效。 它被稱為合成數據。
在這篇文章中,我們將詳細介紹合成數據——為什麼要使用它、如何生成它、它與實際數據有何不同、它可以服務於哪些用例等等。
那麼,什麼是合成數據?
當真實數據集在質量、數量或多樣性方面不足時,可以使用合成數據來訓練 AI 模型來代替真實的歷史數據。
當現有數據不能滿足業務需求或用於開發時存在隱私風險時 機器學習 模型、測試軟件等,合成數據可以成為企業 AI 工作的重要工具。
簡單地說,合成數據經常被用來代替實際數據。 更準確地說,它是通過模擬或計算機算法人工標記和產生的數據。
合成數據是由計算機程序人工創建的信息,而不是實際發生的結果。 公司可以將合成數據添加到他們的訓練數據中,以涵蓋所有使用情況和邊緣情況,降低數據收集成本或滿足隱私法規。
由於處理能力和數據存儲方法(如雲)的改進,人工數據現在比以往任何時候都更容易訪問。 合成數據改進了對所有最終用戶更有利的人工智能解決方案的創建,這無疑是一個很好的發展。
合成數據有多重要,為什麼要使用它?
在訓練 AI 模型時,開發人員經常需要帶有精確標籤的龐大數據集。 當用更多不同的數據進行教學時, 神經網絡 執行更準確。
然而,收集和標記這些包含數百甚至數百萬個項目的海量數據集可能會非常耗費時間和金錢。 使用合成數據可以大大降低生成訓練數據的價格。 例如,如果是人工創建的,從 數據標籤提供者 可能只需要 0.05 美元。
合成數據可以減輕與現實世界產生的潛在敏感數據相關的隱私問題,同時還可以減少開支。
與無法準確反映有關現實世界的全部事實的真實數據相比,它可能有助於減少偏見。 通過提供代表合理可能性但可能難以從合法數據中獲取的不尋常事件,合成數據可以提供更大的多樣性。
綜合數據可能非常適合您的項目,原因如下:
1.模型的穩健性
無需獲取它,即可為您的模型訪問更多不同的數據。 使用合成數據,您可以使用同一個人的各種髮型、面部毛髮、眼鏡、頭部姿勢等的變體以及膚色、種族特徵、骨骼結構、雀斑和其他特徵來訓練您的模型,以生成獨特的面對並加強它。
2.考慮邊緣情況
平衡 機器學習首選數據集 算法。 回想一下我們的人臉識別示例。 他們的模型的準確性會有所提高(事實上,其中一些企業就是這樣做的),如果他們產生了膚色較深的人臉的合成數據來填補他們的數據空白,他們就會產生一個更道德的模型。 在合成數據的幫助下,團隊可以涵蓋所有用例,包括數據稀缺或不存在的邊緣情況。
3.可以比“實際”數據更快地獲得
團隊能夠快速生成大量合成數據。 當現實生活中的數據依賴於零星事件時,這尤其有用。 例如,由於稀有性,團隊在為自動駕駛汽車收集數據時,可能會發現很難在惡劣的路況下獲得足夠的真實數據。 為了加快繁瑣的註釋過程,數據科學家可以提出算法來自動標記生成的合成數據。
4. 保護用戶隱私信息
公司在處理敏感數據時可能會遇到安全問題,具體取決於業務和數據類型。 例如,個人健康信息 (PHI) 經常包含在醫療保健行業的住院患者數據中,必須以最高安全性進行處理。
由於合成數據不包括有關真實人物的信息,因此減少了隱私問題。 如果您的團隊必須遵守某些數據隱私法,請考慮使用合成數據作為替代方案。
真實數據與合成數據
在現實世界中,獲取或測量真實數據。 當有人使用智能手機、筆記本電腦或電腦、佩戴手錶、訪問網站或進行在線交易時,這類數據會立即生成。
此外,調查可用於提供真實數據(在線和離線)。 數字設置產生合成數據。 除了不是來自任何現實世界事件的部分外,合成數據的創建方式可以成功地在基本質量方面模仿實際數據。
使用合成數據代替實際數據的想法非常有前途,因為它可以用來提供 機器學習的訓練數據 模型需要。 但不確定 人工智能 可以解決現實世界中出現的每一個問題。
用例
合成數據可用於各種商業目的,包括模型訓練、模型驗證和新產品測試。 我們將列出一些在機器學習應用方面處於領先地位的行業:
1。 衛生保健
鑑於其數據的敏感性,醫療保健行業非常適合使用合成數據。 團隊可以使用合成數據來記錄可能存在的每種患者的生理機能,從而幫助更快、更準確地診斷疾病。
谷歌的黑色素瘤檢測模型是一個有趣的例子,因為它結合了膚色較深的人的合成數據(令人遺憾的是,這一領域的臨床數據代表性不足)為模型提供了對所有皮膚類型有效運行的能力。
2。 汽車
製造自動駕駛汽車的公司經常使用模擬器來評估性能。 例如,當天氣惡劣時,收集真實的道路數據可能會有風險或困難。
依靠道路上實際汽車的現場測試通常不是一個好主意,因為在所有不同的駕駛情況下要考慮的變量太多了。
3. 數據的可移植性
為了能夠與他人共享他們的訓練數據,組織需要可靠且安全的方法。 在公開數據集之前隱藏個人身份信息 (PII) 是合成數據的另一個有趣應用。 交換可能包含 PII 的科學研究數據集、醫學數據、社會學數據和其他領域,被稱為保護隱私的合成數據。
4. 安全
由於合成數據,組織更加安全。 關於我們的面部識別示例,您可能熟悉“深度偽造”一詞,它描述了偽造的照片或視頻。 企業可以生產深度偽造品來測試他們自己的面部識別和安全系統。 合成數據還用於視頻監控,以更快、更便宜地訓練模型。
合成數據和機器學習
為了構建可靠且值得信賴的模型,機器學習算法需要處理大量數據。 在沒有合成數據的情況下,生成如此大量的數據將具有挑戰性。
在計算機視覺或圖像處理等領域,早期合成數據的開發促進了模型的開發,這可能非常重要。 圖片識別領域的一個新發展是使用生成對抗網絡(GAN)。 通常由兩個網絡組成:生成器和鑑別器。
雖然鑑別器網絡旨在將真實照片與假照片區分開來,但生成器網絡的功能是生成與真實世界圖像更加相似的合成圖像。
在機器學習中,GAN 是神經網絡家族的一個子集,兩個網絡都通過添加新節點和層來不斷學習和發展。
創建合成數據時,您可以根據需要更改數據的環境和類型,以增強模型的性能。 雖然可以通過高分輕鬆獲得合成數據的準確性,但標記實時數據的準確性有時會非常昂貴。
如何生成合成數據?
用於創建合成數據集合的方法如下:
基於統計分佈
在這種情況下使用的策略是從分佈中獲取數字或查看實際的統計分佈,以創建看起來具有可比性的虛假數據。 在某些情況下,可能完全沒有真實數據。
如果數據科學家深入掌握實際數據中的統計分佈,他可以生成包含任何分佈的隨機樣本的數據集。 正態分佈、指數分佈、卡方分佈、對數正態分佈等只是可用於執行此操作的統計概率分佈的幾個示例。
數據科學家對這種情況的經驗水平將對訓練模型的準確性產生重大影響。
取決於型號
在使用該模型生成隨機數據之前,該技術會構建一個模型來解釋觀察到的行為。 本質上,這涉及將真實數據擬合到來自已知分佈的數據。 然後,公司可以使用蒙特卡羅方法來創建虛假數據。
此外,分佈也可以使用 機器學習模型 像決策樹。 數據科學家 但是,必須注意預測,因為決策樹通常由於其簡單性和深度擴展而過擬合。
通過深度學習
深入學習 使用變分自動編碼器 (VAE) 或生成對抗網絡 (GAN) 模型的模型是創建合成數據的兩種方法。 無監督機器學習模型包括 VAE。
它們由壓縮和壓縮原始數據的編碼器和仔細檢查這些數據以提供真實數據表示的解碼器組成。 保持輸入和輸出數據盡可能一致是 VAE 的基本目標。 兩個對立的神經網絡是 GAN 模型和對抗網絡。
第一個網絡稱為生成器網絡,負責生成假數據。 鑑別器網絡(第二個網絡)通過將創建的合成數據與實際數據進行比較來識別數據集是否具有欺詐性。 鑑別器在發現虛假數據集時向生成器發出警報。
提供給鑑別器的以下一批數據隨後由生成器修改。 因此,隨著時間的推移,鑑別器在發現虛假數據集方面會變得更好。 這種模型經常用於金融領域的欺詐檢測以及醫療保健領域的醫學成像。
數據增強是數據科學家用來生成更多數據的另一種方法。 不過,不應將其誤認為是虛假數據。 簡單地說,數據增強是將新數據添加到已經存在的真實數據集中的行為。
從單個圖像創建多張圖片,例如,通過調整方向、亮度、放大率等。 有時,使用實際數據集時僅保留個人信息。 數據匿名化就是這樣,一組這樣的數據同樣不能被視為合成數據。
合成數據的挑戰和局限性
儘管合成數據有多種好處可以幫助公司進行數據科學活動,但它也有一定的局限性:
- 數據的可靠性: 眾所周知,每個機器學習/深度學習模型都與它所提供的數據一樣好。 在這種情況下,合成數據的質量與輸入數據的質量和用於生成數據的模型密切相關。 確保源數據中不存在偏差至關重要,因為這些偏差可以非常清楚地反映在合成數據中。 此外,在進行任何預測之前,應確認和驗證數據質量。
- 需要知識、努力和時間:雖然創建合成數據可能比創建真實數據更簡單且成本更低,但它確實需要一些知識、時間和精力。
- 複製異常:真實世界數據的完美復制是不可能的; 合成數據只能近似它。 因此,合成數據可能無法覆蓋真實數據中存在的一些異常值。 數據異常比典型數據更顯著。
- 控制生產,確保質量:合成數據旨在復制真實世界的數據。 數據人工驗證變得必不可少。 對於使用算法自動創建的複雜數據集,在將數據整合到機器學習/深度學習模型中之前,必須驗證數據的準確性。
- 用戶反饋:由於合成數據是一個新概念,並不是每個人都願意相信用它做出的預測。 這表明,為了提高用戶的接受度,首先需要提高對合成數據效用的認識。
未來
在過去十年中,合成數據的使用急劇增加。 雖然它為公司節省了時間和金錢,但也不是沒有缺點。 它缺少異常值,這些異常值自然存在於實際數據中,並且對於某些模型的準確性至關重要。
還值得注意的是,合成數據的質量通常取決於用於創建的輸入數據。 輸入數據中的偏差會迅速蔓延到合成數據中,因此不應誇大選擇高質量數據作為起點。
最後,它需要進一步的輸出控制,包括將合成數據與人工註釋的真實數據進行比較,以驗證沒有引入差異。 儘管存在這些障礙,合成數據仍然是一個有前途的領域。
即使現實世界的數據不可用,它也可以幫助我們創建新穎的 AI 解決方案。 最重要的是,它使企業能夠構建更具包容性並能體現其最終消費者多樣性的產品。
然而,在數據驅動的未來,合成數據旨在幫助數據科學家執行新穎且創造性的任務,而這些任務僅靠現實世界的數據就難以完成。
結論
在某些情況下,合成數據可以緩解企業或組織內部的數據不足或相關數據缺乏。 我們還研究了哪些策略可以幫助生成合成數據以及誰可以從中獲利。
我們還談到了處理合成數據時遇到的一些困難。 對於商業決策而言,真實數據將永遠受到青睞。 但是,當無法訪問此類真實的原始數據進行分析時,真實數據是下一個最佳選擇。
但是,必須記住,為了生成合成數據,需要紮實掌握數據建模的數據科學家。 對真實數據及其周圍環境的透徹理解也是必不可少的。 這對於確保生成的數據盡可能準確(如果可用)至關重要。
發表評論