研究人員和數據科學家經常遇到這樣的情況:他們要么沒有實際數據,要么出於保密或隱私考慮而無法使用數據。
為了解決這個問題,使用合成數據生產來生成真實數據的替代品。
為了使算法正確執行,需要對真實數據進行適當的替換,這在性質上也應該是現實的。 您可以使用此類數據來維護隱私、測試系統或為機器學習算法生成訓練數據。
讓我們詳細探討合成數據的生成,看看為什麼它們在人工智能時代至關重要。
什麼是合成數據?
合成數據是由計算機模擬或算法生成的帶註釋的數據,作為現實世界數據的替代品。 它是人工智能生成的實際數據的副本。
人們可以通過先進的人工智能算法來使用數據模式和維度。 他們可以創建無限數量的合成數據,這些數據在訓練後可以在統計上代表原始訓練數據。
有多種方法和技術可以幫助我們創建合成數據,您可以在各種應用程序中使用。
數據生成軟件通常需要:
- 數據存儲庫的元數據,必須為其創建合成數據。
- 生成看似合理但虛構的值的技術。 示例包括值列表和正則表達式。
- 全面了解所有數據關係,包括在數據庫級別聲明的數據關係以及在應用程序代碼級別控制的數據關係。
同樣有必要驗證模型並將真實數據的行為方面與模型生成的數據進行比較。
這些虛構的數據集具有真實數據的所有價值,但沒有任何敏感數據。 它就像一個美味、無熱量的蛋糕。 它準確地描繪了現實世界。
因此,您可以使用它來替換現實世界的數據。
綜合數據的重要性
合成數據具有滿足某些需求或情況的特徵,而這些特徵在現實世界數據中是不可用的。 當用於測試的數據缺乏或隱私是首要考慮因素時,它就會發揮作用。
人工智能生成的數據集適應性強、安全且易於存儲、交換和丟棄。 數據合成技術適用於對原始數據進行子集化和改進。
因此,它非常適合用作測試數據和人工智能訓練數據。
- 教授基於 ML 的 Uber 和 特斯拉自動駕駛汽車.
- 在醫療和保健行業,評估不存在真實數據的特定疾病和情況。
- 欺詐檢測和保護在金融領域至關重要。 通過使用它,您可以調查新的欺詐實例。
- 亞馬遜正在使用合成數據訓練 Alexa 的語言系統。
- 美國運通正在使用合成金融數據來改進欺詐檢測。
合成數據的類型
合成數據是隨機創建的,目的是隱藏敏感的私人信息,同時保留有關原始數據特徵的統計信息。
它主要有以下三種類型:
- 全合成數據
- 部分合成數據
- 混合合成數據
1. 完全合成的數據
該數據完全是生成的,不包含原始數據。
通常,此類數據生成器將識別實際數據中特徵的密度函數並估計其參數。 隨後,根據預測的密度函數,為每個特徵隨機創建受隱私保護的序列。
如果僅選擇實際數據的幾個特徵來替換,則這些特徵的受保護序列被映射到真實數據的其餘特徵,以按相同的順序對受保護序列和真實序列進行排名。
引導技術和多重插補是生成完全合成數據的兩種傳統方法。
由於數據完全是合成的並且不存在真實數據,因此該策略提供了出色的隱私保護並依賴於數據的真實性。
2. 部分合成數據
該數據僅使用合成值來替換一些敏感特徵的值。
在這種情況下,只有存在重大暴露危險時,真實值才會改變。 進行此更改是為了保護新創建的數據的隱私。
使用多重插補和基於模型的方法來生成部分合成的數據。 這些方法還可用於填充現實數據中的缺失值。
3. 混合綜合數據
混合合成數據包括真實數據和虛假數據。
為真實數據的每個隨機記錄挑選一個近記錄,然後將兩者連接起來生成混合數據。 它兼具完全合成和部分合成數據的優點。
因此,與其他兩者相比,它提供了強大的隱私保護和高實用性,但代價是更多的內存和處理時間。
綜合數據生成技術
多年來,機器製作數據的概念一直很流行。 現在它正在成熟。
以下是一些用於生成合成數據的技術:
1、基於分佈
如果不存在真實數據,但數據分析師對數據集分佈如何出現有透徹的了解; 它們可以生成任何分佈的隨機樣本,包括正態分佈、指數分佈、卡方分佈、t 分佈、對數正態分佈和均勻分佈。
此方法中的合成數據的價值根據分析師對特定數據環境的理解程度而變化。
2. 將真實世界數據轉化為已知分佈
如果存在真實數據,企業可以通過識別給定真實數據的最佳擬合分佈來生成它。
如果企業希望將真實數據擬合到已知分佈並知道分佈參數,則可以使用蒙特卡羅方法來生成它。
儘管蒙特卡羅方法可以幫助企業找到可用的最佳匹配,但最佳匹配可能不足以滿足公司的合成數據需求。
企業可能會探索採用機器學習模型來適應這些情況下的分佈。
機器學習技術(例如決策樹)使組織能夠對非經典分佈進行建模,這些分佈可能是多模態的並且缺乏公認分佈的共同屬性。
企業可以使用這種機器學習擬合分佈來生成與真實數據連接的合成數據。
然而, 機器學習模型 容易受到過度擬合的影響,這導致它們無法匹配新數據或預測未來的觀察結果。
3. 深度學習
變分自動編碼器 (VAE) 和生成對抗網絡 (GAN) 等深度生成模型可以生成合成數據。
可變自動編碼器
VAE 是一種無監督方法,編碼器壓縮原始數據集並將數據發送到解碼器。
然後解碼器產生代表原始數據集的輸出。
教授系統涉及最大化輸入和輸出數據之間的相關性。
生成對抗網絡
GAN 模型使用兩個網絡(生成器和判別器)迭代訓練模型。
生成器從一組隨機樣本數據創建合成數據集。
鑑別器使用預定義的條件將綜合創建的數據與真實數據集進行比較。
綜合數據提供商
結構化數據
下面提到的平台提供從表格數據派生的合成數據。
它複製表中保存的真實數據,可用於行為、預測或事務分析。
- 灌輸人工智能:它是使用生成對抗網絡和差異隱私的合成數據創建系統的提供商。
- 更好的數據:它是一家為人工智能、數據共享和產品開發提供保護隱私的合成數據解決方案的提供商。
- 迪韋帕萊:它是 Geminai 的提供商,Geminai 是一個用於創建與原始數據具有相同統計特徵的“孿生”數據集的系統。
非結構化數據
下面提到的平台使用非結構化數據,為訓練視覺和偵察算法提供合成數據產品和服務。
- 數據源:為視覺AI學習和開發提供3D模擬訓練數據。
- 神經實驗室:Neurolabs 是計算機視覺合成數據平台提供商。
- 並行域:它是用於自主系統培訓和測試用例的綜合數據平台的提供商。
- 科尼亞塔:它是 ADAS 和自動駕駛汽車開發商的仿真供應商。
- 雙霜:它提供用於創建 3D 環境的合成數據 API。
面臨的挑戰
它在我國有著悠久的歷史 人工智能雖然它有很多優點,但它也有一些顯著的缺點,您在處理合成數據時需要解決這些缺點。
這裡是其中的一些:
- 將復雜性從實際數據複製到合成數據時可能會出現很多錯誤。
- 它的可塑性導致其行為出現偏差。
- 使用合成數據的簡化表示訓練的算法的性能可能存在一些隱藏的缺陷,這些缺陷最近在處理實際數據時出現。
- 從現實世界的數據中復制所有相關屬性可能會變得很複雜。 在整個操作過程中,一些重要方面也可能被忽視。
結論
合成數據的產生顯然引起了人們的關注。
對於所有數據生成情況,此方法可能不是一刀切的答案。
此外,該技術可能需要通過人工智能/機器學習實現智能,並能夠處理現實世界中創建相互關聯的數據的複雜情況,最好是適合某個領域的數據。
儘管如此,它是一項創新技術,填補了其他隱私保護技術的不足。
今天,合成 數據生產可能需要數據脫敏並存.
未來,兩者之間可能會有更大的融合,從而產生更全面的數據生成解決方案。
在評論中分享你的看法!
發表評論