Syntetisk datagenerering: typer, tekniker och mer

Innehållsförteckning[Dölj][Visa]

Vad är syntetiska data?
Vikten av syntetiska data
Typer av syntetiska data+-
Tekniker för att generera syntetisk data+-
Syntetiska dataleverantörer+-
- Strukturerade data
- Ostrukturerad data
Utmaningar
Slutsats

Forskare och datavetare stöter ofta på omständigheter där de antingen inte har de faktiska uppgifterna eller inte kan använda dem på grund av konfidentialitet eller integritetsskäl.

För att lösa detta problem används syntetisk dataproduktion för att producera en ersättning för äkta data.

Lämplig ersättning av äkta data krävs för att algoritmen ska fungera korrekt, vilket också bör vara realistiskt till sin karaktär. Du kan använda sådan data för att upprätthålla sekretess, testa system eller producera träningsdata för maskininlärningsalgoritmer.

Låt oss utforska syntetisk datagenerering i detalj och se varför de är viktiga i AI:s tidsålder.

Vad är syntetiska data?

Syntetisk data är kommenterad data som genereras av datorsimuleringar eller algoritmer som ett substitut för verkliga data. Det är en artificiell intelligens-genererad kopia av faktiska data.

Man kan använda datamönster och dimensioner med hjälp av avancerade AI-algoritmer. De kan skapa en obegränsad mängd syntetisk data som är statistiskt representativ för den ursprungliga träningsdatan när de väl har tränats.

Det finns en mängd olika tillvägagångssätt och teknologier som kan hjälpa oss att skapa syntetisk data och du kan använda i en mängd olika applikationer.

Programvara för datagenerering kräver ofta:

Metadata för ett datalager, för vilket syntetiska data måste skapas.
Teknik för att generera rimliga men fiktiva värden. Exempel inkluderar värdelistor och reguljära uttryck.
Omfattande medvetenhet om alla datarelationer, de som deklareras på databasnivå såväl som de som kontrolleras på applikationskodnivå.

Det är lika nödvändigt att validera modellen och jämföra beteendeaspekterna av verkliga data med de som genereras av modellen.

Dessa fiktiva datamängder har hela värdet av den äkta varan, men ingen av de känsliga uppgifterna. Det är som en läcker, kalorifri kaka. Den skildrar den verkliga världen korrekt.

Som ett resultat kan du använda den för att ersätta verklig data.

Vikten av syntetiska data

Syntetisk data har egenskaper för att passa vissa krav eller situationer som annars inte skulle vara tillgängliga i verkliga data. När det finns en brist på data för testning eller när integritet är en viktig faktor, kommer det till undsättning.

AI-genererade datauppsättningar är anpassningsbara, säkra och lätta att lagra, byta ut och kassera. Datasyntestekniken är lämplig för att underställa och förbättra originaldata.

Som en konsekvens är den idealisk för användning som testdata och AI-träningsdata.

Att lära ut ML-baserade Uber och Tesla självkörande bilar.
Inom medicin- och hälsovårdsindustrin, för att bedöma specifika sjukdomar och omständigheter för vilka äkta data inte finns.
Bedrägeriupptäckt och -skydd är avgörande i finanssektorn. Genom att använda det kan du undersöka nya bedrägliga fall.
Amazon tränar Alexas språksystem med hjälp av syntetisk data.
American Express använder syntetisk finansiell data för att förbättra upptäckten av bedrägerier.

Typer av syntetiska data

Syntetisk data skapas slumpmässigt med avsikten att dölja känslig privat information samtidigt som statistisk information om egenskaper behålls i originaldata.

Det är huvudsakligen av tre typer:

Helsyntetisk data
Delvis syntetisk data
Hybrid syntetisk data

1. Helsyntetisk data

Denna data är helt genererad och innehåller inga originaldata.

Typiskt kommer datageneratorn för denna typ att identifiera densitetsfunktioner för funktioner i verkliga data och uppskatta deras parametrar. Senare, från förutsagda densitetsfunktioner, skapas integritetsskyddade serier slumpmässigt för varje funktion.

Om bara ett fåtal egenskaper hos faktiska data väljs för att ersättas med den, mappas den skyddade serien av dessa funktioner till de återstående egenskaperna hos den verkliga datan för att rangordna de skyddade och verkliga serierna i samma ordning.

Bootstrap-tekniker och multipla imputationer är två traditionella metoder för att producera helt syntetisk data.

Eftersom uppgifterna är helt syntetiska och inga riktiga data existerar, ger denna strategi ett utmärkt integritetsskydd med ett beroende av uppgifternas sanningsenlighet.

2. Delvis syntetiska data

Denna data använder endast syntetiska värden för att ersätta värdena för ett fåtal känsliga funktioner.

I denna situation ändras äkta värden endast om det finns en påtaglig risk för exponering. Denna ändring görs för att skydda sekretessen för nyskapad data.

Flera imputerings- och modellbaserade tillvägagångssätt används för att producera delvis syntetisk data. Dessa metoder kan också användas för att fylla i saknade värden i verkliga data.

3. Hybrid syntetiska data

Hybrid syntetisk data inkluderar både faktiska och falska data.

Ett nästan-rekord i den plockas för varje slumpmässig post av verklig data, och de två sammanfogas sedan för att generera hybriddata. Det har fördelarna med både helt syntetisk och delvis syntetisk data.

Den erbjuder därför stark integritetsbevarande med hög användbarhet jämfört med de andra två, men till priset av mer minne och bearbetningstid.

Tekniker för att generera syntetisk data

I många år har konceptet med maskingjord data varit populärt. Nu håller det på att mogna.

Här är några av de tekniker som används för att generera syntetisk data:

1. Baserat på distribution

Om det inte finns några riktiga data, men dataanalytikern har en grundlig uppfattning om hur datauppsättningsfördelningen skulle se ut; de kan producera ett slumpmässigt urval av vilken fördelning som helst, inklusive normal, exponentiell, chi-kvadrat, t, lognormal och enhetlig.

Värdet av syntetisk data i denna metod varierar beroende på analytikerns nivå av förståelse för en viss datamiljö.

2. Verkliga data till känd distribution

Företag kan producera det genom att identifiera de fördelningar som passar bäst för given verklig data om det finns verklig data.

Företag kan använda Monte Carlo-metoden för att producera den om de vill passa in riktiga data i en känd distribution och känna till distributionsparametrarna.

Även om Monte Carlo-metoden kan hjälpa företag att hitta den bästa matchningen som finns, kanske den bästa passformen inte är tillräckligt användbar för företagets behov av syntetiska data.

Företag kan utforska att använda maskininlärningsmodeller för att passa distributioner under dessa omständigheter.

Maskininlärningstekniker, såsom beslutsträd, gör det möjligt för organisationer att modellera icke-klassiska distributioner, som kan vara multimodala och sakna gemensamma egenskaper hos erkända distributioner.

Företag kan producera syntetisk data som ansluter till äkta data med hjälp av denna maskininlärningsanpassade distribution.

Emellertid maskininlärningsmodeller är mottagliga för övermontering, vilket gör att de inte matchar färska data eller förutsäger framtida observationer.

3. Djupt lärande

Djupa generativa modeller som Variational Autoencoder (VAE) och Generative Adversarial Network (GAN) kan producera syntetisk data.

Varierande autokodare

VAE är ett oövervakat tillvägagångssätt där kodaren komprimerar den ursprungliga datamängden och skickar data till avkodaren.

Avkodaren producerar sedan utdata som är en representation av den ursprungliga datamängden.

Att lära ut systemet innebär att maximera korrelationen mellan in- och utdata.

Vae

Generativt Adversarial Network

GAN-modellen tränar modellen iterativt med hjälp av två nätverk, generatorn och diskriminatorn.

Generatorn skapar en syntetisk datauppsättning från en uppsättning slumpmässiga exempeldata.

Discriminator jämför syntetiskt skapade data med en riktig datauppsättning med fördefinierade villkor.

Gan

Syntetiska dataleverantörer

Strukturerade data

Plattformarna som nämns nedan tillhandahåller syntetisk data som härrör från tabelldata.

Den replikerar verkliga data som lagras i tabeller och kan användas för beteendeanalys, prediktiv analys eller transaktionsanalys.

Ingjuta AI: Det är en leverantör av ett syntetiskt dataskapande system som använder Generative Adversarial Networks och differentiell integritet.
Bättre data: Det är en leverantör av en integritetsbevarande syntetisk datalösning för AI, datadelning och produktutveckling.
Divepale: Det är leverantören av Geminai, ett system för att skapa "dubbla" datauppsättningar med samma statistiska egenskaper som originaldata.

Ostrukturerad data

Plattformarna som nämns nedan arbetar med ostrukturerad data och tillhandahåller syntetiska datavaror och tjänster för träning av syn och spaningsalgoritmer.

Datagen: Den tillhandahåller 3D-simulerade träningsdata för inlärning och utveckling av visuell AI.
Neurolabs: Neurolabs är en leverantör av en syntetisk dataplattform för datorseende.
Parallell domän: Det är en leverantör av en syntetisk dataplattform för autonom systemutbildning och testning av användningsfall.
Cognata: Det är en simuleringsleverantör för ADAS och autonoma fordonsutvecklare.
Bifrost: Det tillhandahåller syntetiska data-API:er för att skapa 3D-miljöer.

3 2

Utmaningar

Den har en lång historia i Artificiell intelligens, och även om det har många fördelar, har det också betydande nackdelar som du måste åtgärda när du arbetar med syntetisk data.

Här är några av dem:

Många fel kan finnas där när komplexiteten kopieras från faktiska data till syntetiska data.
Den formbara naturen leder till fördomar i dess beteende.
Det kan finnas några dolda brister i prestandan hos algoritmer som tränas med förenklade representationer av syntetiska data som nyligen har dykt upp under hanteringen av faktiska data.
Att replikera alla relevanta attribut från verkliga data kan bli komplicerat. Det är också möjligt att vissa väsentliga aspekter kan förbises under denna operation.

Slutsats

Produktionen av syntetiska data är helt klart att fånga människors uppmärksamhet.

Den här metoden kanske inte är ett entydigt svar för alla datagenererande fall.

Dessutom kan tekniken kräva intelligens via AI/ML och kunna hantera komplicerade situationer i verkligheten för att skapa inbördes relaterade data, helst data som passar en viss domän.

Inte desto mindre är det en innovativ teknik som fyller ett tomrum där andra integritetsmöjliggörande teknologier kommer till korta.

Idag syntet dataproduktion kan behöva samexistensen av datamaskering.

I framtiden kan det bli större konvergens mellan de två, vilket resulterar i en mer omfattande datagenererande lösning.

Dela dina åsikter i kommentarerna!

verktyg och tekniker för att generera syntetiska data

Syntetisk datagenerering: typer, tekniker och mer

Vad är syntetiska data?

Vikten av syntetiska data