Syntetisk datagenerering: typer, teknikker og mere

Indholdsfortegnelse[Skjule][At vise]

Hvad er syntetiske data?
Betydningen af syntetiske data
Typer af syntetiske data+-
Teknikker til generering af syntetiske data+-
Syntetiske dataudbydere+-
- Strukturerede data
- Ustrukturerede data
Udfordringer
Konklusion

Forskere og dataforskere støder ofte på omstændigheder, hvor de enten ikke har de faktiske data eller er ude af stand til at bruge dem på grund af fortroligheds- eller privatlivshensyn.

For at løse dette problem bruges syntetisk dataproduktion til at producere en erstatning for ægte data.

Den passende udskiftning af ægte data er påkrævet for at algoritmen kan fungere korrekt, hvilket også bør være realistisk. Du kan bruge sådanne data til at opretholde privatlivets fred, teste systemer eller producere træningsdata til maskinlæringsalgoritmer.

Lad os udforske generering af syntetiske data i detaljer og se, hvorfor de er vigtige i AIs tidsalder.

Hvad er syntetiske data?

Syntetiske data er annoterede data genereret af computersimuleringer eller algoritmer som en erstatning for virkelige data. Det er en kunstig intelligens-genereret replika af faktiske data.

Man kan bruge datamønstre og dimensioner ved hjælp af avancerede AI-algoritmer. De kan skabe en ubegrænset mængde syntetiske data, der er statistisk repræsentative for de originale træningsdata, når de først er trænet.

Der er en række forskellige tilgange og teknologier, der kan hjælpe os med at skabe syntetiske data, og du kan bruge i en række forskellige applikationer.

Datagenereringssoftware kræver ofte:

Metadata for et datalager, for hvilket der skal oprettes syntetiske data.
Teknik til at generere plausible, men fiktive værdier. Eksempler omfatter værdilister og regulære udtryk.
Omfattende bevidsthed om alle datarelationer, dem, der er deklareret på databaseniveau såvel som dem, der kontrolleres på applikationskodeniveau.

Det er lige så nødvendigt at validere modellen og sammenligne adfærdsaspekterne af reelle data med dem, der genereres af modellen.

Disse fiktive datasæt har al værdien af den ægte vare, men ingen af de følsomme data. Det er som en lækker, kaloriefri kage. Den afbilder nøjagtigt den faktiske verden.

Som et resultat kan du bruge det til at erstatte data fra den virkelige verden.

Betydningen af syntetiske data

Syntetiske data har egenskaber, der passer til bestemte krav eller situationer, som ellers ville være utilgængelige i virkelige data. Når der er mangel på data til test, eller når privatlivets fred er en vigtig overvejelse, kommer det til undsætning.

AI-genererede datasæt er tilpasningsdygtige, sikre og nemme at opbevare, udveksle og kassere. Datasynteseteknikken er passende til at undersætte og forbedre de originale data.

Som en konsekvens er den ideel til brug som testdata og AI-træningsdata.

At undervise i ML-baseret Uber og Tesla selvkørende biler.
I medicinal- og sundhedsindustrien for at vurdere specifikke sygdomme og omstændigheder, for hvilke der ikke findes ægte data.
Afsløring og beskyttelse af svindel er afgørende i den finansielle sektor. Ved at bruge det kan du efterforske nye svigagtige tilfælde.
Amazon træner Alexas sprogsystem ved hjælp af syntetiske data.
American Express bruger syntetiske finansielle data til at forbedre opdagelsen af svindel.

Typer af syntetiske data

Syntetiske data oprettes tilfældigt med den hensigt at skjule følsomme private oplysninger, samtidig med at statistiske oplysninger om egenskaber bevares i de originale data.

Det er hovedsageligt af tre typer:

Fuldsyntetiske data
Delvis syntetiske data
Hybrid syntetiske data

1. Fuldt syntetiske data

Disse data er udelukkende genereret og indeholder ingen originale data.

Typisk vil datageneratoren for denne type identificere tæthedsfunktioner af funktioner i rigtige data og estimere deres parametre. Senere, fra forudsagte tæthedsfunktioner, oprettes privatlivsbeskyttede serier tilfældigt for hver funktion.

Hvis blot nogle få karakteristika af faktiske data vælges til at blive erstattet med dem, bliver den beskyttede serie af disse funktioner knyttet til de resterende funktioner i de rigtige data for at rangere den beskyttede og virkelige serie i samme rækkefølge.

Bootstrap-teknikker og multiple imputationer er to traditionelle metoder til at producere fuldstændig syntetiske data.

Fordi dataene er fuldstændig syntetiske og ingen reelle data eksisterer, giver denne strategi fremragende beskyttelse af privatlivets fred med en tillid til dataens sandfærdighed.

2. Delvist syntetiske data

Disse data bruger kun syntetiske værdier til at erstatte værdierne for nogle få følsomme funktioner.

I denne situation ændres ægte værdier kun, hvis der er en væsentlig fare for eksponering. Denne ændring er lavet for at beskytte privatlivets fred for nyoprettede data.

Multiple imputation og modelbaserede tilgange bruges til at producere delvist syntetiske data. Disse metoder kan også bruges til at udfylde manglende værdier i virkelige data.

3. Hybrid syntetiske data

Hybrid syntetiske data inkluderer både faktiske og falske data.

En næsten-record i den udvælges for hver tilfældig registrering af rigtige data, og de to forbindes derefter for at generere hybriddata. Det har fordelene ved både helt syntetiske og delvist syntetiske data.

Det tilbyder derfor stærk beskyttelse af privatlivets fred med høj nytteværdi sammenlignet med de to andre, men på bekostning af mere hukommelse og behandlingstid.

Teknikker til generering af syntetiske data

I mange år har konceptet med maskinfremstillede data været populært. Nu er det ved at modnes.

Her er nogle af de teknikker, der bruges til at generere syntetiske data:

1. Baseret på fordeling

I tilfælde af, at der ikke eksisterer reelle data, men dataanalytikeren har en grundig idé om, hvordan datasættets distribution vil se ud; de kan producere en tilfældig stikprøve af enhver fordeling, inklusive normal, eksponentiel, chi-kvadrat, t, lognormal og ensartet.

Værdien af syntetiske data i denne metode varierer afhængigt af analytikerens niveau af forståelse for et bestemt datamiljø.

2. Data fra den virkelige verden til kendt fordeling

Virksomheder kan producere det ved at identificere de bedst egnede distributioner for givne reelle data, hvis der er reelle data.

Virksomheder kan bruge Monte Carlo-tilgangen til at producere den, hvis de ønsker at passe rigtige data ind i en kendt distribution og kender distributionsparametrene.

Selvom Monte Carlo-tilgangen kan hjælpe virksomheder med at finde det bedste match, der er tilgængeligt, er den bedste pasform muligvis ikke tilstrækkelig til virksomhedens behov for syntetiske data.

Virksomheder kan udforske at anvende maskinlæringsmodeller, der passer til distributioner under disse omstændigheder.

Maskinlæringsteknikker, såsom beslutningstræer, gør det muligt for organisationer at modellere ikke-klassiske distributioner, som kan være multimodale og mangler fælles egenskaber for anerkendte distributioner.

Virksomheder kan producere syntetiske data, der forbinder til ægte data ved hjælp af denne maskinlæringsmonterede distribution.

Imidlertid maskinlæringsmodeller er modtagelige for overfitting, hvilket får dem til ikke at matche nye data eller forudsige fremtidige observationer.

3. Dyb læring

Dybe generative modeller som Variational Autoencoder (VAE) og Generative Adversarial Network (GAN) kan producere syntetiske data.

Variationel autoencoder

VAE er en uovervåget tilgang, hvor koderen komprimerer det originale datasæt og sender data til dekoderen.

Dekoderen producerer derefter output, der er en repræsentation af det originale datasæt.

Undervisning i systemet involverer maksimering af sammenhængen mellem input- og outputdata.

Vae

Generativt kontradiktorisk netværk

GAN-modellen træner iterativt modellen ved hjælp af to netværk, generatoren og diskriminatoren.

Generatoren opretter et syntetisk datasæt ud fra et sæt tilfældige prøvedata.

Discriminator sammenligner syntetisk oprettede data med et rigtigt datasæt ved hjælp af foruddefinerede betingelser.

Gan

Syntetiske dataudbydere

Strukturerede data

De platforme, der er nævnt nedenfor, leverer syntetiske data afledt af tabeldata.

Det replikerer data fra den virkelige verden i tabeller og kan bruges til adfærdsmæssig, forudsigelig eller transaktionsanalyse.

Indstil AI: Det er en udbyder af et syntetisk dataoprettelsessystem, der bruger Generative Adversarial Networks og differentieret privatliv.
Bedre data: Det er en udbyder af en privatlivsbevarende syntetisk dataløsning til kunstig intelligens, datadeling og produktudvikling.
Divepale: Det er udbyderen af Geminai, et system til at skabe 'tvillinge' datasæt med de samme statistiske funktioner som de originale data.

Ustrukturerede data

Platformene nævnt nedenfor opererer med ustrukturerede data og leverer syntetiske datavarer og tjenester til træning af syn og rekognosceringsalgoritmer.

Datagen: Det giver 3D-simulerede træningsdata til visuel AI-indlæring og -udvikling.
Neurolabs: Neurolabs er udbyder af en syntetisk dataplatform for computervision.
Parallelt domæne: Det er en udbyder af en syntetisk dataplatform til autonom systemtræning og test af use cases.
Svigerinde: Det er en simuleringsleverandør til ADAS og udviklere af autonome køretøjer.
Bifrost: Det giver syntetiske data-API'er til at skabe 3D-miljøer.

3 2

Udfordringer

Det har en lang historie i Kunstig intelligens, og selvom det har mange fordele, har det også betydelige ulemper, som du skal løse, mens du arbejder med syntetiske data.

Her er nogle af dem:

Der kan være mange fejl, mens kompleksiteten kopieres fra faktiske data til syntetiske data.
Den formbare natur fører til skævheder i dens adfærd.
Der kan være nogle skjulte fejl i ydeevnen af algoritmer, der trænes ved hjælp af forenklede repræsentationer af syntetiske data, der for nylig er dukket op, mens de håndterer faktiske data.
Det kan blive kompliceret at replikere alle relevante attributter fra data fra den virkelige verden. Det er også muligt, at nogle væsentlige aspekter kan blive overset under denne operation.

Konklusion

Produktionen af syntetiske data vækker tydeligvis folks opmærksomhed.

Denne metode er muligvis ikke et ensartet svar for alle datagenererende sager.

Desuden kan teknikken kræve intelligens via AI/ML og være i stand til at håndtere komplicerede situationer i den virkelige verden med at skabe indbyrdes relaterede data, ideelt set data, der passer til et bestemt domæne.

Ikke desto mindre er det en innovativ teknologi, der udfylder et hul, hvor andre teknologier, der understøtter privatlivets fred, kommer til kort.

I dag syntetisk dataproduktion kan have behov for sameksistens af datamaskering.

I fremtiden kan der være større konvergens mellem de to, hvilket resulterer i en mere omfattende datagenererende løsning.

Del dine synspunkter i kommentarerne!

værktøjer og teknikker til generering af syntetiske data

Syntetisk datagenerering: typer, teknikker og mere

Hvad er syntetiske data?

Betydningen af syntetiske data