Syntetisk datagenerering: typer, teknikker og mer

Innholdsfortegnelse[Gjemme seg][Forestilling]

Hva er syntetiske data?
Viktigheten av syntetiske data
Typer syntetiske data+-
Teknikker for syntetisk datagenerering+-
Syntetiske dataleverandører+-
- Strukturerte data
- Ustrukturerte data
Utfordringer
konklusjonen

Forskere og dataforskere møter ofte omstendigheter der de enten ikke har de faktiske dataene eller ikke er i stand til å bruke dem på grunn av konfidensialitet eller personvernhensyn.

For å løse dette problemet, brukes syntetisk dataproduksjon for å produsere en erstatning for ekte data.

Den riktige erstatningen av ekte data er nødvendig for at algoritmen skal fungere riktig, som også bør være realistisk. Du kan bruke slike data til å vedlikeholde personvernet, teste systemer eller produsere opplæringsdata for maskinlæringsalgoritmer.

La oss utforske syntetisk datagenerering i detalj og se hvorfor de er viktige i AI-tiden.

Hva er syntetiske data?

Syntetiske data er annoterte data generert av datasimuleringer eller algoritmer som en erstatning for virkelige data. Det er en kunstig intelligens-generert kopi av faktiske data.

Man kan bruke datamønstre og dimensjoner ved å bruke avanserte AI-algoritmer. De kan lage en ubegrenset mengde syntetiske data som er statistisk representativ for de opprinnelige treningsdataene når de først er trent.

Det finnes en rekke tilnærminger og teknologier som kan hjelpe oss med å lage syntetiske data, og du kan bruke dem i en rekke applikasjoner.

Datagenereringsprogramvare krever ofte:

Metadata til et datalager, som det må opprettes syntetiske data for.
Teknikk for å generere plausible, men fiktive verdier. Eksempler inkluderer verdilister og regulære uttrykk.
Omfattende bevissthet om alle datarelasjoner, de som er deklarert på databasenivå så vel som de kontrollert på applikasjonskodenivå.

Det er like nødvendig å validere modellen og sammenligne atferdsaspektene til virkelige data med de som genereres av modellen.

Disse fiktive datasettene har all verdien av den ekte varen, men ingen av de sensitive dataene. Det er som en saftig, kalorifri kake. Den skildrer den faktiske verden nøyaktig.

Som et resultat kan du bruke den til å erstatte virkelige data.

Viktigheten av syntetiske data

Syntetiske data har egenskaper som passer til visse krav eller situasjoner som ellers ville vært utilgjengelige i virkelige data. Når det er mangel på data for testing eller når personvern er en viktig faktor, kommer det til unnsetning.

AI-genererte datasett er tilpasningsdyktige, sikre og enkle å lagre, utveksle og forkaste. Datasynteseteknikken er egnet for undersetting og forbedring av de originale dataene.

Som en konsekvens er den ideell for bruk som testdata og AI-treningsdata.

For å lære ML-baserte Uber og Tesla selvkjørende biler.
I medisinsk og helsevesen, for å vurdere spesifikke sykdommer og omstendigheter som det ikke eksisterer ekte data for.
Oppdagelse og beskyttelse av svindel er avgjørende i finanssektoren. Ved å bruke den kan du undersøke nye svindelforekomster.
Amazon trener Alexas språksystem ved hjelp av syntetiske data.
American Express bruker syntetiske økonomiske data for å forbedre oppdagelsen av svindel.

Typer syntetiske data

Syntetiske data lages tilfeldig med den hensikt å skjule sensitiv privat informasjon samtidig som statistisk informasjon om kjennetegn beholdes i de originale dataene.

Det er hovedsakelig av tre typer:

Helsyntetiske data
Delvis syntetiske data
Hybrid syntetiske data

1. Helsyntetiske data

Disse dataene er fullstendig generert og inneholder ingen originale data.

Vanligvis vil datageneratoren for denne typen identifisere tetthetsfunksjoner til funksjoner i reelle data og estimere deres parametere. Senere, fra predikerte tetthetsfunksjoner, opprettes personvernbeskyttede serier tilfeldig for hver funksjon.

Hvis bare noen få kjennetegn ved faktiske data velges for å erstattes med det, blir den beskyttede serien av disse funksjonene tilordnet de gjenværende funksjonene til de virkelige dataene for å rangere den beskyttede og virkelige serien i samme rekkefølge.

Bootstrap-teknikker og multiple imputasjoner er to tradisjonelle metoder for å produsere fullstendig syntetiske data.

Fordi dataene er helt syntetiske og ingen reelle data eksisterer, gir denne strategien utmerket personvern med en avhengighet av dataenes sannhet.

2. Delvis syntetiske data

Disse dataene bruker kun syntetiske verdier for å erstatte verdiene til noen få sensitive funksjoner.

I denne situasjonen endres ekte verdier kun hvis det er en betydelig fare for eksponering. Denne endringen er gjort for å beskytte personvernet til nyskapte data.

Multiple imputering og modellbaserte tilnærminger brukes til å produsere delvis syntetiske data. Disse metodene kan også brukes til å fylle inn manglende verdier i virkelige data.

3. Hybrid syntetiske data

Hybrid syntetiske data inkluderer både faktiske og falske data.

En nesten-rekord i den velges for hver tilfeldig registrering av ekte data, og de to blir deretter slått sammen for å generere hybriddata. Den har fordelene med både helt syntetiske og delvis syntetiske data.

Den tilbyr derfor sterk personvernbevaring med høy nytteverdi sammenlignet med de to andre, men på bekostning av mer minne og behandlingstid.

Teknikker for syntetisk datagenerering

I mange år har konseptet med maskinlagde data vært populært. Nå modnes den.

Her er noen av teknikkene som brukes til å generere syntetiske data:

1. Basert på distribusjon

I tilfelle ingen reelle data eksisterer, men dataanalytikeren har en grundig ide om hvordan datasettfordelingen vil se ut; de kan produsere et tilfeldig utvalg av en hvilken som helst fordeling, inkludert Normal, Eksponentiell, Chi-kvadrat, t, lognormal og Uniform.

Verdien av syntetiske data i denne metoden varierer avhengig av analytikerens nivå av forståelse for et bestemt datamiljø.

2. Data fra den virkelige verden til kjent distribusjon

Bedrifter kan produsere det ved å identifisere distribusjonene som passer best for gitte reelle data hvis det er reelle data.

Bedrifter kan bruke Monte Carlo-tilnærmingen for å produsere den hvis de ønsker å passe ekte data inn i en kjent distribusjon og kjenner distribusjonsparametrene.

Selv om Monte Carlo-tilnærmingen kan hjelpe bedrifter med å finne den beste matchen som er tilgjengelig, kan det hende at den beste passformen ikke er nyttig nok for selskapets behov for syntetiske data.

Bedrifter kan utforske bruk av maskinlæringsmodeller for å passe distribusjoner under disse omstendighetene.

Maskinlæringsteknikker, for eksempel beslutningstrær, gjør det mulig for organisasjoner å modellere ikke-klassiske distribusjoner, som kan være multimodale og mangler felles egenskaper for anerkjente distribusjoner.

Bedrifter kan produsere syntetiske data som kobles til ekte data ved å bruke denne maskinlæringstilpassede distribusjonen.

Imidlertid maskinlæringsmodeller er utsatt for overtilpasning, noe som gjør at de ikke klarer å matche ferske data eller forutsi fremtidige observasjoner.

3. Dyp læring

Dype generative modeller som Variational Autoencoder (VAE) og Generative Adversarial Network (GAN) kan produsere syntetiske data.

Variasjonell autokoder

VAE er en uovervåket tilnærming der koderen komprimerer det originale datasettet og sender data til dekoderen.

Dekoderen produserer deretter utdata som er en representasjon av det originale datasettet.

Å lære systemet innebærer å maksimere korrelasjonen mellom input og output data.

Vae

Generativ motstandernettverk

GAN-modellen trener modellen iterativt ved å bruke to nettverk, generatoren og diskriminatoren.

Generatoren lager et syntetisk datasett fra et sett med tilfeldige prøvedata.

Discriminator sammenligner syntetisk opprettede data med et ekte datasett ved å bruke forhåndsdefinerte forhold.

Gan

Syntetiske dataleverandører

Strukturerte data

Plattformene nevnt nedenfor gir syntetiske data hentet fra tabelldata.

Den replikerer data fra den virkelige verden i tabeller og kan brukes til atferds-, prediktiv- eller transaksjonsanalyse.

Sett inn AI: Det er en leverandør av et syntetisk dataopprettingssystem som bruker Generative Adversarial Networks og differensiert personvern.
Bedre data: Det er en leverandør av en personvernbevarende syntetisk dataløsning for AI, datadeling og produktutvikling.
Divepale: Det er leverandøren av Geminai, et system for å lage "tvilling" datasett med de samme statistiske funksjonene som de originale dataene.

Ustrukturerte data

Plattformene nevnt nedenfor opererer med ustrukturerte data, og tilbyr syntetiske datavarer og tjenester for trening av syn og rekognoseringsalgoritmer.

Datagen: Den gir 3D-simulerte treningsdata for læring og utvikling av visuell AI.
Neurolabs: Neurolabs er en leverandør av en syntetisk dataplattform for datasyn.
Parallelt domene: Det er en leverandør av en syntetisk dataplattform for autonom systemtrening og testing av brukstilfeller.
Cognata: Det er en simuleringsleverandør for ADAS og utviklere av autonome kjøretøy.
Bifrost: Den gir syntetiske data-APIer for å lage 3D-miljøer.

Utfordringer

Den har en lang historie i Kunstig intelligens, og selv om det har mange fordeler, har det også betydelige ulemper som du må ta tak i mens du arbeider med syntetiske data.

Her er noen av dem:

Mange feil kan være der mens du kopierer kompleksiteten fra faktiske data til syntetiske data.
Den formbare naturen fører til skjevheter i oppførselen.
Det kan være noen skjulte feil i ytelsen til algoritmer som er trent ved å bruke forenklede representasjoner av syntetiske data som nylig har dukket opp mens de håndterer faktiske data.
Å replikere alle relevante attributter fra virkelige data kan bli komplisert. Det er også mulig at noen vesentlige aspekter kan bli oversett gjennom denne operasjonen.

konklusjonen

Produksjonen av syntetiske data vekker tydeligvis folks oppmerksomhet.

Denne metoden er kanskje ikke et enkelt svar for alle datagenererende saker.

Dessuten kan teknikken kreve intelligens via AI/ML og være i stand til å håndtere kompliserte situasjoner i den virkelige verden med å lage interrelaterte data, ideelt sett data som passer til et bestemt domene.

Ikke desto mindre er det en innovativ teknologi som fyller et gap der andre personvernaktiverende teknologier kommer til kort.

I dag syntetisk dataproduksjon kan trenge sameksistens av datamaskering.

I fremtiden kan det bli større konvergens mellom de to, noe som resulterer i en mer omfattende datagenererende løsning.

Del dine synspunkter i kommentarene!

verktøy og teknikker for generering av syntetiske data

Syntetisk datagenerering: typer, teknikker og mer

Hva er syntetiske data?

Viktigheten av syntetiske data