Syntetiske data forklaret - Den næste store ting i AI, ML og DL

Avancerede analyse- og maskinlæringsprogrammer drives af data, men adgang til disse data kan være vanskelig for akademikere på grund af udfordringer med privatliv og forretningsgange.

Syntetiske data, som kan deles og bruges på måder, som faktiske data ikke kan, er en potentiel ny retning at forfølge. Denne nye strategi er dog ikke uden farer eller ulemper, derfor er det afgørende, at virksomheder nøje overvejer, hvor og hvordan de bruger deres ressourcer.

I den nuværende æra af kunstig intelligens kan vi også konstatere, at data er den nye olie, men kun nogle få udvalgte sidder på en gusher. Derfor er der rigtig mange, der producerer deres eget brændstof, som er både overkommeligt og effektivt. Det er kendt som syntetiske data.

I dette indlæg tager vi et detaljeret kig på syntetiske data - hvorfor du skal bruge det, hvordan man producerer det, hvad der adskiller dem fra faktiske data, hvilke anvendelsesmuligheder det kan tjene og meget mere.

Så hvad er syntetiske data?

Når ægte datasæt er utilstrækkelige med hensyn til kvalitet, antal eller mangfoldighed, kan syntetiske data bruges til at træne AI-modeller i stedet for rigtige historiske data.

Når eksisterende data ikke opfylder forretningskrav eller har privatlivsrisici, når de bruges til at udvikle machine learning modeller, testsoftware eller lignende, kan syntetiske data være et væsentligt værktøj til virksomhedens AI-indsats.

Simpelthen sagt, syntetiske data bruges ofte i stedet for faktiske data. Mere præcist er det data, der er blevet kunstigt tagget og produceret af simuleringer eller computeralgoritmer.

Syntetiske data

Syntetiske data er information, der er blevet skabt af et computerprogram kunstigt i stedet for som et resultat af faktiske hændelser. Virksomheder kan føje syntetiske data til deres træningsdata for at dække alle brugs- og kantsituationer, reducere omkostningerne ved dataindsamling eller opfylde fortrolighedsbestemmelser.

Kunstige data er nu mere tilgængelige end nogensinde takket være forbedringer i processorkraft og datalagringsmetoder som skyen. Syntetiske data forbedrer skabelsen af AI-løsninger, der er mere gavnlige for alle slutbrugere, og det er uden tvivl en god udvikling.

Hvor vigtige er syntetiske data, og hvorfor skal du bruge dem?

Når udviklere træner AI-modeller, har udviklere ofte brug for enorme datasæt med præcis mærkning. Når der undervises med mere varierede data, neurale netværk udføre mere præcist.

Indsamling og mærkning af disse massive datasæt, der indeholder hundredvis eller endda millioner af genstande, kan dog være urimeligt tids- og pengekrævende. Prisen for at producere træningsdata kan reduceres kraftigt ved at bruge syntetiske data. For eksempel, hvis det er lavet kunstigt, vil et træningsbillede, der koster $5, når det købes fra en udbyder af datamærkning koster måske kun $0.05.

Syntetiske data kan afhjælpe bekymringer om privatlivets fred relateret til potentielt følsomme data genereret fra den faktiske verden og samtidig reducere omkostningerne.

I sammenligning med ægte data, som ikke præcist kunne afspejle hele spektret af fakta om den virkelige verden, kan det hjælpe med at mindske fordomme. Ved at give usædvanlige hændelser, der repræsenterer plausible muligheder, men som kan være udfordrende at få fra legitime data, kan syntetiske data tilbyde større mangfoldighed.

Syntetiske data kunne være en fantastisk pasform til dit projekt af grundene nedenfor:

1. Modellens robusthed

Uden at skulle anskaffe det, få adgang til mere varierede data til dine modeller. Med syntetiske data kan du træne din model ved hjælp af varianter af den samme person med forskellige hårklipp, ansigtshår, briller, hovedstillinger osv., samt hudtone, etniske træk, knoglestruktur, fregner og andre egenskaber for at generere unikke egenskaber ansigter og styrke det.

2. Kantsager tages i betragtning

En afbalanceret datasæt foretrækkes af maskinlæring algoritmer. Tænk tilbage på vores eksempel på ansigtsgenkendelse. Nøjagtigheden af deres modeller ville være blevet forbedret (og faktisk gjorde nogle af disse virksomheder netop dette), og de ville have produceret en mere moralsk model, hvis de havde produceret syntetiske data af mørkere ansigter for at udfylde deres datahuller. Teams kan dække alle use cases, herunder kantsager, hvor data er knappe eller ikke-eksisterende, ved hjælp af syntetiske data.

3. Det kan fås hurtigere end "faktiske" data

Teams er i stand til hurtigt at generere enorme mængder syntetiske data. Dette er især nyttigt, når de virkelige data afhænger af sporadiske hændelser. Hold kan finde det svært at få nok data fra den virkelige verden om svære vejforhold, mens de indsamler data til en selvkørende bil, for eksempel på grund af deres sjældenhed. For at fremskynde den besværlige annoteringsproces kan dataforskere opsætte algoritmer til automatisk at mærke de syntetiske data, efterhånden som de genereres.

4. Det sikrer brugernes privatlivsoplysninger

Virksomheder kan have sikkerhedsproblemer, mens de håndterer følsomme data, afhængigt af virksomheden og typen af data. Personlige helbredsoplysninger (PHI) indgår for eksempel ofte i indlæggelsesdata i sundhedssektoren og skal håndteres med den største sikkerhed.

Fordi syntetiske data ikke inkluderer oplysninger om faktiske personer, mindskes privatlivsproblemer. Overvej at bruge syntetiske data som et alternativ, hvis dit team skal overholde visse love om databeskyttelse.

Ægte data vs syntetiske data

I den virkelige verden opnås eller måles reelle data. Når nogen bruger en smartphone, bærbar computer eller computer, bærer et armbåndsur, går ind på et websted eller foretager en online transaktion, genereres denne type data øjeblikkeligt.

Derudover kan undersøgelser bruges til at levere ægte data (online og offline). Digitale indstillinger producerer syntetiske data. Med undtagelse af den del, der ikke er afledt af begivenheder i den virkelige verden, skabes syntetiske data på en måde, der med succes efterligner de faktiske data med hensyn til grundlæggende kvaliteter.

Ideen med at bruge syntetiske data som erstatning for faktiske data er meget lovende, da den kan bruges til at give træningsdata, der maskinlæring modeller kræver. Men det er ikke sikkert kunstig intelligens kan løse ethvert problem, der opstår i den faktiske verden.

Brug sager

Syntetiske data er nyttige til en række kommercielle formål, herunder modeltræning, modelvalidering og test af nye produkter. Vi vil liste nogle få af de sektorer, der har ført an i deres anvendelse til maskinlæring:

1. Healthcare

I betragtning af følsomheden af dens data er sundhedssektoren velegnet til brug af syntetiske data. Syntetiske data kan bruges af teams til at registrere fysiologi af enhver slags patient, der måtte eksistere, og dermed hjælpe med en hurtigere og mere præcis diagnose af sygdomme.

Medicinal

Googles melanomdetektionsmodel er en spændende illustration af dette, da den inkorporerer syntetiske data fra mennesker med mørkere hudtoner (et område med kliniske data, der desværre er underrepræsenteret) for at give modellen kapacitet til at fungere effektivt for alle hudtyper.

2. biler

Simulatorer bruges ofte af virksomheder, der skaber selvkørende biler til at evaluere ydeevnen. Når vejret for eksempel er hårdt, kan det være risikabelt eller vanskeligt at indsamle rigtige vejdata.

Selvkørende bil

At stole på live-tests med faktiske biler på vejene er generelt ikke en god idé, da der bare er for mange variabler til at tage højde for i alle de forskellige køresituationer.

3. Portabilitet af data

For at kunne dele deres træningsdata med andre kræver organisationer troværdige og sikre metoder. At skjule personligt identificerbare oplysninger (PII), før datasættet offentliggøres, er en anden spændende applikation til syntetiske data. Udveksling af videnskabelige forskningsdatasæt, medicinske data, sociologiske data og andre felter, der kunne indeholde PII, omtales som privatlivsbevarende syntetiske data.

4. Sikkerhed

Organisationer er mere sikre takket være syntetiske data. Med hensyn til vores ansigtsgenkendelseseksempel igen, er du måske bekendt med udtrykket "dybe forfalskninger", som beskriver opdigtede billeder eller videoer. Dybe forfalskninger kan produceres af virksomheder for at teste deres egne ansigtsgenkendelses- og sikkerhedssystemer. Syntetiske data bruges også i videoovervågning til at træne modeller hurtigere og til en billigere pris.

Syntetiske data og maskinlæring

For at opbygge en solid og troværdig model har maskinlæringsalgoritmer brug for en betydelig mængde data, der skal behandles. I mangel af syntetiske data ville det være en udfordring at producere en så stor mængde data.

Inden for domæner som computersyn eller billedbehandling, hvor udviklingen af modeller lettes af udviklingen af tidlige syntetiske data, kan det være ekstremt vigtigt. En ny udvikling inden for billedgenkendelse er brugen af Generative Adversarial Networks (GAN'er). Består normalt af to netværk: en generator og en diskriminator.

Mens diskriminatornetværket har til formål at adskille de faktiske billeder fra de falske, fungerer generatornetværket til at producere syntetiske billeder, der minder betydeligt mere om billeder fra den virkelige verden.

Inden for maskinlæring er GAN'er en delmængde af den neurale netværksfamilie, hvor begge netværk løbende lærer og udvikler sig ved at tilføje nye noder og lag.

Når du opretter syntetiske data, har du mulighed for at ændre miljøet og typen af data efter behov for at forbedre modellens ydeevne. Mens nøjagtighed for syntetiske data nemt kan opnås med en stærk score, kan nøjagtighed for mærkede realtidsdata lejlighedsvis være ekstremt dyr.

Hvordan kan du generere syntetiske data?

De metoder, der bruges til at oprette en syntetisk dataindsamling, er som følger:

Baseret på den statistiske fordeling

Strategien, der bruges i dette tilfælde, er at tage tal fra distribution eller at se på faktiske statistiske fordelinger for at skabe falske data, der ser sammenlignelige ud. Reelle data kan være fuldstændig fraværende under nogle omstændigheder.

En dataforsker kan generere et datasæt, der indeholder en tilfældig stikprøve af enhver fordeling, hvis han har en dyb forståelse af den statistiske fordeling i faktiske data. Normalfordelingen, eksponentialfordelingen, chi-kvadratfordelingen, lognormalfordelingen og mere er blot nogle få eksempler på statistiske sandsynlighedsfordelinger, der kan bruges til at gøre dette.

Dataforskerens erfaringsniveau med situationen vil have en væsentlig indflydelse på den trænede models nøjagtighed.

Afhængig af modellen

Denne teknik bygger en model, der tager højde for observeret adfærd, før den bruges til at generere tilfældige data. I bund og grund involverer dette tilpasning af reelle data til data fra en kendt distribution. Monte Carlo-tilgangen kan derefter bruges af virksomheder til at skabe falske data.

Derudover kan fordelinger også monteres vha maskinlæringsmodeller som beslutningstræer. Dataforskere skal dog være opmærksom på prognosen, da beslutningstræer typisk overfiter på grund af deres enkelhed og dybdeudvidelse.

Med dyb læring

Deep learning modeller, der bruger en Variational Autoencoder (VAE) eller Generative Adversarial Network (GAN) modeller er to måder at skabe syntetiske data på. Uovervågede maskinlæringsmodeller inkluderer VAE'er.

De består af indkodere, som krymper og komprimerer de originale data, og dekodere, som gransker disse data for at give en repræsentation af de virkelige data. At holde input og output data så identiske som muligt er det grundlæggende mål for en VAE. To modsatrettede neurale netværk er GAN-modeller og modstridende netværk.

Det første netværk, kendt som generatornetværket, er ansvarlig for at producere falske data. Diskriminatornetværket, det andet netværk, fungerer ved at sammenligne oprettede syntetiske data med faktiske data i et forsøg på at identificere, om datasættet er svigagtigt. Diskriminatoren advarer generatoren, når den opdager et falsk datasæt.

Den følgende batch af data, der leveres til diskriminatoren, modificeres efterfølgende af generatoren. Som et resultat bliver diskriminatoren med tiden bedre til at opdage falske datasæt. Denne type model bruges ofte i den finansielle sektor til afsløring af svindel samt i sundhedssektoren til medicinsk billeddannelse.

Data Augmentation er en anden metode, som dataforskere bruger til at producere mere data. Det skal dog ikke forveksles med falske data. Simpelthen sagt, dataforøgelse er handlingen med at tilføje nye data til et ægte datasæt, der allerede eksisterer.

Oprettelse af flere billeder fra et enkelt billede, for eksempel ved at justere orienteringen, lysstyrken, forstørrelsen og mere. Nogle gange bruges det faktiske datasæt med kun de personlige oplysninger tilbage. Dataanonymisering er, hvad dette er, og et sæt af sådanne data er heller ikke at betragte som syntetiske data.

Udfordringer og begrænsninger ved syntetiske data

Selvom syntetiske data har forskellige fordele, der kan hjælpe virksomheder med datavidenskabelige aktiviteter, har det også visse begrænsninger:

Dataens pålidelighed: Det er almindeligt kendt, at enhver maskinlærings-/deep learning-model kun er så god som de data, den tilføres. Kvaliteten af syntetiske data er i denne sammenhæng stærkt relateret til kvaliteten af inputdataene og den model, der er brugt til at producere dataene. Det er afgørende at sikre, at der ikke findes skævheder i kildedataene, da disse meget tydeligt kan afspejles i de syntetiske data. Desuden bør datakvaliteten bekræftes og verificeres, før der laves prognoser.
Kræver viden, indsats og tid: Selvom det kan være enklere og billigere at oprette syntetiske data end at skabe ægte data, kræver det noget viden, tid og kræfter.
Replikerende anomalier: Den perfekte replika af data fra den virkelige verden er ikke mulig; syntetiske data kan kun tilnærme det. Derfor er nogle outliers, der findes i virkelige data, muligvis ikke dækket af syntetiske data. Dataanomalier er mere signifikante end typiske data.
Styring af produktionen og sikring af kvalitet: Syntetiske data er beregnet til at replikere data fra den virkelige verden. Manuel verifikation af data bliver afgørende. Det er vigtigt at verificere nøjagtigheden af dataene, før de inkorporeres i maskinlærings-/deep learning-modeller for komplicerede datasæt, der er oprettet automatisk ved hjælp af algoritmer.
Brugerfeedback: Da syntetiske data er et nyt koncept, vil ikke alle være klar til at tro på prognoser lavet med dem. Dette indikerer, at for at øge brugeracceptabiliteten, er det først nødvendigt at øge viden om nytten af syntetiske data.

Fremtid

Brugen af syntetiske data er steget dramatisk i det foregående årti. Selvom det sparer virksomheder tid og penge, er det ikke uden ulemper. Den mangler outliers, som forekommer naturligt i faktiske data og er afgørende for nøjagtigheden i nogle modeller.

Det er også værd at bemærke, at kvaliteten af de syntetiske data ofte er afhængig af de inputdata, der bruges til oprettelse; skævheder i inputdataene kan hurtigt spredes ind i de syntetiske data, så valg af højkvalitetsdata som udgangspunkt bør ikke overvurderes.

Endelig har det brug for yderligere outputkontrol, herunder sammenligning af de syntetiske data med menneskeannoterede reelle data for at verificere, at uoverensstemmelser ikke er indført. På trods af disse forhindringer er syntetiske data fortsat et lovende felt.

Det hjælper os med at skabe nye AI-løsninger, selv når virkelige data ikke er tilgængelige. Det vigtigste er, at det gør det muligt for virksomheder at bygge produkter, der er mere inkluderende og indikerer deres slutforbrugeres mangfoldighed.

I den datadrevne fremtid har syntetiske data imidlertid til hensigt at hjælpe dataforskerne med at udføre nye og kreative opgaver, som ville være udfordrende at fuldføre med data fra den virkelige verden alene.

Konklusion

I visse tilfælde kan syntetiske data afhjælpe et dataunderskud eller mangel på relevante data i en virksomhed eller organisation. Vi så også på, hvilke strategier der kan hjælpe med at generere syntetiske data, og hvem der kan drage fordel af det.

Vi talte også om nogle af de vanskeligheder, der følger med at håndtere syntetiske data. Til kommerciel beslutningstagning vil reelle data altid blive begunstiget. Realistiske data er dog den næstbedste mulighed, når sådanne ægte rådata ikke er tilgængelige for analyse.

Det skal dog huskes, at for at producere syntetiske data kræves dataforskere med et solidt greb om datamodellering. En grundig forståelse af de virkelige data og dens omgivelser er også afgørende. Dette er vigtigt for at sikre, at de producerede data, hvis de er tilgængelige, er så nøjagtige som muligt.

Syntetiske data forklaret – Den næste store ting i AI, ML og DL

Så hvad er syntetiske data?