Generatie van synthetische gegevens: soorten, technieken en meer

Inhoudsopgave[Zich verstoppen][Laten zien]

Wat is synthetische data?
Belang van synthetische gegevens
Soorten synthetische gegevens+-
Technieken voor het genereren van synthetische gegevens+-
Synthetische gegevensproviders+-
- Gestructureerde gegevens
- Ongestructureerde gegevens
Uitdagingen
Conclusie

Onderzoekers en datascientists komen vaak in omstandigheden terecht waarin ze niet over de feitelijke data beschikken of deze niet kunnen gebruiken vanwege vertrouwelijkheid of privacyoverwegingen.

Om dit probleem aan te pakken, wordt synthetische gegevensproductie gebruikt om echte gegevens te vervangen.

De juiste vervanging van echte gegevens is vereist om het algoritme goed te laten werken, wat ook realistisch van aard moet zijn. U kunt dergelijke gegevens gebruiken voor het onderhouden van privacy, het testen van systemen of het produceren van trainingsgegevens voor algoritmen voor machine learning.

Laten we het genereren van synthetische gegevens in detail bekijken en zien waarom ze van vitaal belang zijn in het tijdperk van AI.

Wat is synthetische data?

Synthetische gegevens zijn geannoteerde gegevens die zijn gegenereerd door computersimulaties of algoritmen ter vervanging van gegevens uit de echte wereld. Het is een door kunstmatige intelligentie gegenereerde replica van werkelijke gegevens.

Men kan datapatronen en dimensies gebruiken met behulp van geavanceerde AI-algoritmen. Ze kunnen een onbeperkte hoeveelheid synthetische gegevens creëren die statistisch representatief zijn voor de oorspronkelijke trainingsgegevens zodra ze zijn getraind.

Er zijn verschillende benaderingen en technologieën die ons kunnen helpen synthetische gegevens te creëren en die u in verschillende toepassingen kunt gebruiken.

Software voor het genereren van gegevens vereist vaak:

Metadata van een datarepository, waarvoor synthetische data moeten worden aangemaakt.
Techniek voor het genereren van plausibele maar fictieve waarden. Voorbeelden hiervan zijn invoerlijsten en reguliere expressies.
Uitgebreid bewustzijn van alle gegevensrelaties, zowel de relaties die zijn gedeclareerd op databaseniveau als de relaties die worden beheerd op applicatiecodeniveau.

Het is even noodzakelijk om het model te valideren en de gedragsaspecten van echte gegevens te vergelijken met die van het model.

Deze fictieve datasets hebben alle waarde van het echte werk, maar geen van de gevoelige gegevens. Het is als een heerlijke, calorievrije cake. Het geeft nauwkeurig de werkelijke wereld weer.

Als gevolg hiervan kunt u het gebruiken om gegevens uit de echte wereld te vervangen.

Belang van synthetische gegevens

Synthetische gegevens hebben kenmerken die passen bij bepaalde eisen of situaties die anders niet beschikbaar zouden zijn in gegevens uit de echte wereld. Wanneer er een gebrek aan gegevens is om te testen of wanneer privacy een belangrijke overweging is, komt het te hulp.

Door AI gegenereerde datasets zijn aanpasbaar, veilig en gemakkelijk op te slaan, uit te wisselen en weg te gooien. De datasynthesetechniek is geschikt voor het subsetten en verbeteren van de oorspronkelijke data.

Daardoor is het ideaal om te gebruiken als testdata en AI-trainingsdata.

Om ML-gebaseerde Uber en te onderwijzen Tesla zelfrijdende auto's.
In de medische sector en de gezondheidszorg, om specifieke ziekten en omstandigheden te beoordelen waarvoor geen echte gegevens bestaan.
Fraudedetectie en -bescherming zijn cruciaal in de financiële sector. Door het te gebruiken, kunt u nieuwe frauduleuze gevallen onderzoeken.
Amazon traint het taalsysteem van Alexa met behulp van synthetische data.
American Express gebruikt synthetische financiële gegevens om fraudedetectie te verbeteren.

Soorten synthetische gegevens

Synthetische gegevens worden willekeurig gecreëerd met de bedoeling gevoelige privé-informatie te verbergen terwijl statistische informatie over kenmerken in de originele gegevens behouden blijft.

Het bestaat voornamelijk uit drie soorten:

Volledig synthetische gegevens
Gedeeltelijk synthetische gegevens
Hybride synthetische gegevens

1. Volledig synthetische gegevens

Deze gegevens zijn volledig gegenereerd en bevatten geen originele gegevens.

Doorgaans zal de gegevensgenerator voor dit soort dichtheidsfuncties van kenmerken in echte gegevens identificeren en hun parameters schatten. Later worden op basis van voorspelde dichtheidsfuncties voor elk kenmerk willekeurig privacybeschermde reeksen gemaakt.

Als slechts een paar kenmerken van werkelijke gegevens worden gekozen om ermee te worden vervangen, wordt de beschermde reeks van deze kenmerken toegewezen aan de resterende kenmerken van de echte gegevens om de beschermde en echte reeksen in dezelfde volgorde te rangschikken.

Bootstrap-technieken en meervoudige toerekeningen zijn twee traditionele methoden om volledig synthetische gegevens te produceren.

Omdat de gegevens volledig synthetisch zijn en er geen echte gegevens bestaan, biedt deze strategie een uitstekende privacybescherming waarbij wordt vertrouwd op de waarheidsgetrouwheid van de gegevens.

2. Gedeeltelijk synthetische gegevens

Deze gegevens gebruiken alleen synthetische waarden om de waarden van enkele gevoelige functies te vervangen.

Echte waarden worden in deze situatie alleen gewijzigd als er een substantieel risico op blootstelling bestaat. Deze wijziging is aangebracht om de privacy van vers aangemaakte gegevens te beschermen.

Meerdere imputatie- en modelgebaseerde benaderingen worden gebruikt om gedeeltelijk synthetische gegevens te produceren. Deze methoden kunnen ook worden gebruikt om ontbrekende waarden in real-world gegevens in te vullen.

3. Hybride synthetische gegevens

Hybride synthetische gegevens omvatten zowel feitelijke als valse gegevens.

Voor elk willekeurig record met echte gegevens wordt een bijna-record gekozen, en de twee worden vervolgens samengevoegd om hybride gegevens te genereren. Het heeft de voordelen van zowel volledig synthetische als gedeeltelijk synthetische gegevens.

Het biedt daarom een sterk behoud van privacy met een hoog nut in vergelijking met de andere twee, maar ten koste van meer geheugen en verwerkingstijd.

Technieken voor het genereren van synthetische gegevens

Al vele jaren is het concept van machinaal vervaardigde gegevens populair. Nu is het aan het rijpen.

Hier volgen enkele technieken die worden gebruikt om synthetische gegevens te genereren:

1. Op basis van distributie

In het geval dat er geen echte gegevens zijn, maar de data-analist een grondig idee heeft van hoe de datasetdistributie eruit zou zien; ze kunnen een willekeurige steekproef van elke verdeling produceren, inclusief Normaal, Exponentieel, Chi-kwadraat, t, lognormaal en Uniform.

De waarde van synthetische gegevens in deze methode varieert afhankelijk van het kennisniveau van de analist over een bepaalde gegevensomgeving.

2. Real-world gegevens in bekende distributie

Bedrijven kunnen het produceren door de best passende distributies te identificeren voor gegeven echte gegevens als er echte gegevens zijn.

Bedrijven kunnen de Monte Carlo-benadering gebruiken om het te produceren als ze echte gegevens in een bekende distributie willen passen en de distributieparameters kennen.

Hoewel de Monte Carlo-benadering bedrijven kan helpen bij het vinden van de best beschikbare match, is de beste match mogelijk niet voldoende voor de synthetische gegevensbehoeften van het bedrijf.

Bedrijven zouden kunnen onderzoeken of ze machine learning-modellen kunnen gebruiken om in deze omstandigheden bij distributies te passen.

Machine learning-technieken, zoals beslisbomen, stellen organisaties in staat om niet-klassieke distributies te modelleren, die multimodaal kunnen zijn en gemeenschappelijke eigenschappen van erkende distributies missen.

Bedrijven kunnen synthetische gegevens produceren die verbinding maken met echte gegevens met behulp van deze door machine learning aangepaste distributie.

Echter, machine learning-modellen zijn vatbaar voor overfitting, waardoor ze er niet in slagen om nieuwe gegevens te matchen of toekomstige waarnemingen te voorspellen.

3. Diep leren

Diepe generatieve modellen zoals de Variational Autoencoder (VAE) en het Generative Adversarial Network (GAN) kunnen synthetische gegevens produceren.

Variationele autoencoder

VAE is een benadering zonder toezicht waarbij de encoder de originele dataset comprimeert en gegevens naar de decoder stuurt.

De decoder produceert vervolgens output die een representatie is van de originele dataset.

Het aanleren van het systeem omvat het maximaliseren van de correlatie tussen invoer- en uitvoergegevens.

Vae

Generative Adversarial Network

Het GAN-model traint het model iteratief met behulp van twee netwerken, de generator en de discriminator.

De generator maakt een synthetische dataset van een set willekeurige steekproefgegevens.

Discriminator vergelijkt synthetisch gecreëerde gegevens met een echte dataset met behulp van vooraf gedefinieerde voorwaarden.

Gan

Synthetische gegevensproviders

Gestructureerde gegevens

De hieronder genoemde platforms bieden synthetische gegevens die zijn afgeleid van tabelgegevens.

Het repliceert gegevens uit de echte wereld die in tabellen worden bewaard en kan worden gebruikt voor gedrags-, voorspellende of transactieanalyses.

Voeg AI toe: Het is een aanbieder van een systeem voor het creëren van synthetische gegevens dat gebruikmaakt van Generative Adversarial Networks en differentiële privacy.
Betere gegevens: Het is een leverancier van een privacybehoudende synthetische gegevensoplossing voor AI, het delen van gegevens en productontwikkeling.
Duikpaal: Het is de aanbieder van Geminai, een systeem voor het creëren van 'twin' datasets met dezelfde statistische kenmerken als de originele data.

Ongestructureerde gegevens

De hieronder genoemde platforms werken met ongestructureerde gegevens en leveren synthetische gegevensgoederen en -diensten voor het trainen van visie- en verkenningsalgoritmen.

gegevens: Het biedt 3D-gesimuleerde trainingsgegevens voor Visual AI-leren en -ontwikkeling.
Neurolabs: Neurolabs is een leverancier van een synthetisch gegevensplatform voor computervisie.
Parallel domein: Het is een aanbieder van een synthetisch gegevensplatform voor autonome systeemtraining en het testen van use cases.
Cognata: Het is een simulatieleverancier voor ADAS en ontwikkelaars van autonome voertuigen.
Bifrost: Het biedt API's voor synthetische gegevens voor het maken van 3D-omgevingen.

3 2

Uitdagingen

Het heeft een lange geschiedenis in Artificial Intelligence, en hoewel het veel voordelen heeft, heeft het ook belangrijke nadelen waarmee u rekening moet houden bij het werken met synthetische gegevens.

Hier zijn er een aantal:

Er kunnen veel fouten optreden bij het kopiëren van de complexiteit van feitelijke gegevens naar synthetische gegevens.
De kneedbare aard ervan leidt tot vooroordelen in zijn gedrag.
Er kunnen enkele verborgen tekortkomingen zijn in de prestaties van algoritmen die zijn getraind met behulp van vereenvoudigde weergaven van synthetische gegevens die onlangs zijn opgedoken terwijl ze met werkelijke gegevens te maken hebben.
Het repliceren van alle relevante attributen uit real-world data kan ingewikkeld worden. Het is ook mogelijk dat tijdens deze operatie enkele essentiële aspecten over het hoofd worden gezien.

Conclusie

De productie van synthetische data trekt duidelijk de aandacht.

Deze methode is misschien niet een pasklaar antwoord voor alle gegevensgenererende gevallen.

Bovendien kan de techniek intelligentie via AI/ML vereisen en in staat zijn om real-world gecompliceerde situaties van het creëren van onderling gerelateerde gegevens aan te kunnen, idealiter gegevens die geschikt zijn voor een bepaald domein.

Desalniettemin is het een innovatieve technologie die een leemte opvult waar andere privacybevorderende technologieën tekort schieten.

Tegenwoordig synthetisch gegevensproductie kan het naast elkaar bestaan van gegevensmaskering nodig hebben.

In de toekomst kan er een grotere convergentie tussen de twee komen, wat resulteert in een uitgebreidere oplossing voor het genereren van gegevens.

Deel uw mening in de reacties!

Synthetische gegevensgeneratie: typen, technieken en meer

Wat is synthetische data?

Belang van synthetische gegevens