Synthetische gegevens uitgelegd - The Next Big Thing in AI, ML en DL

Geavanceerde analyse- en machine learning-programma's worden aangedreven door gegevens, maar toegang tot die gegevens kan moeilijk zijn voor academici vanwege uitdagingen op het gebied van privacy en bedrijfsprocedures.

Synthetische gegevens, die kunnen worden gedeeld en gebruikt op een manier die feitelijke gegevens niet kunnen, is een potentiële nieuwe richting die moet worden gevolgd. Deze nieuwe strategie is echter niet zonder gevaren of nadelen, daarom is het van cruciaal belang dat bedrijven goed nadenken over waar en hoe ze hun middelen gebruiken.

In het huidige AI-tijdperk kunnen we ook stellen dat data de nieuwe olie is, maar slechts een select aantal zit op een sproeier. Daarom produceren veel mensen hun eigen brandstof, die zowel betaalbaar als efficiënt is. Het staat bekend als synthetische gegevens.

In dit bericht gaan we uitgebreid in op synthetische data: waarom zou je het moeten gebruiken, hoe je het moet produceren, wat het anders maakt dan echte data, voor welke use cases het kan dienen, en nog veel meer.

Dus, wat zijn synthetische gegevens?

Wanneer echte datasets ontoereikend zijn in termen van kwaliteit, aantal of diversiteit, kunnen synthetische data worden gebruikt om AI-modellen te trainen in plaats van echte historische data.

Wanneer bestaande gegevens niet voldoen aan zakelijke vereisten of privacyrisico's met zich meebrengen wanneer ze worden gebruikt om te ontwikkelen machine learning modellen, testsoftware en dergelijke, kunnen synthetische gegevens een belangrijk hulpmiddel zijn voor zakelijke AI-inspanningen.

Simpel gezegd, synthetische gegevens worden vaak gebruikt in plaats van feitelijke gegevens. Meer precies, het zijn gegevens die kunstmatig zijn getagd en geproduceerd door simulaties of computeralgoritmen.

Synthetische gegevens

Synthetische gegevens zijn informatie die door een computerprogramma kunstmatig is gecreëerd in plaats van als gevolg van daadwerkelijke gebeurtenissen. Bedrijven kunnen synthetische gegevens aan hun trainingsgegevens toevoegen om alle gebruiks- en randsituaties te dekken, de kosten van gegevensverzameling te verlagen of te voldoen aan privacyregelgeving.

Kunstmatige gegevens zijn nu toegankelijker dan ooit dankzij verbeteringen in verwerkingskracht en gegevensopslagmethoden zoals de cloud. Synthetische data verbetert de creatie van AI-oplossingen die voordeliger zijn voor alle eindgebruikers, en dat is ongetwijfeld een goede ontwikkeling.

Hoe belangrijk zijn synthetische gegevens en waarom zou je ze gebruiken?

Bij het trainen van AI-modellen hebben ontwikkelaars vaak enorme datasets nodig met nauwkeurige labels. Wanneer onderwezen met meer gevarieerde gegevens, neurale netwerken nauwkeuriger uitvoeren.

Het verzamelen en labelen van deze enorme datasets met honderden of zelfs miljoenen items kan echter onredelijk veel tijd en geld kosten. De prijs van het produceren van trainingsgegevens kan sterk worden verlaagd door synthetische gegevens te gebruiken. Als bijvoorbeeld een trainingsafbeelding die kunstmatig is gemaakt, $ 5 kost bij aankoop van een leverancier van gegevenslabels kost misschien maar $ 0.05.

Synthetische gegevens kunnen de privacykwesties met betrekking tot mogelijk gevoelige gegevens die uit de echte wereld worden gegenereerd, wegnemen en tegelijkertijd de kosten verlagen.

In vergelijking met echte gegevens, die niet precies het volledige spectrum van feiten over de echte wereld konden weergeven, zou het kunnen helpen om vooroordelen te verminderen. Door ongebruikelijke gebeurtenissen te bieden die plausibele mogelijkheden vertegenwoordigen, maar een uitdaging kunnen zijn om uit legitieme gegevens te halen, kunnen synthetische gegevens een grotere diversiteit bieden.

Synthetische gegevens kunnen om de onderstaande redenen uitstekend bij uw project passen:

1. De robuustheid van het model

Krijg toegang tot meer gevarieerde gegevens voor uw modellen zonder het te hoeven aanschaffen. Met synthetische gegevens kunt u uw model trainen met behulp van varianten van dezelfde persoon met verschillende kapsels, gezichtshaar, brillen, hoofdhoudingen, enz., evenals huidskleur, etnische kenmerken, botstructuur, sproeten en andere kenmerken om unieke gezichten te genereren en te versterken.

2. Er wordt rekening gehouden met randgevallen

Een gebalanceerd dataset heeft de voorkeur van machine learning algoritmen. Denk eens terug aan ons voorbeeld van gezichtsherkenning. De nauwkeurigheid van hun modellen zou zijn verbeterd (en in feite deden sommige van deze bedrijven precies dit), en ze zouden een meer moreel model hebben geproduceerd als ze synthetische gegevens van gezichten met een donkere huidskleur hadden geproduceerd om hun gegevenslacunes op te vullen. Teams kunnen met behulp van synthetische data alle use-cases dekken, inclusief edge-cases waarin gegevens schaars of niet-bestaand zijn.

3. Het kan sneller worden verkregen dan "werkelijke" gegevens

Teams zijn in staat om snel enorme hoeveelheden synthetische data te genereren. Dit is vooral handig wanneer de real-life gegevens afhankelijk zijn van sporadische gebeurtenissen. Teams kunnen het moeilijk vinden om voldoende real-world data over zware wegomstandigheden te krijgen bij het verzamelen van data voor bijvoorbeeld een zelfrijdende auto, vanwege hun zeldzaamheid. Om het moeizame annotatieproces te versnellen, kunnen datawetenschappers algoritmen opstellen om de synthetische gegevens automatisch te labelen wanneer deze worden gegenereerd.

4. Het beveiligt gebruikersprivacyinformatie

Bedrijven kunnen beveiligingsproblemen ondervinden bij het omgaan met gevoelige gegevens, afhankelijk van het bedrijf en het soort gegevens. Persoonlijke gezondheidsinformatie (PHI) wordt bijvoorbeeld vaak opgenomen in gegevens van intramurale patiënten in de gezondheidszorg en moet met de grootst mogelijke veiligheid worden behandeld.

Omdat synthetische gegevens geen informatie over echte mensen bevatten, worden privacykwesties verminderd. Overweeg het gebruik van synthetische gegevens als alternatief als uw team zich moet houden aan bepaalde wetten inzake gegevensprivacy.

Echte gegevens versus synthetische gegevens

In de echte wereld worden echte gegevens verkregen of gemeten. Wanneer iemand een smartphone, laptop of computer gebruikt, een polshorloge draagt, een website bezoekt of een online transactie uitvoert, worden dit soort gegevens onmiddellijk gegenereerd.

Bovendien kunnen enquêtes worden gebruikt om echte gegevens te verstrekken (online en offline). Digitale instellingen produceren synthetische gegevens. Met uitzondering van het gedeelte dat niet is afgeleid van gebeurtenissen uit de echte wereld, worden synthetische gegevens gecreëerd op een manier die de werkelijke gegevens met succes nabootst in termen van fundamentele kwaliteiten.

Het idee om synthetische gegevens te gebruiken als vervanging voor werkelijke gegevens is veelbelovend, omdat het kan worden gebruikt om de trainingsgegevens die machine learning modellen vereisen. Maar dat is niet zeker kunstmatige intelligentie kan elk probleem oplossen dat zich in de echte wereld voordoet.

Use cases

Synthetische gegevens zijn nuttig voor verschillende commerciële doeleinden, waaronder modeltraining, modelvalidatie en het testen van nieuwe producten. We zullen een paar van de sectoren noemen die voorop hebben gelopen bij de toepassing ervan op machine learning:

1. Gezondheidszorg

Gezien de gevoeligheid van haar data is de zorgsector zeer geschikt voor het gebruik van synthetische data. Synthetische gegevens kunnen door teams worden gebruikt om de fysiologie van elk type patiënt vast te leggen, wat helpt bij een snellere en nauwkeurigere diagnose van ziekten.

Gezondheidszorg

Het melanoomdetectiemodel van Google is hier een intrigerende illustratie van, omdat het synthetische gegevens bevat van mensen met een donkere huidskleur (een gebied van klinische gegevens dat helaas ondervertegenwoordigd is) om het model de capaciteit te geven om effectief te functioneren voor alle huidtypes.

2. Automobiles

Simulators worden vaak gebruikt door bedrijven die zelfrijdende auto's maken om de prestaties te evalueren. Als het bijvoorbeeld slecht weer is, kan het verzamelen van echte weggegevens riskant of moeilijk zijn.

Zelfrijdende auto

Vertrouwen op live tests met echte auto's op de weg is over het algemeen geen goed idee, omdat er gewoon te veel variabelen zijn om rekening mee te houden in alle verschillende rijsituaties.

3. Overdraagbaarheid van gegevens

Om hun trainingsgegevens met anderen te kunnen delen, hebben organisaties betrouwbare en veilige methodes nodig. Het verbergen van persoonlijk identificeerbare informatie (PII) voordat de dataset openbaar wordt gemaakt, is een andere intrigerende toepassing voor synthetische gegevens. Het uitwisselen van datasets voor wetenschappelijk onderzoek, medische gegevens, sociologische gegevens en andere velden die PII kunnen bevatten, wordt privacybeschermende synthetische gegevens genoemd.

4. Veiligheid

Organisaties zijn veiliger dankzij synthetische data. Wat ons voorbeeld van gezichtsherkenning betreft, bent u misschien bekend met de uitdrukking 'deep fakes', die gefabriceerde foto's of video's beschrijft. Bedrijven kunnen deepfakes maken om hun eigen gezichtsherkennings- en beveiligingssystemen te testen. Synthetische gegevens worden ook gebruikt bij videobewaking om modellen sneller en goedkoper te trainen.

Synthetische gegevens en machinaal leren

Om een solide en betrouwbaar model te bouwen, hebben machine learning-algoritmen een aanzienlijke hoeveelheid gegevens nodig om te verwerken. Zonder synthetische gegevens zou het produceren van zo'n grote hoeveelheid gegevens een uitdaging zijn.

In domeinen zoals computervisie of beeldverwerking, waar de ontwikkeling van modellen wordt vergemakkelijkt door de ontwikkeling van vroege synthetische gegevens, kan dit buitengewoon belangrijk zijn. Een nieuwe ontwikkeling op het gebied van beeldherkenning is het gebruik van Generative Adversarial Networks (GAN's). Bestaat meestal uit twee netwerken: een generator en een discriminator.

Terwijl het discriminatornetwerk tot doel heeft de daadwerkelijke foto's van de nepfoto's te scheiden, functioneert het generatornetwerk om synthetische afbeeldingen te produceren die aanzienlijk meer lijken op afbeeldingen uit de echte wereld.

Bij machine learning zijn GAN's een subset van de neurale netwerkfamilie, waarbij beide netwerken voortdurend leren en zich ontwikkelen door nieuwe knooppunten en lagen toe te voegen.

Bij het maken van synthetische gegevens hebt u de mogelijkheid om de omgeving en het type gegevens naar behoefte te wijzigen om de prestaties van het model te verbeteren. Hoewel nauwkeurigheid voor synthetische gegevens gemakkelijk kan worden bereikt met een sterke score, kan nauwkeurigheid voor gelabelde real-time gegevens soms extreem duur zijn.

Hoe genereer je synthetische data?

De benaderingen die worden gebruikt om een synthetische gegevensverzameling te maken, zijn als volgt:

Gebaseerd op de statistische verdeling

De strategie die in dit geval wordt gebruikt, is om getallen uit de distributie te halen of om naar werkelijke statistische distributies te kijken om valse gegevens te creëren die vergelijkbaar lijken. Echte gegevens kunnen in sommige omstandigheden volledig ontbreken.

Een datawetenschapper kan een dataset genereren met een willekeurige steekproef van elke verdeling als hij een goed begrip heeft van de statistische verdeling in feitelijke gegevens. De normale verdeling, exponentiële verdeling, chikwadraatverdeling, lognormale verdeling en meer zijn slechts enkele voorbeelden van statistische kansverdelingen die hiervoor kunnen worden gebruikt.

Het ervaringsniveau van de datawetenschapper met de situatie zal een aanzienlijke invloed hebben op de nauwkeurigheid van het getrainde model.

Afhankelijk van het model

Deze techniek bouwt een model dat rekening houdt met waargenomen gedrag voordat dat model wordt gebruikt om willekeurige gegevens te genereren. In wezen houdt dit in dat echte gegevens worden aangepast aan gegevens uit een bekende distributie. De Monte Carlo-aanpak kan vervolgens door bedrijven worden gebruikt om nepgegevens te creëren.

Daarnaast kunnen verdelingen ook worden aangebracht met behulp van machine learning-modellen zoals beslisbomen. Data wetenschappers moet echter aandacht besteden aan de prognose, aangezien beslissingsbomen doorgaans te groot zijn vanwege hun eenvoud en diepte-uitbreiding.

Met diep leren

Diepe leer modellen die een Variational Autoencoder (VAE) of Generative Adversarial Network (GAN)-modellen gebruiken, zijn twee manieren om synthetische gegevens te creëren. Unsupervised machine learning-modellen bevatten VAE's.

Ze bestaan uit encoders, die de originele gegevens verkleinen en comprimeren, en decoders, die deze gegevens onderzoeken om een representatie van de echte gegevens te geven. Het zo identiek mogelijk houden van invoer- en uitvoergegevens is het basisdoel van een VAE. Twee tegengestelde neurale netwerken zijn GAN-modellen en vijandige netwerken.

Het eerste netwerk, bekend als het generatornetwerk, is verantwoordelijk voor het produceren van valse gegevens. Het discriminatornetwerk, het tweede netwerk, werkt door gecreëerde synthetische gegevens te vergelijken met werkelijke gegevens in een poging vast te stellen of de dataset frauduleus is. De discriminator waarschuwt de generator wanneer deze een valse dataset ontdekt.

De volgende reeks gegevens die aan de discriminator wordt geleverd, wordt vervolgens door de generator gewijzigd. Als gevolg hiervan wordt de discriminator na verloop van tijd beter in het opsporen van valse datasets. Dit type model wordt zowel in de financiële sector veel gebruikt voor fraudedetectie als in de zorg voor medische beeldvorming.

Data Augmentation is een andere methode die datawetenschappers gebruiken om meer data te produceren. Het moet echter niet worden verward met valse gegevens. Simpel gezegd, data-augmentatie is het toevoegen van nieuwe data aan een echte dataset die al bestaat.

Meerdere afbeeldingen maken van één afbeelding, bijvoorbeeld door de oriëntatie, helderheid, vergroting en meer aan te passen. Soms wordt de daadwerkelijke dataset gebruikt en blijven alleen de persoonlijke gegevens over. Anonimisering van gegevens is wat dit is, en een reeks van dergelijke gegevens moet evenmin als synthetische gegevens worden beschouwd.

Uitdagingen en beperkingen van synthetische gegevens

Hoewel synthetische data verschillende voordelen heeft die bedrijven kunnen helpen bij data science-activiteiten, heeft het ook bepaalde beperkingen:

De betrouwbaarheid van de gegevens: Het is algemeen bekend dat elk machine learning/deep learning-model slechts zo goed is als de gegevens die erin worden ingevoerd. De kwaliteit van synthetische data hangt in dit verband sterk samen met de kwaliteit van de invoerdata en het model dat is gebruikt om de data te produceren. Het is van cruciaal belang om ervoor te zorgen dat er geen vooroordelen bestaan in de brongegevens, aangezien deze heel duidelijk kunnen worden weerspiegeld in de synthetische gegevens. Bovendien moet de kwaliteit van de gegevens worden bevestigd en geverifieerd voordat er voorspellingen worden gedaan.
Vereist kennis, inspanning en tijd: Hoewel het creëren van synthetische gegevens eenvoudiger en goedkoper kan zijn dan het creëren van echte gegevens, is er enige kennis, tijd en moeite voor nodig.
Anomalieën repliceren: De perfecte replica van gegevens uit de echte wereld is niet mogelijk; synthetische gegevens kunnen het alleen maar benaderen. Daarom worden sommige uitschieters die in echte gegevens voorkomen, mogelijk niet gedekt door synthetische gegevens. Gegevensafwijkingen zijn belangrijker dan typische gegevens.
Controle van de productie en borging van de kwaliteit: Synthetische gegevens zijn bedoeld om gegevens uit de echte wereld te repliceren. Gegevens handmatige verificatie wordt essentieel. Het is essentieel om de nauwkeurigheid van de gegevens te verifiëren voordat deze worden opgenomen in modellen voor machine learning/deep learning voor gecompliceerde datasets die automatisch worden gemaakt met behulp van algoritmen.
Feedback van gebruikers: Omdat synthetische data een nieuw concept is, zal niet iedereen bereid zijn om voorspellingen die ermee zijn gedaan te geloven. Dit geeft aan dat om de acceptatie door de gebruiker te vergroten, het eerst nodig is om kennis te vergaren over het nut van synthetische data.

toekomst

Het gebruik van synthetische data is de afgelopen tien jaar enorm toegenomen. Hoewel het bedrijven tijd en geld bespaart, heeft het ook nadelen. Er zijn geen uitschieters, die van nature voorkomen in feitelijke gegevens en in sommige modellen van cruciaal belang zijn voor de nauwkeurigheid.

Het is ook vermeldenswaard dat de kwaliteit van de synthetische gegevens vaak afhangt van de invoergegevens die voor de creatie zijn gebruikt; vertekeningen in de invoergegevens kunnen zich snel verspreiden naar de synthetische gegevens, dus het kiezen van gegevens van hoge kwaliteit als uitgangspunt moet niet worden overschat.

Ten slotte heeft het verdere uitvoercontrole nodig, waaronder het vergelijken van de synthetische gegevens met door mensen geannoteerde echte gegevens om te verifiëren dat er geen discrepanties worden geïntroduceerd. Ondanks deze obstakels blijft synthetische data een veelbelovend veld.

Het helpt ons om nieuwe AI-oplossingen te creëren, zelfs wanneer gegevens uit de echte wereld niet beschikbaar zijn. Het belangrijkste is dat het ondernemingen in staat stelt producten te bouwen die inclusiever zijn en een indicatie zijn van de diversiteit van hun eindgebruikers.

In de datagestuurde toekomst zijn synthetische data echter bedoeld om de datawetenschappers te helpen nieuwe en creatieve taken uit te voeren die een uitdaging zouden zijn om alleen met real-world data te voltooien.

Conclusie

In bepaalde gevallen kunnen synthetische data een datatekort of een gebrek aan relevante data binnen een bedrijf of organisatie verhelpen. We hebben ook gekeken welke strategieën kunnen helpen bij het genereren van synthetische data en wie hiervan kan profiteren.

We spraken ook over enkele van de moeilijkheden die gepaard gaan met het omgaan met synthetische gegevens. Voor commerciële besluitvorming krijgen echte gegevens altijd de voorkeur. Realistische gegevens zijn echter de op één na beste optie wanneer dergelijke echte onbewerkte gegevens niet toegankelijk zijn voor analyse.

Er moet echter aan worden herinnerd dat voor het produceren van synthetische gegevens gegevenswetenschappers nodig zijn met een goed begrip van gegevensmodellering. Een grondig begrip van de echte gegevens en hun omgeving is ook essentieel. Dit is essentieel om ervoor te zorgen dat, indien beschikbaar, de geproduceerde gegevens zo nauwkeurig mogelijk zijn.

Synthetische data uitgelegd – The Next Big Thing in AI, ML en DL

Dus, wat zijn synthetische gegevens?