Sintetiese data verduidelik - Die volgende groot ding in KI, ML en DL

Gevorderde analise- en masjienleerprogramme word aangedryf deur data, maar toegang tot daardie data kan moeilik wees vir akademici as gevolg van uitdagings met privaatheid en besigheidsprosedures.

Sintetiese data, wat gedeel en gebruik kan word op maniere wat werklike data nie kan nie, is 'n potensiële nuwe rigting om te volg. Hierdie nuwe strategie is egter nie sonder gevare of nadele nie, daarom is dit van kardinale belang dat besighede deeglik oorweeg waar en hoe hulle hul hulpbronne gebruik.

In die huidige era van KI kan ons ook sê dat data die nuwe olie is, maar slegs 'n paar uitverkorenes sit op 'n gruis. Daarom produseer baie mense hul eie brandstof, wat beide bekostigbaar en doeltreffend is. Dit staan bekend as sintetiese data.

In hierdie pos gaan ons in detail kyk na sintetiese data—waarom jy dit moet gebruik, hoe om dit te produseer, wat dit verskil van werklike data, watter gebruiksgevalle dit kan dien, en nog baie meer.

So, wat is sintetiese data?

Wanneer ware datastelle onvoldoende is in terme van kwaliteit, aantal of diversiteit, kan sintetiese data gebruik word om KI-modelle op te lei in plaas van werklike historiese data.

Wanneer bestaande data nie aan besigheidsvereistes voldoen nie of privaatheidsrisiko's het wanneer dit gebruik word om te ontwikkel machine learning modelle, toetssagteware, of dies meer, sintetiese data kan 'n belangrike hulpmiddel vir korporatiewe KI-pogings wees.

Eenvoudig gesê, sintetiese data word gereeld in die plek van werklike data gebruik. Meer presies, dit is data wat kunsmatig gemerk en vervaardig is deur simulasies of rekenaaralgoritmes.

Sintetiese data

Sintetiese data is inligting wat deur 'n rekenaarprogram kunsmatig geskep is eerder as as gevolg van werklike gebeurtenisse. Maatskappye kan sintetiese data by hul opleidingsdata voeg om alle gebruiks- en randsituasies te dek, die koste van data-insameling te verminder of om privaatheidsregulasies te bevredig.

Kunsmatige data is nou meer toeganklik as ooit tevore danksy verbeterings in verwerkingskrag en databergingsmetodes soos die wolk. Sintetiese data verbeter die skepping van KI-oplossings wat meer voordelig is vir alle eindgebruikers, en dit is ongetwyfeld 'n goeie ontwikkeling.

Hoe sintetiese data belangrik is en hoekom moet jy dit gebruik?

Wanneer ontwikkelaars KI-modelle oplei, benodig ontwikkelaars dikwels groot datastelle met presiese etikettering. Wanneer onderrig word met meer gevarieerde data, neurale netwerke meer akkuraat presteer.

Die versameling en etikettering van hierdie massiewe datastelle wat honderde of selfs miljoene items bevat, kan egter onredelik tyd- en geldrowend wees. Die prys van die vervaardiging van opleidingsdata kan aansienlik verminder word deur sintetiese data te gebruik. Byvoorbeeld, as dit kunsmatig geskep word, sal 'n opleidingsbeeld $ 5 kos wanneer dit by 'n data-etiketteringsverskaffer mag dalk net $0.05 kos.

Sintetiese data kan privaatheidskwessies verlig wat verband hou met potensieel sensitiewe data wat uit die werklike wêreld gegenereer word, terwyl dit ook uitgawes verminder.

In vergelyking met ware data, wat nie die volledige spektrum feite oor die werklike wêreld presies kon weerspieël nie, kan dit help om vooroordeel te verminder. Deur ongewone gebeurtenisse te verskaf wat geloofwaardige moontlikhede verteenwoordig, maar uitdagend kan wees om uit wettige data te verkry, kan sintetiese data groter diversiteit bied.

Sintetiese data kan 'n fantastiese pasmaat vir jou projek wees om die redes hieronder gelys:

1. Die robuustheid van die model

Sonder om dit te bekom, kry toegang tot meer uiteenlopende data vir jou modelle. Met sintetiese data kan jy jou model oplei deur gebruik te maak van variante van dieselfde persoon met verskeie kapsels, gesighare, brille, kopposisies, ens., sowel as velkleur, etniese eienskappe, beenstruktuur, sproete en ander eienskappe om unieke eienskappe te genereer gesigte en versterk dit.

2. Randgevalle word in ag geneem

'N Gebalanseerde datastel word verkies deur masjienleer algoritmes. Dink terug aan ons voorbeeld van gesigherkenning. Die akkuraatheid van hul modelle sou verbeter het (en in werklikheid, sommige van hierdie besighede het net dit gedoen), en hulle sou 'n meer morele model geproduseer het as hulle sintetiese data van donkerder gesigte geproduseer het om hul datagapings in te vul. Spanne kan alle gebruiksgevalle dek, insluitend randgevalle waar data skaars of nie bestaan nie, met behulp van sintetiese data.

3. Dit kan vinniger verkry word as “werklike” data

Spanne is in staat om groot hoeveelhede sintetiese data vinnig te genereer. Dit is veral nuttig wanneer die werklike data van sporadiese gebeure afhang. Spanne kan dit dalk moeilik vind om genoeg werklike data oor ernstige padtoestande te kry terwyl hulle byvoorbeeld data vir 'n selfbesturende motor insamel, weens hul skaarsheid. Om die moeisame annotasieproses te bespoedig, kan datawetenskaplikes algoritmes opstel om die sintetiese data outomaties te benoem soos dit gegenereer word.

4. Dit beveilig gebruiker privaatheid inligting

Maatskappye kan sekuriteitsprobleme hê terwyl hulle sensitiewe data hanteer, afhangende van die besigheid en soort data. Persoonlike gesondheidsinligting (PHI), byvoorbeeld, word gereeld by binnepasiëntdata in die gesondheidsorgbedryf ingesluit en moet met die grootste sekuriteit hanteer word.

Omdat sintetiese data nie inligting oor werklike mense insluit nie, word privaatheidskwessies verminder. Oorweeg om sintetiese data as 'n alternatief te gebruik as jou span sekere dataprivaatheidswette moet nakom.

Werklike data vs sintetiese data

In die werklike wêreld word werklike data verkry of gemeet. Wanneer iemand 'n slimfoon, skootrekenaar of rekenaar gebruik, 'n polshorlosie dra, toegang tot 'n webwerf verkry of 'n aanlyntransaksie doen, word hierdie tipe data onmiddellik gegenereer.

Boonop kan opnames gebruik word om ware data (aanlyn en vanlyn) te verskaf. Digitale instellings produseer sintetiese data. Met die uitsondering van die gedeelte wat nie van enige werklike gebeure verkry is nie, word sintetiese data geskep op 'n manier wat die werklike data suksesvol naboots in terme van fundamentele eienskappe.

Die idee om sintetiese data te gebruik as 'n plaasvervanger vir werklike data is baie belowend aangesien dit gebruik kan word om die opleidingsdata wat masjienleer modelle vereis. Maar dit is nie seker nie kunsmatige intelligensie kan elke kwessie wat in die werklike wêreld ontstaan, oplos.

Gebruik gevalle

Sintetiese data is nuttig vir 'n verskeidenheid kommersiële doeleindes, insluitend modelopleiding, modelvalidering en toetsing van nuwe produkte. Ons sal 'n paar van die sektore lys wat die weg gelei het in die toepassing daarvan op masjienleer:

1. Gesondheidssorg

Gegewe die sensitiwiteit van sy data, is die gesondheidsorgsektor goed geskik vir die gebruik van sintetiese data. Sintetiese data kan deur spanne gebruik word om die fisiologieë van elke soort pasiënt wat kan bestaan aan te teken, en sodoende te help met die vinniger en meer akkurate diagnose van siektes.

Healthcare

Google se melanoom-opsporingsmodel is 'n interessante illustrasie hiervan, aangesien dit sintetiese data van mense met donkerder velkleure ('n area van kliniese data wat ongelukkig onderverteenwoordig is) insluit om die model te voorsien van die vermoë om effektief vir alle velsoorte te funksioneer.

2. motors

Simulators word gereeld gebruik deur maatskappye wat selfbesturende motors skep om prestasie te evalueer. Wanneer die weer byvoorbeeld moeilik is, kan die insameling van regte paddata riskant of moeilik wees.

Self bestuur motor

Om op regstreekse toetse met werklike motors op die paaie staat te maak, is oor die algemeen nie 'n goeie idee nie, aangesien daar net te veel veranderlikes is om in al die verskillende bestuursituasies in ag te neem.

3. Oordraagbaarheid van data

Om hul opleidingsdata met ander te kan deel, benodig organisasies betroubare en veilige metodes. Om persoonlik identifiseerbare inligting (PII) weg te steek voordat die datastel openbaar gemaak word, is nog 'n interessante toepassing vir sintetiese data. Die uitruil van wetenskaplike navorsingsdatastelle, mediese data, sosiologiese data en ander velde wat PII kan bevat, word na verwys as sintetiese data wat privaatheid behou.

4. Sekuriteit

Organisasies is veiliger danksy sintetiese data. Wat ons gesigherkenningsvoorbeeld weer betref, jy is dalk bekend met die frase "diep vervalsings", wat vervaardigde foto's of video's beskryf. Diep vervalsings kan deur besighede vervaardig word om hul eie gesigsherkenning en sekuriteitstelsels te toets. Sintetiese data word ook in video-toesig gebruik om modelle vinniger en teen 'n goedkoper koste op te lei.

Sintetiese data en masjienleer

Om 'n soliede en betroubare model te bou, benodig masjienleeralgoritmes 'n aansienlike hoeveelheid data om verwerk te word. In die afwesigheid van sintetiese data, sou die vervaardiging van so 'n groot volume data 'n uitdaging wees.

In domeine soos rekenaarvisie of beeldverwerking, waar die ontwikkeling van modelle deur die ontwikkeling van vroeë sintetiese data vergemaklik word, kan dit uiters betekenisvol wees. 'n Nuwe ontwikkeling op die gebied van prentherkenning is die gebruik van Generative Adversarial Networks (GAN's). Bestaan gewoonlik uit twee netwerke: 'n kragopwekker en 'n diskrimineerder.

Terwyl die diskriminatornetwerk daarop gemik is om die werklike foto's van die vals foto's te skei, funksioneer die kragopwekkernetwerk om sintetiese beelde te produseer wat aansienlik meer soortgelyk is aan werklike beelde.

In masjienleer is GAN's 'n subset van die neurale netwerkfamilie, waar beide netwerke voortdurend leer en ontwikkel deur nuwe nodusse en lae by te voeg.

Wanneer sintetiese data geskep word, het jy die opsie om die omgewing en tipe data te verander soos nodig om die model se werkverrigting te verbeter. Terwyl akkuraatheid vir sintetiese data maklik bereik kan word met 'n sterk telling, kan akkuraatheid vir benoemde intydse data soms uiters duur wees.

Hoe kan jy sintetiese data genereer?

Die benaderings wat gebruik word om 'n sintetiese dataversameling te skep, is soos volg:

Gebaseer op die statistiese verspreiding

Die strategie wat in hierdie geval gebruik word, is om getalle uit verspreiding te neem of om na werklike statistiese verspreidings te kyk om vals data te skep wat vergelykbaar lyk. Werklike data kan in sommige omstandighede heeltemal afwesig wees.

'n Datawetenskaplike kan 'n datastel genereer wat 'n ewekansige steekproef van enige verspreiding bevat as hy 'n diep begrip van die statistiese verspreiding in werklike data het. Die normaalverdeling, eksponensiële verspreiding, chi-kwadraatverspreiding, lognormale verspreiding en meer is net 'n paar voorbeelde van statistiese waarskynlikheidsverdelings wat gebruik kan word om dit te doen.

Die datawetenskaplike se vlak van ervaring met die situasie sal 'n beduidende impak op die opgeleide model se akkuraatheid hê.

Afhangende van die model

Hierdie tegniek bou 'n model wat rekening hou met waargenome gedrag voordat daardie model gebruik word om ewekansige data te genereer. In wese behels dit die passing van werklike data by data van 'n bekende verspreiding. Die Monte Carlo-benadering kan dan deur korporasies gebruik word om vals data te skep.

Daarbenewens kan verdelings ook gepas word met behulp van masjienleermodelle soos besluitebome. Datawetenskaplikes moet egter aandag gee aan die voorspelling, aangesien besluitbome tipies oorpas as gevolg van hul eenvoud en diepte-uitbreiding.

Met diep leer

Diep leer modelle wat 'n Variational Autoencoder (VAE) of Generative Adversarial Network (GAN) modelle gebruik, is twee maniere om sintetiese data te skep. Masjienleermodelle sonder toesig sluit VAE's in.

Hulle bestaan uit enkodeerders wat die oorspronklike data krimp en kompakteer, en dekodeerders wat hierdie data noukeurig ondersoek om 'n voorstelling van die werklike data te verskaf. Om inset- en uitsetdata so identies moontlik te hou, is die basiese doelwit van 'n VAE. Twee opponerende neurale netwerke is GAN-modelle en teenstrydige netwerke.

Die eerste netwerk, bekend as die kragopwekkernetwerk, is in beheer van die vervaardiging van vals data. Die diskriminatornetwerk, die tweede netwerk, werk deur geskepte sintetiese data met werklike data te vergelyk in 'n poging om te identifiseer of die datastel bedrieglik is. Die diskrimineerder waarsku die kragopwekker wanneer dit 'n valse datastel ontdek.

Die volgende bondel data wat aan die diskrimineerder verskaf word, word vervolgens deur die kragopwekker gewysig. As gevolg hiervan word die diskrimineerder mettertyd beter om vals datastelle raak te sien. Hierdie soort model word gereeld in die finansiële sektor vir bedrogopsporing sowel as in die gesondheidsorgsektor vir mediese beelding gebruik.

Datavergroting is 'n ander metode wat datawetenskaplikes gebruik om meer data te produseer. Dit moet egter nie met vals data verwar word nie. Eenvoudig gesê, datavergroting is die handeling om nuwe data by te voeg tot 'n ware datastel wat reeds bestaan.

Skep verskeie prente uit 'n enkele prent, byvoorbeeld deur die oriëntasie, helderheid, vergroting en meer aan te pas. Soms word die werklike datastel gebruik met slegs die persoonlike inligting wat oorbly. Data-anonimisering is wat dit is, en 'n stel sulke data moet eweneens nie as sintetiese data beskou word nie.

Uitdagings en beperkings van sintetiese data

Alhoewel sintetiese data verskeie voordele inhou wat ondernemings met datawetenskapaktiwiteite kan help, het dit ook sekere beperkings:

Die data se betroubaarheid: Dit is algemene kennis dat elke masjienleer/dieplermodel net so goed is soos die data wat dit gevoer word. Die kwaliteit van sintetiese data in hierdie konteks hou sterk verband met die kwaliteit van die insetdata en die model wat gebruik word om die data te produseer. Dit is van kritieke belang om te verseker dat geen vooroordele in die brondata bestaan nie, aangesien dit baie duidelik in die sintetiese data weerspieël kan word. Verder, voordat enige voorspellings gemaak word, moet die datakwaliteit bevestig en geverifieer word.
Vereis kennis, moeite en tyd: Alhoewel die skep van sintetiese data eenvoudiger en goedkoper kan wees as die skep van egte data, benodig dit wel 'n bietjie kennis, tyd en moeite.
Herhaling van anomalieë: Die perfekte replika van werklike data is nie moontlik nie; sintetiese data kan dit net benader. Daarom kan sommige uitskieters wat in werklike data bestaan, nie deur sintetiese data gedek word nie. Data-afwykings is meer betekenisvol as tipiese data.
Beheer van die produksie en verseker kwaliteit: Sintetiese data is bedoel om werklike data te repliseer. Handmatige verifikasie van data word noodsaaklik. Dit is noodsaaklik om die akkuraatheid van die data te verifieer voordat dit in masjienleer/diep leermodelle geïnkorporeer word vir ingewikkelde datastelle wat outomaties geskep word deur algoritmes te gebruik.
Gebruikersterugvoer: Aangesien sintetiese data 'n nuwe konsep is, sal nie almal gereed wees om voorspellings wat daarmee gemaak word, te glo nie. Dit dui daarop dat om gebruikersaanvaarbaarheid te verhoog, dit eers nodig is om kennis van die bruikbaarheid van sintetiese data in te samel.

toekomstige

Die gebruik van sintetiese data het in die vorige dekade dramaties toegeneem. Alhoewel dit maatskappye tyd en geld bespaar, is dit nie sonder sy nadele nie. Dit het nie uitskieters nie, wat natuurlik in werklike data voorkom en van kritieke belang is vir akkuraatheid in sommige modelle.

Dit is ook opmerklik dat die kwaliteit van die sintetiese data dikwels afhanklik is van die insetdata wat vir die skepping gebruik word; vooroordele in die insetdata kan vinnig na die sintetiese data versprei, dus die keuse van hoëgehaltedata as 'n beginpunt moet nie oorbeklemtoon word nie.

Laastens benodig dit verdere uitsetbeheer, insluitend die vergelyking van die sintetiese data met menslike geannoteerde werklike data om te verifieer dat teenstrydighede nie ingestel word nie. Ten spyte van hierdie struikelblokke bly sintetiese data 'n belowende veld.

Dit help ons om nuwe KI-oplossings te skep, selfs wanneer werklike data nie beskikbaar is nie. Die belangrikste is dat dit ondernemings in staat stel om produkte te bou wat meer inklusief is en 'n aanduiding is van hul eindverbruikers se diversiteit.

In die data-gedrewe toekoms is sintetiese data egter van plan om die datawetenskaplikes te help om nuwe en kreatiewe take uit te voer wat uitdagend sal wees om met werklike data alleen te voltooi.

Gevolgtrekking

In sekere gevalle kan sintetiese data 'n data-tekort of 'n gebrek aan relevante data binne 'n besigheid of organisasie verlig. Ons het ook gekyk na watter strategieë kan help met die generering van sintetiese data en wie daaruit kan voordeel trek.

Ons het ook gepraat oor sommige van die probleme wat gepaard gaan met die hantering van sintetiese data. Vir kommersiële besluitneming sal werklike data altyd bevoordeel word. Realistiese data is egter die naasbeste opsie wanneer sulke ware rou data nie toeganklik is vir ontleding nie.

Daar moet egter onthou word dat om sintetiese data te produseer, datawetenskaplikes met 'n goeie begrip van datamodellering nodig is. 'n Deeglike begrip van die werklike data en sy omgewing is ook noodsaaklik. Dit is noodsaaklik om seker te maak dat, indien beskikbaar, die geproduseerde data so akkuraat as moontlik is.

Sintetiese data verduidelik – Die volgende groot ding in KI, ML en DL

So, wat is sintetiese data?