Sintetiese datagenerering: tipes, tegnieke en meer

INHOUDSOPGAWE[Versteek][Wys]

Wat is sintetiese data?
Belangrikheid van sintetiese data
Tipes sintetiese data+-
Tegnieke van sintetiese data generering+-
Sintetiese dataverskaffers+-
- Gestruktureerde data
- Ongestruktureerde data
Uitdagings
Gevolgtrekking

Navorsers en datawetenskaplikes kom dikwels teë met omstandighede waarin hulle óf nie die werklike data het nie óf nie in staat is om dit te gebruik nie weens vertroulikheids- of privaatheidsoorwegings.

Om hierdie probleem aan te spreek, word sintetiese dataproduksie gebruik om 'n plaasvervanger vir egte data te produseer.

Die toepaslike vervanging van ware data is nodig vir die algoritme om behoorlik te werk, wat ook realisties van karakter moet wees. Jy kan sulke data gebruik om privaatheid te handhaaf, stelsels te toets of opleidingsdata vir masjienleeralgoritmes te produseer.

Kom ons verken die generering van sintetiese data in detail en kyk hoekom dit noodsaaklik is in die era van KI.

Wat is sintetiese data?

Sintetiese data is geannoteerde data wat deur rekenaarsimulasies of algoritmes gegenereer word as 'n plaasvervanger vir werklike data. Dit is 'n kunsmatige intelligensie-gegenereerde replika van werklike data.

Mens kan datapatrone en dimensies gebruik deur gevorderde KI-algoritmes te gebruik. Hulle kan 'n onbeperkte hoeveelheid sintetiese data skep wat statisties verteenwoordigend is van die oorspronklike opleidingsdata sodra hulle opgelei is.

Daar is 'n verskeidenheid benaderings en tegnologieë wat ons kan help om sintetiese data te skep en wat jy in 'n verskeidenheid toepassings kan gebruik.

Datagenerering sagteware vereis dikwels:

Metadata van 'n databewaarplek, waarvoor sintetiese data geskep moet word.
Tegniek om aanneemlike maar fiktiewe waardes te genereer. Voorbeelde sluit in waardelyste en gereelde uitdrukkings.
Omvattende bewustheid van alle dataverwantskappe, dié wat op die databasisvlak verklaar word sowel as dié wat op die toepassingskodevlak beheer word.

Dit is ewe nodig om die model te valideer en die gedragsaspekte van werklike data te vergelyk met dié wat deur die model gegenereer word.

Hierdie fiktiewe datastelle het al die waarde van die regte ding, maar nie een van die sensitiewe data nie. Dit is soos 'n heerlike, kalorievrye koek. Dit beeld die werklike wêreld akkuraat uit.

As gevolg hiervan kan u dit gebruik om werklike data te vervang.

Belangrikheid van sintetiese data

Sintetiese data het eienskappe om aan sekere eise of situasies te voldoen wat andersins nie in werklike data beskikbaar sou wees nie. As daar 'n min data is om te toets of wanneer privaatheid 'n hoofoorweging is, kom dit tot die redding.

KI-gegenereerde datastelle is aanpasbaar, veilig en maklik om te stoor, uit te ruil en weg te gooi. Die datasintese-tegniek is geskik vir subset en verbetering van die oorspronklike data.

As gevolg hiervan is dit ideaal vir gebruik as toetsdata en KI-opleidingsdata.

Om ML-gebaseerde Uber te leer en Tesla selfbesturende motors.
In die mediese- en gesondheidsorgbedrywe, om spesifieke siektes en omstandighede waarvoor werklike data nie bestaan nie, te assesseer.
Bedrogopsporing en -beskerming is van kardinale belang in die finansiële sektor. Deur dit te gebruik, kan jy nuwe bedrieglike gevalle ondersoek.
Amazon oefen Alexa se taalstelsel op deur sintetiese data te gebruik.
American Express gebruik sintetiese finansiële data om bedrogopsporing te verbeter.

Tipes sintetiese data

Sintetiese data word lukraak geskep met die doel om sensitiewe privaat inligting te verberg terwyl statistiese inligting oor eienskappe in die oorspronklike data gehou word.

Dit is hoofsaaklik van drie tipes:

Ten volle sintetiese data
Gedeeltelik sintetiese data
Hibriede sintetiese data

1. Volledig sintetiese data

Hierdie data is geheel en al gegenereer en bevat geen oorspronklike data nie.

Tipies sal die datagenerator vir hierdie soort digtheidsfunksies van kenmerke in werklike data identifiseer en hul parameters skat. Later, vanaf voorspelde digtheidsfunksies, word privaatheidbeskermde reekse willekeurig vir elke kenmerk geskep.

As net 'n paar kenmerke van werklike data gekies word om daarmee vervang te word, word die beskermde reeks van hierdie kenmerke gekarteer na die oorblywende kenmerke van die werklike data om die beskermde en werklike reeks in dieselfde volgorde te rangskik.

Bootstrap-tegnieke en veelvuldige toerekenings is twee tradisionele metodes om heeltemal sintetiese data te produseer.

Omdat die data heeltemal sinteties is en geen werklike data bestaan nie, bied hierdie strategie uitstekende privaatheidsbeskerming met 'n staatmaak op die waarheid van die data.

2. Gedeeltelik sintetiese data

Hierdie data gebruik slegs sintetiese waardes om die waardes van 'n paar sensitiewe kenmerke te vervang.

In hierdie situasie word werklike waardes slegs verander as daar 'n wesenlike gevaar van blootstelling is. Hierdie verandering word gedoen om die privaatheid van nuutgeskepte data te beskerm.

Veelvuldige toerekening en model-gebaseerde benaderings word gebruik om gedeeltelik sintetiese data te produseer. Hierdie metodes kan ook gebruik word om ontbrekende waardes in werklike data in te vul.

3. Hibried Sintetiese Data

Hibriede sintetiese data sluit beide werklike en valse data in.

'n Byna-rekord daarin word vir elke ewekansige rekord van werklike data gekies, en die twee word dan saamgevoeg om hibriede data te genereer. Dit het die voordele van beide heeltemal sintetiese en gedeeltelik sintetiese data.

Dit bied dus sterk privaatheidbewaring met hoë nut in vergelyking met die ander twee, maar ten koste van meer geheue en verwerkingstyd.

Tegnieke van sintetiese data generering

Vir baie jare is die konsep van masjienvervaardigde data gewild. Nou word dit volwasse.

Hier is 'n paar van die tegnieke wat gebruik word om sintetiese data te genereer:

1. Gebaseer op verspreiding

In die geval dat geen werklike data bestaan nie, maar die data-ontleder 'n deeglike idee het van hoe die datastelverspreiding sal verskyn; hulle kan 'n ewekansige steekproef van enige verspreiding produseer, insluitend Normaal, Eksponensieel, Chi-kwadraat, t, lognormaal en Uniform.

Die waarde van sintetiese data in hierdie metode wissel na gelang van die ontleder se vlak van begrip oor 'n sekere data-omgewing.

2. Werklike data in bekende verspreiding

Besighede kan dit produseer deur die beste geskikte verspreidings vir gegewe werklike data te identifiseer as daar werklike data is.

Besighede kan die Monte Carlo-benadering gebruik om dit te produseer as hulle werklike data in 'n bekende verspreiding wil inpas en die verspreidingsparameters ken.

Alhoewel die Monte Carlo-benadering besighede kan help om die beste pasmaat beskikbaar te vind, is die beste passing dalk nie van genoeg nut vir die maatskappy se sintetiese databehoeftes nie.

Besighede kan die gebruik van masjienleermodelle ondersoek om by verspreidings in hierdie omstandighede te pas.

Masjienleertegnieke, soos besluitbome, stel organisasies in staat om nie-klassieke verspreidings te modelleer, wat multimodaal kan wees en nie algemene eienskappe van erkende verspreidings het nie.

Besighede kan sintetiese data produseer wat met egte data koppel deur hierdie masjienleer-gepaste verspreiding te gebruik.

Egter masjienleermodelle is vatbaar vir oorpas, wat veroorsaak dat hulle nie vars data pas of toekomstige waarnemings voorspel nie.

3. Diep leer

Diep generatiewe modelle soos die Variational Autoencoder (VAE) en die Generative Adversarial Network (GAN) kan sintetiese data produseer.

Variasionele outo-enkodeerder

VAE is 'n benadering sonder toesig waarin die enkodeerder die oorspronklike datastel saampers en data na die dekodeerder stuur.

Die dekodeerder produseer dan uitset wat 'n voorstelling van die oorspronklike datastel is.

Om die stelsel te onderrig behels die maksimalisering van die korrelasie tussen inset- en uitsetdata.

Vae

Generatiewe teëstanderige netwerk

Die GAN-model lei die model iteratief op met behulp van twee netwerke, die kragopwekker en die diskrimineerder.

Die kragopwekker skep 'n sintetiese datastel uit 'n stel ewekansige steekproefdata.

Diskriminator vergelyk sinteties geskepte data met 'n werklike datastel deur vooraf gedefinieerde voorwaardes te gebruik.

Gan

Sintetiese dataverskaffers

Gestruktureerde data

Die platforms wat hieronder genoem word, verskaf sintetiese data afkomstig van tabeldata.

Dit herhaal werklike data wat in tabelle gehou word en kan gebruik word vir gedrags-, voorspellende of transaksionele analise.

Skep KI: Dit is 'n verskaffer van 'n sintetiese dataskeppingstelsel wat Generative Adversarial Networks en differensiële privaatheid gebruik.
Beter data: Dit is 'n verskaffer van 'n privaatheidsbewarende sintetiese data-oplossing vir KI, datadeling en produkontwikkeling.
Divepale: Dit is die verskaffer van Geminai, 'n stelsel vir die skep van 'tweeling' datastelle met dieselfde statistiese kenmerke as die oorspronklike data.

Ongestruktureerde data

Die platforms wat hieronder genoem word, werk met ongestruktureerde data, en verskaf sintetiese data goedere en dienste vir opleiding van visie en verkenningsalgoritmes.

Datagen: Dit verskaf 3D-gesimuleerde opleidingsdata vir Visuele KI-leer en -ontwikkeling.
Neurolabs: Neurolabs is 'n verskaffer van 'n rekenaarvisie sintetiese dataplatform.
Parallelle domein: Dit is 'n verskaffer van 'n sintetiese dataplatform vir outonome stelselopleiding en toetsgebruiksgevalle.
Skoonsuster: Dit is 'n simulasieverskaffer vir ADAS en outonome voertuigontwikkelaars.
Bifrost: Dit verskaf sintetiese data-API's vir die skep van 3D-omgewings.

3 2

Uitdagings

Dit het 'n lang geskiedenis in Kunsmatige Intelligensie, en hoewel dit baie voordele het, het dit ook aansienlike nadele wat jy moet aanspreek terwyl jy met sintetiese data werk.

Hier is 'n paar van hulle:

Baie foute kan daar wees terwyl die kompleksiteit van werklike data na sintetiese data gekopieer word.
Die smeebare aard daarvan lei tot vooroordele in sy gedrag.
Daar kan 'n paar verborge foute wees in die werkverrigting van algoritmes wat opgelei is deur gebruik te maak van vereenvoudigde voorstellings van sintetiese data wat onlangs opgeduik het terwyl hulle met werklike data handel.
Die replisering van alle relevante eienskappe vanaf werklike data kan ingewikkeld raak. Dit is ook moontlik dat sommige noodsaaklike aspekte deur hierdie operasie oor die hoof gesien kan word.

Gevolgtrekking

Die vervaardiging van sintetiese data trek duidelik mense se aandag.

Hierdie metode is dalk nie 'n een-grootte-pas-almal-antwoord vir alle data-genererende gevalle nie.

Boonop kan die tegniek intelligensie via AI/ML vereis en in staat wees om werklike ingewikkelde situasies van die skep van interverwante data te hanteer, ideaal data wat geskik is vir 'n sekere domein.

Nietemin is dit 'n innoverende tegnologie wat 'n gaping vul waar ander privaatheid-instaatstellende tegnologieë te kort skiet.

Vandag, sintetiese dataproduksie kan die naasbestaan van datamaskering nodig hê.

In die toekoms kan daar groter konvergensie tussen die twee wees, wat lei tot 'n meer omvattende data-genererende oplossing.

Deel jou sienings in die kommentaar!

sintetiese data generering gereedskap en tegnieke

Sintetiese datagenerering: tipes, tegnieke en meer

Wat is sintetiese data?

Belangrikheid van sintetiese data