Synteettisen tiedon luominen: tyypit, tekniikat ja paljon muuta

Sisällysluettelo[Piilottaa][Näytä]

Mikä on synteettinen data?
Synteettisten tietojen merkitys
Synteettisten tietojen tyypit+-
Synteettisen tiedon generoinnin tekniikat+-
Synteettisten tietojen tarjoajat+-
- Jäsennelty tieto
- Rakentamattomat tiedot
Haasteet
Yhteenveto

Tutkijat ja datatieteilijät kohtaavat usein tilanteita, joissa heillä ei ole todellista tietoa tai he eivät voi käyttää sitä luottamuksellisuus- tai yksityisyyssyistä.

Tämän ongelman ratkaisemiseksi synteettistä tiedontuotantoa käytetään korvaamaan aito data.

Aidot tiedot on korvattava asianmukaisesti, jotta algoritmi toimisi kunnolla, minkä tulee myös olla realistista. Voit käyttää tällaisia tietoja yksityisyyden ylläpitämiseen, järjestelmien testaamiseen tai koneoppimisalgoritmien koulutustietojen tuottamiseen.

Tutkitaan synteettistä tiedontuotantoa yksityiskohtaisesti ja katsotaan, miksi ne ovat tärkeitä tekoälyn aikakaudella.

Mikä on synteettinen data?

Synteettinen data on tietokonesimulaatioiden tai algoritmien tuottamaa annotoitua dataa, joka korvaa todellisen tiedon. Se on tekoälyn tuottama kopio todellisesta tiedosta.

Tietokuvioita ja -mittoja voidaan käyttää kehittyneillä tekoälyalgoritmeilla. He voivat luoda rajattoman määrän synteettistä dataa, joka edustaa tilastollisesti alkuperäistä harjoitustietoa, kun heidät on harjoiteltu.

On olemassa erilaisia lähestymistapoja ja tekniikoita, jotka voivat auttaa meitä luomaan synteettistä dataa ja joita voit käyttää useissa eri sovelluksissa.

Tiedontuotantoohjelmisto vaatii usein:

Tietovaraston metatiedot, jolle on luotava synteettistä dataa.
Tekniikka uskottavien mutta kuvitteellisten arvojen luomiseksi. Esimerkkejä ovat arvoluettelot ja säännölliset lausekkeet.
Kattava tietoisuus kaikista tietosuhteista, tietokantatasolla ilmoitetuista sekä sovelluskooditasolla ohjatuista tietosuhteista.

Yhtä tärkeää on validoida malli ja verrata todellisen datan käyttäytymisnäkökohtia mallin tuottamiin.

Näillä kuvitteellisilla tietojoukoilla on kaikki todellisen asian arvo, mutta ei yhtään arkaluonteista dataa. Se on kuin mehukas, kaloriton kakku. Se kuvaa tarkasti todellista maailmaa.

Tämän seurauksena voit käyttää sitä todellisen tiedon korvaamiseen.

Synteettisten tietojen merkitys

Synteettisellä tiedolla on ominaisuuksia, jotka sopivat tiettyihin vaatimuksiin tai tilanteisiin, jotka eivät muuten olisi käytettävissä todellisessa datassa. Kun testattavaa dataa on vähän tai kun yksityisyys on etusijalla, se tulee apuun.

Tekoälyn luomat tietojoukot ovat mukautettavia, turvallisia ja helppoja tallentaa, vaihtaa ja hävittää. Tietojen synteesitekniikka soveltuu alkuperäisen datan osajoukkoon ja parantamiseen.

Tämän seurauksena se on ihanteellinen käytettäväksi testitietona ja tekoälyn harjoitustietona.

Opettaa ML-pohjaista Uberia ja Teslan itseajavat autot.
Lääketieteen ja terveydenhuollon aloilla arvioida tiettyjä sairauksia ja olosuhteita, joista ei ole aitoa tietoa.
Petosten havaitseminen ja suojaaminen ovat ratkaisevan tärkeitä rahoitusalalla. Käyttämällä sitä voit tutkia uusia vilpillisiä tapauksia.
Amazon harjoittelee Alexan kielijärjestelmää käyttämällä synteettistä dataa.
American Express käyttää synteettisiä taloustietoja parantaakseen petosten havaitsemista.

Synteettisten tietojen tyypit

Synteettiset tiedot luodaan sattumanvaraisesti tarkoituksena piilottaa arkaluontoiset yksityiset tiedot säilyttäen samalla tilastotiedot alkuperäisen datan ominaisuuksista.

Sitä on pääasiassa kolmea tyyppiä:

Täyssynteettistä dataa
Osittain synteettistä dataa
Synteettinen hybrididata

1. Täyssynteettiset tiedot

Nämä tiedot on luotu kokonaan, eivätkä ne sisällä alkuperäisiä tietoja.

Tyypillisesti tämän tyyppinen datageneraattori tunnistaa todellisen datan piirteiden tiheysfunktiot ja arvioi niiden parametrit. Myöhemmin ennustetuista tiheysfunktioista luodaan satunnaisesti yksityisyydellä suojattuja sarjoja kullekin ominaisuudelle.

Jos vain muutama todellisen datan ominaisuus valitaan korvattavaksi sillä, näiden ominaisuuksien suojatut sarjat kartoitetaan todellisen tiedon jäljellä oleviin ominaisuuksiin, jotta suojattu ja todellinen sarja asetetaan samaan järjestykseen.

Bootstrap-tekniikat ja useat imputaatiot ovat kaksi perinteistä menetelmää täysin synteettisen tiedon tuottamiseen.

Koska tiedot ovat täysin synteettisiä eikä todellista tietoa ole olemassa, tämä strategia tarjoaa erinomaisen yksityisyyden suojan tietojen totuudenmukaisuuteen luottaen.

2. Osittain synteettiset tiedot

Nämä tiedot käyttävät vain synteettisiä arvoja korvaamaan muutamien arkaluonteisten ominaisuuksien arvot.

Tässä tilanteessa aitoja arvoja muutetaan vain, jos altistumisvaara on huomattava. Tämä muutos on tehty juuri luotujen tietojen yksityisyyden suojaamiseksi.

Osittain synteettisen tiedon tuottamiseen käytetään useita imputointi- ja mallipohjaisia lähestymistapoja. Näitä menetelmiä voidaan käyttää myös todellisten tietojen puuttuvien arvojen täyttämiseen.

3. Hybridisynteettiset tiedot

Hybridisynteettinen data sisältää sekä todellista että väärennettyä dataa.

Siitä valitaan lähes tietue jokaiselle todellisen datan satunnaiselle tietueelle, ja nämä kaksi yhdistetään sitten hybrididatan luomiseksi. Siinä on sekä täysin synteettisen että osittain synteettisen tiedon etuja.

Siksi se tarjoaa vahvan yksityisyydensuojan korkealla hyödyllisyydellä verrattuna kahteen muuhun, mutta lisää muistia ja käsittelyaikaa.

Synteettisen tiedon generoinnin tekniikat

Koneella valmistetun datan käsite on ollut suosittu useiden vuosien ajan. Nyt se kypsyy.

Tässä on joitain synteettisen tiedon luomiseen käytettyjä tekniikoita:

1. Jakelun perusteella

Jos todellista dataa ei ole olemassa, mutta data-analyytikolla on perusteellinen käsitys siitä, miltä tietojoukkojakauma näyttäisi; ne voivat tuottaa satunnaisen otoksen mistä tahansa jakaumasta, mukaan lukien normaali, eksponentiaalinen, khi-neliö, t, lognormaali ja yhtenäinen.

Synteettisen datan arvo tässä menetelmässä vaihtelee riippuen analyytikon ymmärryksen tasosta tietystä tietoympäristöstä.

2. Reaalimaailman data tunnettuun jakaumaan

Yritykset voivat tuottaa sen tunnistamalla annetulle todelliselle tiedolle parhaiten sopivat jakaumat, jos todellista dataa on.

Yritykset voivat käyttää Monte Carlo -lähestymistapaa sen tuottamiseen, jos he haluavat sovittaa todellista tietoa tunnettuun jakaumaan ja tietää jakeluparametrit.

Vaikka Monte Carlo -lähestymistapa voi auttaa yrityksiä löytämään parhaan mahdollisen vastaavuuden, paras sopivuus ei välttämättä ole tarpeeksi hyödyllinen yrityksen synteettisten tietojen tarpeisiin.

Yritykset voivat harkita koneoppimismallien käyttämistä jakeluun sopiviksi näissä olosuhteissa.

Koneoppimistekniikat, kuten päätöspuut, antavat organisaatioille mahdollisuuden mallintaa ei-klassisia jakaumia, jotka voivat olla multimodaalisia ja joilla ei ole tunnistettujen jakaumien yhteisiä ominaisuuksia.

Yritykset voivat tuottaa synteettistä dataa, joka yhdistää aitoon dataan käyttämällä tätä koneoppimiseen sovitettua jakelua.

Kuitenkin, koneoppimismallit ovat alttiita ylisovitukselle, mikä aiheuttaa sen, että ne eivät vastaa tuoretta dataa tai ennusta tulevia havaintoja.

3. Syvä oppiminen

Syvägeneratiiviset mallit, kuten Variational Autoencoder (VAE) ja Generative Adversarial Network (GAN), voivat tuottaa synteettistä dataa.

Vaihteleva autoenkooderi

VAE on valvomaton lähestymistapa, jossa kooderi pakkaa alkuperäisen tietojoukon ja lähettää tiedot dekooderille.

Dekooderi tuottaa sitten ulostulon, joka on esitys alkuperäisestä tietojoukosta.

Järjestelmän opettamiseen kuuluu tulo- ja lähtötietojen välisen korrelaation maksimointi.

Vae

Generatiivinen kilpaileva verkosto

GAN-malli kouluttaa mallia iteratiivisesti käyttämällä kahta verkkoa, generaattoria ja erottajaa.

Generaattori luo synteettisen tietojoukon satunnaisten näytetietojen joukosta.

Discrinator vertaa synteettisesti luotua dataa todelliseen tietojoukkoon ennalta määritettyjen ehtojen avulla.

Gan

Synteettisten tietojen tarjoajat

Jäsennelty tieto

Alla mainitut alustat tarjoavat synteettistä dataa, joka on johdettu taulukkotiedoista.

Se toistaa taulukoissa säilytettävät reaalimaailman tiedot ja sitä voidaan käyttää käyttäytymis-, ennakointi- tai tapahtumaanalyyseihin.

Istuta AI: Se on synteettisen tiedonluontijärjestelmän toimittaja, joka käyttää Generatiivisia Adversarial Networks -verkkoja ja erilaista yksityisyyttä.
Betterdata: Se tarjoaa yksityisyyttä suojelevan synteettisen dataratkaisun tekoälyyn, tiedon jakamiseen ja tuotekehitykseen.
Divepale: Se on Geminai-järjestelmän toimittaja, jolla luodaan kaksoistietojoukkoja, joilla on samat tilastolliset ominaisuudet kuin alkuperäisillä tiedoilla.

Rakentamattomat tiedot

Alla mainitut alustat käyttävät strukturoimatonta dataa ja tarjoavat synteettisiä datatuotteita ja -palveluita visio- ja tiedustelualgoritmien koulutukseen.

Tietoaineisto: Se tarjoaa 3D-simuloitua harjoitusdataa visuaalisen tekoälyn oppimiseen ja kehittämiseen.
Neurolabs: Neurolabs tarjoaa tietokonenäön synteettisen tietoalustan.
Rinnakkaistoimialue: Se tarjoaa synteettisen tietoalustan autonomisten järjestelmien koulutukseen ja testaukseen.
Käly: Se on simulaatiotoimittaja ADAS- ja autonomisten ajoneuvojen kehittäjille.
Bifrost: Se tarjoaa synteettisiä datasovellusliittymiä 3D-ympäristöjen luomiseen.

3 2

Haasteet

Sillä on pitkä historia Tekoäly, ja vaikka sillä on monia etuja, sillä on myös merkittäviä haittoja, jotka sinun on otettava huomioon työskennellessään synteettisten tietojen kanssa.

Seuraavassa on joitain niistä:

Monimutkaisia kopioitaessa todellisista tiedoista synteettisiin tietoihin saattaa tapahtua paljon virheitä.
Sen muovattava luonne johtaa harhaan sen käyttäytymisessä.
Synteettisten tietojen yksinkertaistetuilla esityksillä koulutettujen algoritmien toiminnassa voi olla joitain piilotettuja puutteita, jotka ovat äskettäin tulleet esiin käsiteltäessä todellista dataa.
Kaikkien asiaankuuluvien attribuuttien kopioiminen todellisesta datasta voi olla monimutkaista. On myös mahdollista, että jotkin olennaiset näkökohdat jäävät huomiotta tämän toimenpiteen aikana.

Yhteenveto

Synteettisen datan tuotanto herättää selvästi ihmisten huomion.

Tämä menetelmä ei välttämättä ole yksiselitteinen vastaus kaikkiin dataa tuottaviin tapauksiin.

Lisäksi tekniikka voi vaatia älykkyyttä AI/ML:n kautta ja pystyä käsittelemään todellisia monimutkaisia tilanteita, joissa luodaan toisiinsa liittyvää dataa, mieluiten tietylle alueelle sopivaa dataa.

Siitä huolimatta se on innovatiivinen tekniikka, joka täyttää aukon, jossa muut yksityisyyttä mahdollistavat tekniikat jäävät vajaaksi.

Nykyään synteettinen tiedon tuottaminen saattaa edellyttää tietojen peittämistä rinnakkain.

Tulevaisuudessa näiden kahden välillä voi olla enemmän lähentymistä, mikä johtaa kattavampaan datantuotantoratkaisuun.

Jaa näkemyksesi kommenteissa!

Synteettisen tiedon luominen: tyypit, tekniikat ja paljon muuta

Mikä on synteettinen data?

Synteettisten tietojen merkitys