Sünteetiliste andmete genereerimine: tüübid, tehnikad ja muu

Sisukord[Peida][Näita]

Mis on sünteetilised andmed?
Sünteetiliste andmete tähtsus
Sünteetiliste andmete tüübid+-
Sünteetiliste andmete genereerimise tehnikad+-
Sünteetilised andmepakkujad+-
- Struktureeritud andmed
- Struktureerimata andmed
Väljakutsed
Järeldus

Teadlased ja andmeteadlased puutuvad sageli kokku olukordadega, kus neil pole tegelikke andmeid või nad ei saa neid konfidentsiaalsuse või privaatsuskaalutluste tõttu kasutada.

Selle probleemi lahendamiseks kasutatakse ehtsate andmete asendamiseks sünteetilist andmete tootmist.

Algoritmi nõuetekohaseks toimimiseks on vaja ehtsate andmete asjakohast asendamist, mis peaks samuti olema realistlik. Saate neid andmeid kasutada privaatsuse säilitamiseks, süsteemide testimiseks või masinõppe algoritmide koolitusandmete loomiseks.

Uurime sünteetiliste andmete genereerimist üksikasjalikult ja vaatame, miks need on tehisintellekti ajastul üliolulised.

Mis on sünteetilised andmed?

Sünteetilised andmed on annoteeritud andmed, mis on genereeritud arvutisimulatsioonide või -algoritmide abil, mis asendavad tegelikke andmeid. See on tehisintellekti loodud tegelike andmete koopia.

Andmemustreid ja mõõtmeid võib kasutada täiustatud AI-algoritmide abil. Nad saavad pärast treenimist luua piiramatul hulgal sünteetilisi andmeid, mis esindavad statistiliselt algseid treeninguandmeid.

On mitmeid lähenemisviise ja tehnoloogiaid, mis aitavad meil luua sünteetilisi andmeid ja mida saate kasutada mitmesugustes rakendustes.

Andmete genereerimise tarkvara nõuab sageli:

Andmehoidla metaandmed, mille jaoks tuleb luua sünteetilised andmed.
Usutavate, kuid väljamõeldud väärtuste genereerimise tehnika. Näited hõlmavad väärtusloendeid ja regulaaravaldisi.
Põhjalik teadlikkus kõigist andmesuhetest, nii andmebaasi tasemel deklareeritud kui ka rakenduskoodi tasemel kontrollitavatest andmesuhetest.

Samavõrd vajalik on mudeli valideerimine ja tegelike andmete käitumuslike aspektide võrdlemine mudeli poolt genereeritutega.

Nendel fiktiivsetel andmekogumitel on kogu tegelik väärtus, kuid mitte ükski tundlikud andmed. See on nagu imal, kalorivaba kook. See kujutab täpselt tegelikku maailma.

Selle tulemusena saate seda kasutada reaalmaailma andmete asendamiseks.

Sünteetiliste andmete tähtsus

Sünteetilistel andmetel on omadused, mis vastavad teatud nõudmistele või olukordadele, mis muidu poleks reaalmaailma andmetes saadaval. Kui testimiseks on vähe andmeid või kui privaatsus on esmatähtis, tuleb see appi.

AI-ga loodud andmestikud on kohandatavad, turvalised ning neid on lihtne salvestada, vahetada ja ära visata. Andmete sünteesi tehnika sobib algandmete alamhulga moodustamiseks ja täiustamiseks.

Seetõttu sobib see ideaalselt kasutamiseks katseandmete ja tehisintellekti treeningandmetena.

Õpetada ML-põhist Uberit ja Tesla isejuhtivad autod.
Meditsiini- ja tervishoiutööstuses hinnata konkreetseid haigusi ja asjaolusid, mille kohta tõelisi andmeid pole.
Pettuste avastamine ja kaitse on finantssektoris üliolulised. Seda kasutades saate uurida uusi pettusejuhtumeid.
Amazon treenib sünteetilisi andmeid kasutades Alexa keelesüsteemi.
American Express kasutab pettuste tuvastamise parandamiseks sünteetilisi finantsandmeid.

Sünteetiliste andmete tüübid

Sünteetilised andmed luuakse juhuslikult eesmärgiga varjata tundlikku privaatset teavet, säilitades samal ajal statistilist teavet algandmete omaduste kohta.

Seda on peamiselt kolme tüüpi:

Täielikult sünteetilised andmed
Osaliselt sünteetilised andmed
Hübriidsed sünteetilised andmed

1. Täielikult sünteetilised andmed

Need andmed on täielikult loodud ega sisalda algandmeid.

Tavaliselt tuvastab seda tüüpi andmegeneraator reaalsetes andmetes funktsioonide tihedusfunktsioonid ja hindab nende parameetreid. Hiljem luuakse prognoositud tihedusega funktsioonide põhjal iga funktsiooni jaoks juhuslikult privaatsusega kaitstud seeriad.

Kui valitakse asendamiseks vaid mõned tegelike andmete tunnused, vastendatakse nende funktsioonide kaitstud seeriad ülejäänud reaalandmete tunnustega, et järjestada kaitstud ja reaalseeriad samas järjekorras.

Bootstrap tehnikad ja mitu imputatsiooni on kaks traditsioonilist meetodit täiesti sünteetiliste andmete saamiseks.

Kuna andmed on täielikult sünteetilised ja tegelikke andmeid pole, tagab see strateegia suurepärase privaatsuse kaitse, tuginedes andmete tõele.

2. Osaliselt sünteetilised andmed

Need andmed kasutavad sünteetilisi väärtusi ainult mõne tundliku funktsiooni väärtuste asendamiseks.

Sellises olukorras muudetakse tegelikke väärtusi ainult siis, kui on olemas märkimisväärne kokkupuute oht. See muudatus tehakse värskelt loodud andmete privaatsuse kaitsmiseks.

Osaliselt sünteetiliste andmete saamiseks kasutatakse mitut imputatsiooni- ja mudelipõhist lähenemisviisi. Neid meetodeid saab kasutada ka tegelike andmete puuduvate väärtuste täitmiseks.

3. Hübriidsed sünteetilised andmed

Hübriidsed sünteetilised andmed hõlmavad nii tegelikke kui ka võltsandmeid.

Iga tegelike andmete juhusliku kirje jaoks valitakse peaaegu kirje ja need kaks ühendatakse seejärel hübriidandmete genereerimiseks. Sellel on nii täielikult sünteetiliste kui ka osaliselt sünteetiliste andmete eelised.

Seetõttu pakub see kahe teisega võrreldes tugevat privaatsuse säilitamist suure kasulikkusega, kuid suurema mälu ja töötlemisaja hinnaga.

Sünteetiliste andmete genereerimise tehnikad

Masinaga valmistatud andmete kontseptsioon on olnud populaarne juba aastaid. Nüüd on see küpsemas.

Siin on mõned sünteetiliste andmete genereerimiseks kasutatavad tehnikad.

1. Jaotuse alusel

Juhul, kui tegelikud andmed puuduvad, kuid andmeanalüütikul on põhjalik ettekujutus, kuidas andmestiku jaotus välja näeb; nad võivad koostada juhusliku valimi mis tahes jaotusest, sealhulgas normaal-, eksponentsiaal-, hii-ruut-, t-, lognormaal- ja ühtlast.

Sünteetiliste andmete väärtus selle meetodi puhul varieerub sõltuvalt analüütiku mõistmise tasemest teatud andmekeskkonna kohta.

2. Reaalmaailma andmed teadaolevasse jaotusse

Ettevõtted saavad seda luua, tuvastades tegelike andmete jaoks kõige paremini sobivad jaotused, kui tõelised andmed on olemas.

Ettevõtted saavad selle koostamiseks kasutada Monte Carlo lähenemisviisi, kui nad soovivad sobitada tegelikke andmeid teadaolevasse jaotusse ja teavad jaotusparameetreid.

Kuigi Monte Carlo lähenemisviis võib aidata ettevõtetel leida parimat saadaolevat vastet, ei pruugi parim sobivus olla ettevõtte sünteetiliste andmete vajaduste jaoks piisavalt kasulik.

Ettevõtted võiksid uurida masinõppemudelite kasutamist, et nendes tingimustes distributsioonid sobiksid.

Masinõppetehnikad, nagu otsustuspuud, võimaldavad organisatsioonidel modelleerida mitteklassikalisi jaotusi, mis võivad olla multimodaalsed ja millel puuduvad tunnustatud jaotuste ühised omadused.

Ettevõtted võivad selle masinõppega kohandatud distributsiooni abil toota sünteetilisi andmeid, mis loovad ühenduse ehtsate andmetega.

Kuid masinõppe mudelid on vastuvõtlikud ülepaigutamisele, mistõttu nad ei suuda värskeid andmeid kokku sobitada ega tulevasi vaatlusi ennustada.

3. Süvaõpe

Sügavad generatiivsed mudelid, nagu variatsiooniline automaatkooder (VAE) ja generatiivne vastastikune võrk (GAN) võivad toota sünteetilisi andmeid.

Variatsiooniline automaatkooder

VAE on järelevalveta lähenemine, mille puhul kodeerija tihendab algse andmestiku ja saadab andmed dekoodrisse.

Seejärel toodab dekooder väljundi, mis kujutab endast algset andmekogumit.

Süsteemi õpetamine hõlmab sisend- ja väljundandmete vahelise korrelatsiooni maksimeerimist.

Vae

Generatiivne võistlev võrk

GAN-mudel treenib mudelit iteratiivselt, kasutades kahte võrku, generaatorit ja diskriminaatorit.

Generaator loob juhuslike valimiandmete komplektist sünteetilise andmestiku.

Diskriminaator võrdleb sünteetiliselt loodud andmeid reaalse andmekogumiga, kasutades eelnevalt määratletud tingimusi.

Gan

Sünteetilised andmepakkujad

Struktureeritud andmed

Allpool mainitud platvormid pakuvad sünteetilisi andmeid, mis on saadud tabeliandmetest.

See kordab tabelites hoitavaid reaalseid andmeid ja seda saab kasutada käitumis-, ennustamis- või tehinguanalüüsiks.

Sisestage AI: see on sünteetiliste andmete loomise süsteemi pakkuja, mis kasutab generatiivseid võistlevaid võrke ja erinevat privaatsust.
Betterdata: see on privaatsust säilitava sünteetilise andmelahenduse pakkuja tehisintellekti, andmete jagamise ja tootearenduse jaoks.
Divepale: see on Geminai – süsteemi, mille abil luuakse algandmetega samad statistilised tunnused, nn kaksikandmed.

Struktureerimata andmed

Allpool mainitud platvormid töötavad struktureerimata andmetega, pakkudes sünteetilisi andmekaupu ja -teenuseid nägemise ja luurealgoritmide treenimiseks.

Datagen: pakub visuaalse AI õppimiseks ja arendamiseks 3D-simuleeritud treeningandmeid.
Neurolabid: Neurolabs on arvutinägemise sünteetiliste andmeplatvormide pakkuja.
Paralleeldomeen: see on sünteetilise andmeplatvormi pakkuja autonoomse süsteemi koolituseks ja kasutusjuhtude testimiseks.
Cognata: see on ADAS-i ja autonoomsete sõidukite arendajate simulatsioonitarnija.
Bifrost: see pakub sünteetilisi andmete API-sid 3D-keskkondade loomiseks.

3 2

Väljakutsed

Sellel on pikk ajalugu Tehisintellekt, ja kuigi sellel on palju eeliseid, on sellel ka olulisi puudusi, millega peate sünteetiliste andmetega töötamisel tegelema.

Siin on mõned neist:

Tegelikest andmetest sünteetilistesse andmetesse keerukuse kopeerimisel võib esineda palju vigu.
Selle tempermalmist olemus põhjustab tema käitumises eelarvamusi.
Sünteetiliste andmete lihtsustatud esitusviiside abil koolitatud algoritmide toimivuses võib esineda mõningaid varjatud vigu, mis on hiljuti tegelike andmete käsitlemisel esile kerkinud.
Kõigi asjakohaste atribuutide kopeerimine tegelikest andmetest võib muutuda keeruliseks. Samuti on võimalik, et selle toimingu käigus jäävad mõned olulised aspektid tähelepanuta.

Järeldus

Sünteetiliste andmete tootmine köidab selgelt inimeste tähelepanu.

See meetod ei pruugi olla kõigi andmete genereerimise juhtumite jaoks kõigile sobiv vastus.

Peale selle võib tehnika nõuda luureandmeid AI/ML-i kaudu ja olla võimeline lahendama reaalseid keerulisi olukordi omavahel seotud andmete, ideaaljuhul teatud domeeni jaoks sobivate andmete loomisel.

Sellegipoolest on tegemist uuendusliku tehnoloogiaga, mis täidab tühimiku, kus teised privaatsust võimaldavad tehnoloogiad jäävad puudu.

Tänapäeval sünteetiline andmete tootmine võib vajada andmete maskeerimise kooseksisteerimist.

Tulevikus võib nende kahe vahel olla suurem lähenemine, mille tulemuseks on terviklikum andmete genereerimise lahendus.

Jagage oma seisukohti kommentaarides!

sünteetiliste andmete genereerimise tööriistad ja tehnikad

Sünteetiliste andmete genereerimine: tüübid, tehnikad ja muu

Mis on sünteetilised andmed?

Sünteetiliste andmete tähtsus