Szintetikus adatgenerálás: típusok, technikák és egyebek

Tartalomjegyzék[Elrejt][Előadás]

Mi az a szintetikus adat?
A szintetikus adatok jelentősége
A szintetikus adatok típusai+-
A szintetikus adatgenerálás technikái+-
Szintetikus adatszolgáltatók+-
- Strukturált adatok
- Strukturálatlan adatok
Kihívások
Következtetés

A kutatók és adattudósok gyakran találkoznak olyan helyzetekkel, amikor vagy nem rendelkeznek a tényleges adatokkal, vagy nem tudják azokat felhasználni titoktartási vagy adatvédelmi megfontolások miatt.

A probléma megoldása érdekében szintetikus adattermelést használnak a valódi adatok helyettesítésére.

A valódi adatok megfelelő cseréje szükséges ahhoz, hogy az algoritmus megfelelően működjön, aminek szintén reálisnak kell lennie. Ezeket az adatokat használhatja az adatvédelem megőrzésére, a rendszerek tesztelésére vagy a gépi tanulási algoritmusok oktatási adatainak előállítására.

Vizsgáljuk meg részletesen a szintetikus adatgenerálást, és nézzük meg, miért létfontosságúak az AI korában.

Mi az a szintetikus adat?

A szintetikus adatok számítógépes szimulációk vagy algoritmusok által generált annotált adatok a valós adatok helyettesítésére. Ez a tényleges adatok mesterséges intelligencia által generált másolata.

Használhatunk adatmintákat és dimenziókat fejlett AI algoritmusok segítségével. Korlátlan mennyiségű szintetikus adatot hozhatnak létre, amely statisztikailag reprezentálja az eredeti edzési adatokat, miután betanították őket.

Számos megközelítés és technológia létezik, amelyek segítségével szintetikus adatokat hozhatunk létre, és Ön számos alkalmazásban használható.

Az adatgeneráló szoftver gyakran megköveteli:

Adattár metaadatai, amelyekhez szintetikus adatokat kell létrehozni.
Hihető, de kitalált értékek generálásának technikája. Ilyenek például az értéklisták és a reguláris kifejezések.
Az összes adatkapcsolat átfogó ismerete, az adatbázis-szinten deklarált, valamint az alkalmazáskód szintjén ellenőrzött adatkapcsolatok átfogó ismerete.

Ugyanilyen szükséges a modell validálása és a valós adatok viselkedési aspektusainak összehasonlítása a modell által generáltakkal.

Ezek a fiktív adatkészletek a valódi érték teljes értékével rendelkeznek, de az érzékeny adatok egyikével sem. Olyan, mint egy zamatos, kalóriamentes sütemény. Pontosan ábrázolja a valós világot.

Ennek eredményeként felhasználhatja a valós adatok helyettesítésére.

A szintetikus adatok jelentősége

A szintetikus adatok olyan jellemzőkkel rendelkeznek, hogy megfeleljenek bizonyos igényeknek vagy helyzeteknek, amelyek egyébként nem lennének elérhetők a valós adatokban. Ha kevés a teszteléshez szükséges adat, vagy ha az adatvédelem a legfontosabb szempont, akkor ez a segítség.

A mesterséges intelligencia által generált adatkészletek adaptálhatók, biztonságosak és könnyen tárolhatók, cserélhetők és eldobhatók. Az adatszintézis technika alkalmas az eredeti adatok részhalmazára és javítására.

Ennek eredményeként ideális tesztadatként és mesterséges intelligencia képzési adatként való használatra.

Az ML alapú Uber oktatására és Tesla önvezető autók.
Az orvosi és egészségügyi ágazatokban olyan konkrét betegségek és körülmények felmérésére, amelyekre vonatkozóan nem állnak rendelkezésre valódi adatok.
A csalások felderítése és védelme kulcsfontosságú a pénzügyi szektorban. Használatával új csaló eseteket vizsgálhat.
Az Amazon szintetikus adatok felhasználásával oktatja az Alexa nyelvi rendszerét.
Az American Express szintetikus pénzügyi adatokat használ a csalások felderítésének javítására.

A szintetikus adatok típusai

A szintetikus adatok véletlenszerűen jönnek létre azzal a szándékkal, hogy elrejtsék az érzékeny személyes információkat, miközben megtartják az eredeti adatok jellemzőire vonatkozó statisztikai információkat.

Főleg három típusból áll:

Teljesen szintetikus adatok
Részben szintetikus adatok
Hibrid szintetikus adatok

1. Teljesen szintetikus adatok

Ezek az adatok teljes egészében generáltak, és nem tartalmaznak eredeti adatokat.

Az ilyen típusú adatgenerátor jellemzően azonosítja a valós adatok jellemzőinek sűrűségfüggvényeit, és megbecsüli azok paramétereit. Később, az előre jelzett sűrűségű függvényekből, minden egyes jellemzőhöz véletlenszerűen adatvédelmi védett sorozatok jönnek létre.

Ha a tényleges adatoknak csak néhány jellemzőjét választjuk lecserélni, akkor ezeknek a jellemzőknek a védett sorozatát a rendszer leképezi a valós adatok többi jellemzőire, hogy a védett és a valós sorozatokat ugyanabban a sorrendben rangsorolja.

A Bootstrap technikák és a többszörös imputáció két hagyományos módszer a teljesen szintetikus adatok előállítására.

Mivel az adatok teljesen szintetikusak, és nem léteznek valódi adatok, ez a stratégia kiváló adatvédelmet biztosít az adatok valódiságára támaszkodva.

2. Részben szintetikus adatok

Ezek az adatok csak szintetikus értékeket használnak néhány érzékeny jellemző értékének helyettesítésére.

Ebben a helyzetben a valódi értékek csak akkor változnak meg, ha az expozíció jelentős veszélye áll fenn. Ez a változtatás a frissen létrehozott adatok titkosságának védelme érdekében történik.

Több imputációs és modellalapú megközelítést alkalmaznak a részben szintetikus adatok előállítására. Ezek a módszerek a valós adatok hiányzó értékeinek kitöltésére is használhatók.

3. Hibrid szintetikus adatok

A hibrid szintetikus adatok valós és hamis adatokat egyaránt tartalmaznak.

A valós adatok minden véletlenszerű rekordjához egy közel rekordot választanak ki, majd a kettőt összekapcsolják hibrid adatok előállítására. Mind a teljesen szintetikus, mind a részben szintetikus adatok előnyeivel rendelkezik.

Emiatt a másik kettőhöz képest erős adatvédelemmel és nagy hasznossággal rendelkezik, de több memória és feldolgozási idő árán.

A szintetikus adatgenerálás technikái

A géppel készített adatok fogalma évek óta népszerű. Most érlelődik.

Íme néhány a szintetikus adatok generálására használt technikák közül:

1. Elosztás alapján

Abban az esetben, ha nem léteznek valós adatok, de az adatelemzőnek alapos elképzelése van arról, hogyan fog megjelenni az adatkészlet-eloszlás; bármilyen eloszlásból véletlenszerű mintát állíthatnak elő, ideértve a normál, az exponenciális, a khi-négyzet, a t, a lognormális és az egységes eloszlást.

A szintetikus adatok értéke ebben a módszerben attól függően változik, hogy az elemző milyen szintű ismeretekkel rendelkezik egy bizonyos adatkörnyezetről.

2. Valós adatok ismert eloszlásba

A vállalkozások úgy állíthatják elő, hogy azonosítják az adott valós adatokhoz legjobban illeszkedő eloszlásokat, ha vannak valós adatok.

A vállalkozások a Monte Carlo-i megközelítést használhatják ennek előállítására, ha valós adatokat szeretnének egy ismert disztribúcióba illeszteni, és ismerni szeretnék a disztribúciós paramétereket.

Bár a Monte Carlo-megközelítés segíthet a vállalkozásoknak megtalálni az elérhető legjobb egyezést, előfordulhat, hogy a legjobb illeszkedés nem eléggé hasznos a vállalat szintetikus adatszükségleteihez.

A vállalkozások fontolóra vehetik a gépi tanulási modellek alkalmazását, hogy megfeleljenek a disztribúcióknak ilyen körülmények között.

A gépi tanulási technikák, például a döntési fák lehetővé teszik a szervezetek számára, hogy modellezzék a nem klasszikus eloszlásokat, amelyek multimodálisak lehetnek, és nem rendelkeznek az elismert disztribúciók közös tulajdonságaival.

A vállalkozások szintetikus adatokat állíthatnak elő, amelyek valódi adatokhoz kapcsolódnak ezzel a gépi tanulással illesztett disztribúcióval.

Azonban, gépi tanulási modellek érzékenyek a túlillesztésre, ami azt eredményezi, hogy nem egyeznek meg a friss adatokkal vagy nem jósolják meg a jövőbeli megfigyeléseket.

3. Mély tanulás

A mélygeneratív modellek, mint például a Variational Autoencoder (VAE) és a Generative Adversarial Network (GAN) szintetikus adatokat állíthatnak elő.

Variációs autoencoder

A VAE egy felügyelet nélküli megközelítés, amelyben a kódoló tömöríti az eredeti adatkészletet, és adatokat küld a dekódernek.

A dekóder ezután kimenetet állít elő, amely az eredeti adatkészlet reprezentációja.

A rendszer tanítása magában foglalja a bemeneti és kimeneti adatok közötti korreláció maximalizálását.

Vae

Generatív versenytársak hálózata

A GAN modell iteratív módon tanítja a modellt két hálózat, a generátor és a diszkriminátor segítségével.

A generátor szintetikus adatkészletet hoz létre véletlenszerű mintaadatok halmazából.

A Discriminator összehasonlítja a szintetikusan létrehozott adatokat egy valós adatkészlettel, előre meghatározott feltételekkel.

Gan

Szintetikus adatszolgáltatók

Strukturált adatok

Az alább említett platformok táblázatos adatokból származó szintetikus adatokat szolgáltatnak.

Megismétli a táblázatokban tárolt valós adatokat, és használható viselkedési, prediktív vagy tranzakciós elemzésekhez.

Telepítse az AI-t: Szintetikus adatlétrehozó rendszer szolgáltatója, amely a generatív ellenséges hálózatokat és a megkülönböztetett adatvédelmet használja.
Betterdata: A magánélet védelmét megőrző szintetikus adatmegoldás szolgáltatója mesterséges intelligenciához, adatmegosztáshoz és termékfejlesztéshez.
Divepale: A Geminai szolgáltatója, egy olyan rendszer, amely az eredeti adatokkal megegyező statisztikai jellemzőkkel rendelkező „iker” adatkészleteket hoz létre.

Strukturálatlan adatok

Az alább említett platformok strukturálatlan adatokkal működnek, szintetikus adattermékeket és szolgáltatásokat nyújtva a látás és a felderítési algoritmusok képzéséhez.

Datagen: 3D szimulált képzési adatokat biztosít a vizuális AI tanuláshoz és fejlesztéshez.
Neurolabs: A Neurolabs egy számítógépes látás szintetikus adatplatform szolgáltatója.
Párhuzamos tartomány: Szintetikus adatplatform szolgáltatója autonóm rendszerképzéshez és használati esetek teszteléséhez.
Sógornő: Az ADAS és az autonóm járműfejlesztők szimulációs szállítója.
Bifrost: Szintetikus adat API-kat biztosít a 3D környezetek létrehozásához.

3 2

Kihívások

Hosszú története van benne Mesterséges Intelligencia, és bár számos előnye van, jelentős hátrányai is vannak, amelyeket a szintetikus adatokkal végzett munka során kezelnie kell.

Itt van néhány közülük:

Sok hiba fordulhat elő, miközben a bonyolultságot tényleges adatokról szintetikus adatokra másolják.
Képlékeny természete elfogultságokhoz vezet a viselkedésében.
Előfordulhat néhány rejtett hiba a szintetikus adatok egyszerűsített megjelenítésével kiképzett algoritmusok teljesítményében, amelyek a közelmúltban a tényleges adatok kezelése során merültek fel.
Az összes releváns attribútum valós adatokból való replikálása bonyolulttá válhat. Az is lehetséges, hogy a művelet során néhány lényeges szempont figyelmen kívül marad.

Következtetés

A szintetikus adatok előállítása egyértelműen felkelti az emberek figyelmét.

Előfordulhat, hogy ez a módszer nem minden adatgeneráló esetre egy mindenkire érvényes megoldás.

Emellett a technika AI/ML-en keresztüli intelligenciát igényelhet, és képes kezelni a való világ bonyolult helyzeteit, amikor egymással összefüggő, ideális esetben egy adott tartományhoz megfelelő adatokat hoz létre.

Mindazonáltal ez egy innovatív technológia, amely pótolja azt a hiányt, ahol más, a magánélet védelmét lehetővé tevő technológiák elmaradnak.

Ma szintetikus az adattermeléshez szükség lehet az adatmaszkolás együttélésére.

A jövőben nagyobb konvergencia lehet a kettő között, ami egy átfogóbb adatgeneráló megoldást eredményezhet.

Oszd meg véleményedet kommentben!

szintetikus adatgeneráló eszközök és technikák

Szintetikus adatgenerálás: típusok, technikák és egyebek

Mi az a szintetikus adat?

A szintetikus adatok jelentősége