Tartalomjegyzék[Elrejt][Előadás]
A fejlett analitikai és gépi tanulási programokat az adatok hajtják, de az adatokhoz való hozzáférés nehézségekbe ütközhet az akadémikusok számára az adatvédelemmel és az üzleti folyamatokkal kapcsolatos kihívások miatt.
A szintetikus adatok, amelyek megoszthatók és felhasználhatók olyan módon, ahogy a tényleges adatok nem, egy lehetséges új irány, amelyet követni kell. Ez az új stratégia azonban nem mentes veszélyektől és hátrányoktól, ezért elengedhetetlen, hogy a vállalkozások alaposan mérlegeljék, hol és hogyan használják fel erőforrásaikat.
A jelenlegi mesterséges intelligencia korszakban azt is kijelenthetjük, hogy az adatok az új olaj, de csak néhány kiválasztott ül a gusheren. Ezért sokan saját maguk állítják elő az üzemanyagot, ami megfizethető és hatékony. Szintetikus adatként ismert.
Ebben a bejegyzésben részletesen megvizsgáljuk a szintetikus adatokat – miért érdemes használni, hogyan kell előállítani, miben különböznek a tényleges adatoktól, milyen felhasználási eseteket szolgálhatnak ki, és még sok más.
Tehát mi az a szintetikus adat?
Ha a valódi adatkészletek minősége, száma vagy sokfélesége nem megfelelő, szintetikus adatok használhatók mesterséges intelligencia modellek betanításához valós történelmi adatok helyett.
Amikor a meglévő adatok nem felelnek meg az üzleti követelményeknek, vagy adatvédelmi kockázatokkal járnak, amikor fejlesztésre használják őket gépi tanulás modellek, tesztszoftverek vagy hasonlók, a szintetikus adatok jelentős eszközei lehetnek a vállalati mesterséges intelligencia erőfeszítéseinek.
Egyszerűen fogalmazva, a szintetikus adatokat gyakran használják a tényleges adatok helyett. Pontosabban olyan adatokról van szó, amelyeket mesterségesen jelöltek meg és szimulációkkal vagy számítógépes algoritmusokkal állítottak elő.
A szintetikus adatok olyan információk, amelyeket egy számítógépes program mesterségesen hozott létre, nem pedig tényleges események eredményeként. A vállalatok szintetikus adatokat adhatnak hozzá képzési adataikhoz, hogy lefedjék az összes használati és szélsőséges helyzetet, csökkentsék az adatgyűjtés költségeit, vagy megfeleljenek az adatvédelmi előírásoknak.
A mesterséges adatok most minden eddiginél jobban hozzáférhetők a feldolgozási teljesítmény és az adattárolási módszerek, például a felhő fejlesztésének köszönhetően. A szintetikus adatok javítják az AI-megoldások létrehozását, amelyek minden végfelhasználó számára előnyösebbek, és ez kétségtelenül jó fejlemény.
Mennyire fontosak a szintetikus adatok, és miért érdemes használni?
Az AI-modellek betanítása során a fejlesztőknek gyakran hatalmas, pontos címkézésű adatkészletekre van szükségük. Ha változatosabb adatokkal tanítják, neurális hálózatok pontosabban teljesíteni.
E hatalmas, több száz vagy akár millió elemet tartalmazó adatkészletek összegyűjtése és címkézése azonban indokolatlanul idő- és pénzigényes lehet. Az edzési adatok előállításának ára nagymértékben csökkenthető szintetikus adatok használatával. Például, ha mesterségesen hozták létre, egy edzéskép, amely 5 dollárba kerül, ha a adatcímkézési szolgáltató csak 0.05 dollárba kerülhet.
A szintetikus adatok enyhíthetik a való világból generált, potenciálisan érzékeny adatokkal kapcsolatos adatvédelmi aggályokat, miközben csökkentik a költségeket.
A valódi adatokhoz képest, amelyek nem tükrözik pontosan a való világ tényeinek teljes spektrumát, segíthet csökkenteni az előítéleteket. Azáltal, hogy olyan szokatlan eseményeket biztosítanak, amelyek elfogadható lehetőségeket képviselnek, de kihívást jelenthetnek a törvényes adatokból való kinyerése, a szintetikus adatok nagyobb sokszínűséget kínálnak.
A szintetikus adatok az alábbiakban felsorolt okok miatt kiválóan illeszkedhetnek projektjéhez:
1. A modell robusztussága
Anélkül, hogy meg kellene szereznie, változatosabb adatokhoz férhet hozzá modelljeihez. Szintetikus adatokkal kiképezheti modelljét ugyanazon személy különböző frizurával, arcszőrzetekkel, szemüveggel, fejpózokkal stb., valamint bőrtónussal, etnikai jellemzőkkel, csontszerkezettel, szeplőkkel és egyéb jellemzőkkel rendelkező változatai alapján, hogy egyedivé hozzon létre egyediséget. arcokat és erősítsd meg.
2. Az éles eseteket figyelembe veszik
Kiegyensúlyozott adatkészletet részesíti előnyben a gépi tanulás algoritmusok. Gondoljon vissza az arcfelismerés példájára. Modelljeik pontossága javult volna (sőt, néhány vállalkozás éppen ezt tette), és morálisabb modellt állítottak volna elő, ha sötétebb bőrű arcok szintetikus adatait állítottak volna elő adathiányok pótlására. A csapatok szintetikus adatok segítségével minden felhasználási esetet lefedhetnek, beleértve a szélsőséges eseteket is, amikor az adatok kevés vagy nem léteznek.
3. Gyorsabban beszerezhető, mint a „tényleges” adatok
A csapatok hatalmas mennyiségű szintetikus adatot tudnak gyorsan generálni. Ez különösen akkor hasznos, ha a valós adatok szórványos eseményektől függenek. Ritkaságuk miatt a csapatok nehezen juthatnak elegendő valós adathoz a súlyos útviszonyokról, miközben adatokat gyűjtenek egy önvezető autóról. A fáradságos annotálási folyamat felgyorsítása érdekében az adatkutatók olyan algoritmusokat állíthatnak fel, amelyek automatikusan felcímkézik a szintetikus adatokat, amint azok előállítása során keletkeznek.
4. Biztosítja a felhasználói adatvédelmi információkat
Az üzleti tevékenységtől és az adatok típusától függően a vállalatoknak biztonsági nehézségei lehetnek az érzékeny adatok kezelése során. A személyes egészségügyi információk (PHI) például gyakran szerepelnek a fekvőbeteg-adatok között az egészségügyi ágazatban, és ezeket a legnagyobb biztonsággal kell kezelni.
Mivel a szintetikus adatok nem tartalmaznak információkat a tényleges személyekről, csökkennek az adatvédelmi problémák. Fontolja meg a szintetikus adatok használatát alternatívaként, ha csapatának be kell tartania bizonyos adatvédelmi törvényeket.
Valós adatok vs szintetikus adatok
A valós világban valós adatokat nyernek vagy mérnek. Amikor valaki okostelefont, laptopot vagy számítógépet használ, karórát visel, weboldalra lép, vagy online tranzakciót hajt végre, az ilyen típusú adatok azonnal generálódnak.
Ezenkívül a felmérések felhasználhatók valódi adatok (online és offline) biztosítására. A digitális beállítások szintetikus adatokat állítanak elő. A nem valós eseményekből származó rész kivételével a szintetikus adatok úgy jönnek létre, hogy az alapvető tulajdonságok tekintetében sikeresen utánozzák a tényleges adatokat.
Az az ötlet, hogy szintetikus adatokat használjunk a tényleges adatok helyettesítésére, nagyon ígéretes, mivel ezek felhasználhatók a képzési adatok, amelyek a gépi tanulást modellek megkövetelik. De ez nem biztos mesterséges intelligencia meg tud oldani minden problémát, ami a valóságban felmerül.
Használati esetek
A szintetikus adatok különféle kereskedelmi célokra hasznosak, beleértve a modellképzést, a modellellenőrzést és az új termékek tesztelését. Felsorolunk néhány ágazatot, amelyek vezető szerepet játszottak a gépi tanulásban való alkalmazásában:
1. Egészségügy
Adatainak érzékenysége miatt az egészségügyi szektor alkalmas a szintetikus adatok felhasználására. A szintetikus adatok segítségével a csapatok minden létező beteg fiziológiáját rögzíthetik, így segítve a betegségek gyorsabb és pontosabb diagnosztizálását.
A Google melanoma-detektálási modellje érdekesen illusztrálja ezt, mivel sötétebb bőrtónusú emberek szintetikus adatait tartalmazza (a klinikai adatok sajnálatos módon alulreprezentált területe), hogy a modell minden bőrtípuson hatékonyan működjön.
2. Gépkocsik
Az önvezető autókat gyártó vállalatok gyakran használnak szimulátorokat a teljesítmény értékelésére. Ha például zord az időjárás, a valós útadatok gyűjtése kockázatos vagy nehézkes lehet.
Az utakon futó tényleges autókkal végzett élő tesztekre hagyatkozni általában nem jó ötlet, mivel túl sok változót kell figyelembe venni a különböző vezetési helyzetekben.
3. Az adatok hordozhatósága
Ahhoz, hogy a szervezetek meg tudják osztani képzési adataikat másokkal, megbízható és biztonságos módszerekre van szükségük. A személyazonosításra alkalmas adatok (PII) elrejtése az adatkészlet nyilvánossá tétele előtt a szintetikus adatok másik érdekes alkalmazása. A tudományos kutatási adatkészletek, orvosi adatok, szociológiai adatok és más olyan területek cseréjét, amelyek személyes adatot tartalmazhatnak, a magánélet védelmét megőrző szintetikus adatoknak nevezzük.
4. Biztonság
A szintetikus adatoknak köszönhetően a szervezetek nagyobb biztonságban vannak. Ami ismét az arcfelismerő példánkat illeti, ismerős lehet a „mély hamisítvány” kifejezés, amely koholt fotókat vagy videókat ír le. Mély hamisítványokat készíthetnek a vállalkozások saját arcfelismerő és biztonsági rendszereik tesztelésére. A szintetikus adatokat a videó megfigyelésben is használják a modellek gyorsabb és olcsóbb betanításához.
Szintetikus adatok és gépi tanulás
Egy szilárd és megbízható modell felépítéséhez a gépi tanulási algoritmusoknak jelentős mennyiségű adatot kell feldolgozniuk. Szintetikus adatok hiányában ilyen nagy mennyiségű adat előállítása kihívást jelentene.
Az olyan területeken, mint a számítógépes látás vagy a képfeldolgozás, ahol a modellek kidolgozását a korai szintetikus adatok fejlesztése segíti elő, rendkívül jelentős lehet. Új fejlemény a képfelismerés területén a Generatív Adversarial Networks (GAN) használata. Általában két hálózatból áll: egy generátorból és egy diszkriminátorból.
Míg a megkülönböztető hálózat célja, hogy elkülönítse a tényleges fényképeket a hamisoktól, a generátor hálózat olyan szintetikus képeket állít elő, amelyek sokkal jobban hasonlítanak a valós képekhez.
A gépi tanulásban a GAN-ok a neurális hálózatok családjának egy részhalmaza, ahol mindkét hálózat folyamatosan tanul és fejlődik új csomópontok és rétegek hozzáadásával.
Szintetikus adatok létrehozásakor lehetősége van a környezet és az adatok típusának módosítására a modell teljesítményének növelése érdekében. Míg a szintetikus adatok pontossága könnyen elérhető erős pontszámmal, a címkézett valós idejű adatok pontossága esetenként rendkívül költséges lehet.
Hogyan generálhat szintetikus adatokat?
A szintetikus adatgyűjtés létrehozásához használt megközelítések a következők:
A statisztikai eloszlás alapján
Az ebben az esetben alkalmazott stratégia az, hogy számokat veszünk az eloszlásból, vagy tényleges statisztikai eloszlásokat vizsgálunk, hogy összehasonlíthatónak tűnő hamis adatokat hozzunk létre. A valós adatok bizonyos körülmények között teljesen hiányozhatnak.
Az adattudós bármilyen eloszlás véletlenszerű mintáját tartalmazó adatkészletet generálhat, ha mélyen ismeri a tényleges adatok statisztikai eloszlását. A normál eloszlás, az exponenciális eloszlás, a khi-négyzet eloszlás, a lognormális eloszlás és egyebek csak néhány példa az erre használható statisztikai valószínűségi eloszlásokra.
Az adattudós tapasztalatainak szintje a helyzettel jelentős hatással lesz a képzett modell pontosságára.
Modelltől függően
Ez a technika olyan modellt épít fel, amely figyelembe veszi a megfigyelt viselkedést, mielőtt a modellt véletlenszerű adatok generálására használná. Lényegében ez magában foglalja a valós adatok illesztését egy ismert disztribúcióból származó adatokhoz. A Monte Carlo-i megközelítést ezután a vállalatok hamis adatok létrehozására használhatják.
Ezen kívül elosztások is felszerelhetők segítségével gépi tanulási modellek mint a döntési fák. Adattudósok Az előrejelzésre azonban figyelni kell, mivel a döntési fák egyszerűségük és mélységbővülésük miatt jellemzően túlillenek.
Mély tanulással
Mély tanulás A Variational Autoencoder (VAE) vagy a Generative Adversarial Network (GAN) modelleket használó modellek kétféle módon hozhatók létre szintetikus adatok. A felügyelt gépi tanulási modellek közé tartoznak a VAE-k.
Ezek kódolókból állnak, amelyek zsugorítják és tömörítik az eredeti adatokat, és dekóderekből, amelyek alaposan megvizsgálják ezeket az adatokat, hogy a valódi adatokat reprezentálják. A VAE alapvető célja, hogy a bemeneti és kimeneti adatok lehetőleg azonosak legyenek. Két ellentétes neurális hálózat a GAN modellek és az ellenséges hálózatok.
Az első hálózat, az úgynevezett generátorhálózat, a hamis adatok előállításáért felelős. A megkülönböztető hálózat, a második hálózat, úgy működik, hogy összehasonlítja a létrehozott szintetikus adatokat a tényleges adatokkal, hogy megállapítsa, hogy az adatkészlet csalárd-e. A diszkriminátor figyelmezteti a generátort, ha hamis adatkészletet fedez fel.
A diszkriminátornak biztosított alábbi adatköteget utólag módosítja a generátor. Ennek eredményeként a diszkriminátor idővel egyre jobban észleli a hamis adatkészleteket. Ezt a fajta modellt gyakran használják a pénzügyi szektorban a csalások felderítésére, valamint az egészségügyi szektorban az orvosi képalkotásra.
Az adatkiegészítés egy másik módszer, amelyet az adatkutatók több adat előállítására alkalmaznak. Nem szabad azonban összetéveszteni a hamis adatokkal. Leegyszerűsítve, az adatbővítés azt jelenti, hogy új adatokat adunk egy már létező eredeti adatkészlethez.
Több kép létrehozása egyetlen képből, például a tájolás, a fényerő, a nagyítás és egyebek beállításával. Néha a tényleges adatkészletet használják, és csak a személyes adatok maradnak meg. Ez az adatok anonimizálása, és az ilyen adatok halmaza szintén nem tekinthető szintetikus adatnak.
A szintetikus adatok kihívásai és korlátai
Bár a szintetikus adatoknak számos előnye van, amelyek segíthetik a cégeket az adattudományi tevékenységekben, bizonyos korlátai is vannak:
- Az adatok megbízhatósága: Köztudott, hogy minden gépi tanulási/mélytanulási modell csak annyira jó, amennyire be van táplálva. A szintetikus adatok minősége ebben az összefüggésben szorosan összefügg a bemeneti adatok minőségével és az adatok előállításához használt modellel. Nagyon fontos annak biztosítása, hogy a forrásadatokban ne legyenek torzítások, mivel ezek nagyon egyértelműen tükröződhetnek a szintetikus adatokban. Ezenkívül az előrejelzések elkészítése előtt meg kell erősíteni és ellenőrizni kell az adatok minőségét.
- Tudást, erőfeszítést és időt igényel: Bár a szintetikus adatok létrehozása egyszerűbb és olcsóbb lehet, mint a valódi adatok létrehozása, bizonyos ismereteket, időt és erőfeszítést igényel.
- Az anomáliák megismétlése: A valós adatok tökéletes másolata nem lehetséges; szintetikus adatok csak közelíteni tudják azt. Emiatt előfordulhat, hogy a valós adatokban előforduló kiugró értékeket nem fedik le szintetikus adatok. Az adatok anomáliái jelentősebbek, mint a tipikus adatok.
- A gyártás ellenőrzése és a minőség biztosítása: A szintetikus adatok valós adatok replikálására szolgálnak. Az adatok kézi ellenőrzése elengedhetetlenné válik. Alapvető fontosságú az adatok pontosságának ellenőrzése, mielőtt beépítené azokat a gépi tanulási/mélytanulási modellekbe az algoritmusok segítségével automatikusan létrehozott bonyolult adatkészletek esetében.
- Felhasználói visszajelzések: Mivel a szintetikus adatok újszerű fogalom, nem mindenki lesz hajlandó elhinni a velük készült előrejelzéseket. Ez azt jelzi, hogy a felhasználói elfogadhatóság növelése érdekében először a szintetikus adatok hasznosságának ismerete szükséges.
Jövő
A szintetikus adatok használata drámaian megnövekedett az elmúlt évtizedben. Bár időt és pénzt takarít meg a cégeknek, nem mentes a hátrányaitól. Hiányoznak belőle a kiugró értékek, amelyek természetesen előfordulnak a tényleges adatokban, és egyes modelleknél kritikusak a pontosság szempontjából.
Azt is érdemes megjegyezni, hogy a szintetikus adatok minősége gyakran a létrehozáshoz használt bemeneti adatoktól függ; A bemeneti adatok torzítása gyorsan átterjedhet a szintetikus adatokra, ezért nem szabad túlzásba vinni, ha jó minőségű adatokat választunk kiindulási pontként.
Végül további kimeneti vezérlésre van szüksége, beleértve a szintetikus adatok és az ember által jegyzett valós adatok összehasonlítását annak ellenőrzésére, hogy nincsenek-e eltérések. Ezen akadályok ellenére a szintetikus adatok továbbra is ígéretes terület.
Segít abban, hogy újszerű AI-megoldásokat hozzunk létre, még akkor is, ha a valós adatok nem állnak rendelkezésre. A leglényegesebb, hogy lehetővé teszi a vállalkozások számára, hogy olyan termékeket állítsanak elő, amelyek befogadóbbak, és jelzik végfelhasználóik sokszínűségét.
Az adatvezérelt jövőben azonban a szintetikus adatok célja, hogy segítsék az adatkutatókat olyan újszerű és kreatív feladatok elvégzésében, amelyeket a valós adatok birtokában nehéz lenne elvégezni.
Következtetés
Bizonyos esetekben a szintetikus adatok enyhíthetik az adathiányt vagy a releváns adatok hiányát egy vállalkozáson vagy szervezeten belül. Azt is megvizsgáltuk, hogy mely stratégiák segíthetik a szintetikus adatok előállítását, és kik profitálhatnak belőle.
Beszéltünk a szintetikus adatok kezelésével járó nehézségekről is. A kereskedelmi döntéshozatal során mindig a valós adatokat részesítik előnyben. Azonban a reális adatok a következő legjobb megoldás, ha az ilyen valódi nyers adatok nem hozzáférhetők elemzéshez.
Nem szabad azonban elfelejteni, hogy a szintetikus adatok előállításához olyan adattudósokra van szükség, akik jól ismerik az adatmodellezést. A valós adatok és környezetük alapos megértése is elengedhetetlen. Ez elengedhetetlen annak biztosításához, hogy a rendelkezésre álló adatok a lehető legpontosabbak legyenek.
Hagy egy Válaszol