Vysvetlenie syntetických údajov – ďalšia veľká vec v oblasti AI, ML a DL

Pokročilé analytické programy a programy strojového učenia sú poháňané údajmi, ale prístup k týmto údajom môže byť pre akademikov náročný z dôvodu problémov s ochranou súkromia a obchodnými postupmi.

Syntetické údaje, ktoré možno zdieľať a využívať spôsobmi, ktoré skutočné údaje nedokážu, predstavujú potenciálny nový smer, ktorým sa treba uberať. Táto nová stratégia však nie je bez nebezpečenstiev alebo nevýhod, preto je dôležité, aby podniky dôkladne zvážili, kde a ako využívajú svoje zdroje.

V súčasnej ére AI môžeme tiež konštatovať, že dáta sú novou ropou, ale len pár vyvolených sedí na gýčovi. Preto veľa ľudí vyrába vlastné palivo, ktoré je cenovo dostupné a zároveň efektívne. Je známy ako syntetické dáta.

V tomto príspevku sa podrobne pozrieme na syntetické údaje – prečo by ste ich mali používať, ako ich vytvárať, čím sa líšia od skutočných údajov, akým prípadom použitia môžu slúžiť a oveľa viac.

Čo sú teda syntetické údaje?

Ak sú originálne súbory údajov neadekvátne z hľadiska kvality, počtu alebo rozmanitosti, na trénovanie modelov AI sa namiesto skutočných historických údajov môžu použiť syntetické údaje.

Keď existujúce údaje nespĺňajú obchodné požiadavky alebo ak sa používajú na vývoj, majú riziko ochrany osobných údajov strojové učenie modely, testovací softvér alebo podobne, syntetické dáta môžu byť významným nástrojom pre podnikové snahy o AI.

Jednoducho povedané, syntetické údaje sa často používajú namiesto skutočných údajov. Presnejšie povedané, ide o údaje, ktoré boli umelo označené a vytvorené simuláciami alebo počítačovými algoritmami.

Syntetické údaje

Syntetické údaje sú informácie, ktoré boli vytvorené počítačovým programom umelo a nie ako výsledok skutočných udalostí. Spoločnosti môžu k svojim školiacim údajom pridať syntetické údaje, aby pokryli všetky situácie používania a okrajové situácie, znížili náklady na zhromažďovanie údajov alebo splnili predpisy o ochrane osobných údajov.

Umelé dáta sú teraz dostupnejšie ako kedykoľvek predtým vďaka zlepšeniu výkonu spracovania a metód ukladania dát, ako je cloud. Syntetické dáta zlepšujú vytváranie riešení AI, ktoré sú výhodnejšie pre všetkých koncových používateľov, a to je nepochybne dobrý vývoj.

Aké dôležité sú syntetické údaje a prečo by ste ich mali používať?

Pri trénovaní modelov AI vývojári často potrebujú obrovské súbory údajov s presným označením. Keď sa učí s rozmanitejšími údajmi, neurálne siete vykonávať presnejšie.

Zhromažďovanie a označovanie týchto masívnych súborov údajov obsahujúcich stovky alebo dokonca milióny položiek však môže byť neprimerane časovo a finančne náročné. Cena vytvárania tréningových dát môže byť výrazne znížená použitím syntetických dát. Napríklad, ak je vytvorený umelo, tréningový obrázok, ktorý stojí 5 USD pri kúpe od a poskytovateľa označovania údajov môže stáť len 0.05 dolára.

Syntetické údaje môžu zmierniť obavy o súkromie súvisiace s potenciálne citlivými údajmi generovanými zo skutočného sveta a zároveň znížiť náklady.

V porovnaní so skutočnými údajmi, ktoré nedokázali presne odzrkadľovať celé spektrum faktov o skutočnom svete, by to mohlo pomôcť znížiť predsudky. Poskytnutím nezvyčajných udalostí, ktoré predstavujú pravdepodobné možnosti, ale ich získanie z legitímnych údajov môže byť náročné, môžu syntetické údaje ponúknuť väčšiu rozmanitosť.

Syntetické údaje by sa mohli skvele hodiť pre váš projekt z dôvodov uvedených nižšie:

1. Robustnosť modelu

Bez toho, aby ste ich museli získavať, získate prístup k rôznorodejším údajom pre svoje modely. So syntetickými údajmi môžete svoj model trénovať pomocou variantov tej istej osoby s rôznymi účesmi, ochlpením na tvári, okuliarmi, pózami hlavy atď., ako aj odtieňom pleti, etnickými črtami, štruktúrou kostí, pehami a ďalšími charakteristikami, aby ste vytvorili jedinečné tváre a posilniť ju.

2. Zohľadňujú sa okrajové prípady

Vyvážený množinu údajov uprednostňuje strojové učenie algoritmy. Spomeňte si na náš príklad rozpoznávania tváre. Presnosť ich modelov by sa zlepšila (a v skutočnosti niektoré z týchto podnikov urobili práve toto) a vytvorili by morálnejší model, keby vytvorili syntetické údaje tvárí tmavšej pleti, aby vyplnili medzery v údajoch. Tímy môžu pomocou syntetických údajov pokryť všetky prípady použitia vrátane okrajových prípadov, keď sú údaje vzácne alebo neexistujú.

3. Dá sa získať rýchlejšie ako „skutočné“ údaje

Tímy sú schopné rýchlo generovať obrovské množstvo syntetických údajov. To je užitočné najmä vtedy, keď skutočné údaje závisia od sporadických udalostí. Pre tímy môže byť ťažké získať dostatok skutočných údajov o ťažkých podmienkach na cestách, napríklad pri zhromažďovaní údajov pre samoriadiace auto, a to z dôvodu ich vzácnosti. Aby sa urýchlil namáhavý proces anotácie, vedci údajov môžu zostaviť algoritmy na automatické označovanie syntetických údajov pri ich generovaní.

4. Zabezpečuje informácie o súkromí používateľov

Spoločnosti môžu mať problémy so zabezpečením pri manipulácii s citlivými údajmi v závislosti od podnikania a druhu údajov. Osobné zdravotné informácie (PHI) sú napríklad často súčasťou údajov o hospitalizovaných pacientoch v odvetví zdravotnej starostlivosti a musí sa s nimi nakladať s maximálnou bezpečnosťou.

Keďže syntetické údaje neobsahujú informácie o skutočných ľuďoch, problémy so súkromím sú menšie. Zvážte použitie syntetických údajov ako alternatívy, ak váš tím musí dodržiavať určité zákony o ochrane osobných údajov.

Skutočné údaje vs syntetické údaje

V reálnom svete sa získavajú alebo merajú reálne údaje. Keď niekto používa smartfón, laptop alebo počítač, nosí náramkové hodinky, pristupuje na webovú stránku alebo uskutočňuje online transakciu, tento typ údajov sa generuje okamžite.

Okrem toho možno prieskumy použiť na poskytovanie skutočných údajov (online aj offline). Digitálne nastavenia vytvárajú syntetické údaje. S výnimkou časti, ktorá nebola odvodená zo žiadnych udalostí z reálneho sveta, sú syntetické údaje vytvorené spôsobom, ktorý úspešne napodobňuje skutočné údaje z hľadiska základných kvalít.

Myšlienka použitia syntetických údajov ako náhrady skutočných údajov je veľmi sľubná, pretože sa dá použiť na poskytovanie údajov tréningové údaje, ktoré strojové učenie modely vyžadujú. Ale to nie je isté umelá inteligencia dokáže vyriešiť každý problém, ktorý v skutočnom svete nastane.

Prípady použitia

Syntetické údaje sú užitočné na rôzne komerčné účely vrátane školenia modelov, overovania modelov a testovania nových produktov. Uvedieme niekoľko sektorov, ktoré viedli k jeho aplikácii na strojové učenie:

1. Zdravotníctvo

Vzhľadom na citlivosť údajov je sektor zdravotníctva vhodný na použitie syntetických údajov. Syntetické údaje môžu tímy použiť na zaznamenanie fyziológie každého druhu pacienta, ktorý môže existovať, a tým pomôcť pri rýchlejšej a presnejšej diagnostike chorôb.

Zdravotná starostlivosť

Model detekcie melanómu od spoločnosti Google je toho zaujímavým príkladom, pretože zahŕňa syntetické údaje o ľuďoch s tmavším odtieňom pleti (oblasť klinických údajov, ktorá je, žiaľ, nedostatočne zastúpená), aby model mohol efektívne fungovať pre všetky typy pleti.

2. osobné automobily

Simulátory často používajú spoločnosti vyrábajúce samoriadiace automobily na hodnotenie výkonu. Keď je napríklad drsné počasie, zhromažďovanie skutočných údajov o ceste môže byť riskantné alebo náročné.

Samoriadiace auto

Spoliehať sa na živé testy so skutočnými automobilmi na cestách vo všeobecnosti nie je dobrý nápad, pretože existuje príliš veľa premenných, ktoré treba brať do úvahy vo všetkých rôznych jazdných situáciách.

3. Prenosnosť údajov

Aby organizácie mohli zdieľať svoje školiace údaje s ostatnými, potrebujú dôveryhodné a bezpečné metódy. Skrytie osobných identifikačných informácií (PII) pred zverejnením súboru údajov je ďalšou zaujímavou aplikáciou pre syntetické údaje. Výmena súborov údajov z vedeckého výskumu, lekárskych údajov, sociologických údajov a iných oblastí, ktoré by mohli obsahovať PII, sa označuje ako syntetické údaje na ochranu súkromia.

4. Zabezpečenie

Organizácie sú bezpečnejšie vďaka syntetickým údajom. Pokiaľ ide o náš príklad rozpoznávania tváre, možno vám je známa fráza „hlboké falzifikáty“, ktorá opisuje vyrobené fotografie alebo videá. Firmy môžu vyrábať hlboké falzifikáty na testovanie vlastných systémov rozpoznávania tváre a zabezpečenia. Syntetické dáta sa používajú aj pri video monitorovaní na rýchlejšie a lacnejšie trénovanie modelov.

Syntetické dáta a strojové učenie

Na vytvorenie spoľahlivého a dôveryhodného modelu potrebujú algoritmy strojového učenia značné množstvo údajov na spracovanie. Pri absencii syntetických údajov by bolo vytváranie takého veľkého objemu údajov náročné.

V oblastiach, ako je počítačové videnie alebo spracovanie obrazu, kde vývoj modelov uľahčuje vývoj skorých syntetických údajov, môže byť mimoriadne významný. Novým vývojom v oblasti rozpoznávania obrázkov je použitie generatívnych adverzných sietí (GAN). Zvyčajne pozostáva z dvoch sietí: generátora a diskriminátora.

Zatiaľ čo sieť diskriminátorov má za cieľ oddeliť skutočné fotografie od falošných, sieť generátorov funguje tak, aby vytvárala syntetické obrázky, ktoré sú podstatne viac podobné obrázkom zo skutočného sveta.

V strojovom učení sú GAN podmnožinou rodiny neurónových sietí, kde sa obe siete neustále učia a vyvíjajú pridávaním nových uzlov a vrstiev.

Pri vytváraní syntetických údajov máte možnosť zmeniť prostredie a typ údajov podľa potreby na zvýšenie výkonu modelu. Zatiaľ čo presnosť syntetických údajov možno ľahko dosiahnuť vysokým skóre, presnosť označených údajov v reálnom čase môže byť niekedy extrémne drahá.

Ako môžete generovať syntetické údaje?

Na vytvorenie syntetického zberu údajov sa používajú tieto prístupy:

Na základe štatistického rozdelenia

Stratégia použitá v tomto prípade je brať čísla z distribúcie alebo sa pozrieť na skutočné štatistické distribúcie, aby sa vytvorili falošné údaje, ktoré vyzerajú porovnateľne. Skutočné údaje môžu za určitých okolností úplne chýbať.

Dátový vedec môže vytvoriť súbor údajov obsahujúci náhodnú vzorku akéhokoľvek rozdelenia, ak má hlboké znalosti o štatistickom rozdelení skutočných údajov. Normálne rozdelenie, exponenciálne rozdelenie, chí-kvadrát rozdelenie, lognormálne rozdelenie a ďalšie sú len niekoľkými príkladmi štatistického rozdelenia pravdepodobnosti, ktoré možno na tento účel použiť.

Úroveň skúseností vedcov so situáciou bude mať významný vplyv na presnosť trénovaného modelu.

V závislosti od modelu

Táto technika vytvára model, ktorý zohľadňuje pozorované správanie pred použitím tohto modelu na generovanie náhodných údajov. V podstate ide o prispôsobenie skutočných údajov údajom zo známej distribúcie. Prístup Monte Carlo potom môžu korporácie použiť na vytváranie falošných údajov.

Okrem toho je možné rozvody osadiť aj pomocou modely strojového učenia ako rozhodovacie stromy. Vedci údajov musia však venovať pozornosť predpovedi, pretože rozhodovacie stromy zvyčajne prerastajú kvôli ich jednoduchosti a hĺbkovej expanzii.

S hlbokým učením

Hlboké učenie modely, ktoré používajú variačný automatický kódovač (VAE) alebo modely generatívnej adverznej siete (GAN), predstavujú dva spôsoby vytvárania syntetických údajov. Modely strojového učenia bez dozoru zahŕňajú VAE.

Skladajú sa z kódovačov, ktoré zmenšujú a komprimujú pôvodné dáta, a dekodérov, ktoré tieto dáta skúmajú, aby poskytli reprezentáciu skutočných dát. Základným cieľom VAE je udržiavať vstupné a výstupné dáta čo najtotožnejšie. Dve protichodné neurónové siete sú GAN modely a protichodné siete.

Prvá sieť, známa ako sieť generátorov, má na starosti produkciu falošných údajov. Diskriminačná sieť, druhá sieť, funguje porovnaním vytvorených syntetických údajov so skutočnými údajmi v snahe zistiť, či je súbor údajov podvodný. Diskriminátor upozorní generátor, keď objaví falošný súbor údajov.

Nasledujúca dávka údajov poskytnutých diskriminátoru je následne modifikovaná generátorom. Výsledkom je, že diskriminátor sa časom zlepšuje v odhaľovaní falošných súborov údajov. Tento druh modelu sa často používa vo finančnom sektore na odhaľovanie podvodov, ako aj v zdravotníctve na lekárske zobrazovanie.

Data Augmentation je iná metóda, ktorú vedci využívajú na vytváranie väčšieho množstva údajov. Nemalo by sa to však mýliť s falošnými údajmi. Jednoducho povedané, rozšírenie údajov je akt pridávania nových údajov do skutočnej množiny údajov, ktorá už existuje.

Vytváranie niekoľkých obrázkov z jedného obrázka, napríklad úpravou orientácie, jasu, zväčšenia a podobne. Niekedy sa používa skutočný súbor údajov, pričom zostávajú iba osobné informácie. Ide o anonymizáciu údajov a súbor takýchto údajov by sa tiež nemal považovať za syntetické údaje.

Výzvy a obmedzenia syntetických údajov

Hoci syntetické údaje majú rôzne výhody, ktoré môžu firmám pomôcť s aktivitami v oblasti vedy o údajoch, majú aj určité obmedzenia:

Spoľahlivosť údajov: Je všeobecne známe, že každý model strojového učenia/hĺbkového učenia je len taký dobrý, aké dobré sú údaje, ktoré obsahuje. Kvalita syntetických údajov v tomto kontexte silne súvisí s kvalitou vstupných údajov a modelu použitého na vytvorenie údajov. Je dôležité zabezpečiť, aby v zdrojových údajoch neexistovali žiadne odchýlky, pretože tieto môžu byť veľmi jasne odzrkadlené v syntetických údajoch. Pred vykonaním akýchkoľvek prognóz by sa navyše mala potvrdiť a overiť kvalita údajov.
Vyžaduje si znalosti, úsilie a čas: Hoci vytváranie syntetických údajov môže byť jednoduchšie a lacnejšie ako vytváranie skutočných údajov, vyžaduje si určité znalosti, čas a úsilie.
Replikovanie anomálií: Dokonalá replika údajov z reálneho sveta nie je možná; syntetické údaje ho môžu len priblížiť. Preto niektoré odľahlé hodnoty, ktoré existujú v reálnych údajoch, nemusia byť pokryté syntetickými údajmi. Anomálie údajov sú významnejšie ako typické údaje.
Kontrola výroby a zabezpečenie kvality: Syntetické údaje sú určené na replikáciu údajov z reálneho sveta. Manuálne overenie údajov sa stáva nevyhnutným. Je nevyhnutné overiť presnosť údajov pred ich začlenením do modelov strojového učenia/hĺbkového učenia pre komplikované súbory údajov vytvorené automaticky pomocou algoritmov.
Spätná väzba: Keďže syntetické údaje sú novým konceptom, nie každý bude pripravený uveriť prognózam, ktoré sa na základe nich vytvoria. To naznačuje, že na zvýšenie používateľskej prijateľnosti je najprv potrebné zvýšiť znalosti o užitočnosti syntetických údajov.

Budúcnosť

Používanie syntetických údajov sa v predchádzajúcom desaťročí dramaticky zvýšilo. Hoci firmám šetrí čas a peniaze, nie je bez nevýhod. Chýbajú mu odľahlé hodnoty, ktoré sa prirodzene vyskytujú v skutočných údajoch a sú rozhodujúce pre presnosť v niektorých modeloch.

Za zmienku tiež stojí, že kvalita syntetických údajov často závisí od vstupných údajov použitých na vytvorenie; odchýlky vo vstupných údajoch sa môžu rýchlo rozšíriť do syntetických údajov, takže výber vysokokvalitných údajov ako východiskového bodu by sa nemal preháňať.

Nakoniec potrebuje ďalšiu výstupnú kontrolu vrátane porovnania syntetických údajov so skutočnými údajmi anotovanými ľuďmi, aby sa overilo, že sa nezavádzajú nezrovnalosti. Napriek týmto prekážkam zostávajú syntetické údaje sľubnou oblasťou.

Pomáha nám vytvárať nové riešenia AI, aj keď nie sú dostupné údaje z reálneho sveta. Najdôležitejšie je, že umožňuje podnikom vytvárať produkty, ktoré sú inkluzívnejšie a svedčia o rozmanitosti ich koncových spotrebiteľov.

V budúcnosti založenej na údajoch však majú syntetické údaje v úmysle pomôcť vedcom údajov vykonávať nové a kreatívne úlohy, ktoré by bolo náročné dokončiť len s údajmi z reálneho sveta.

záver

V určitých prípadoch môžu syntetické údaje zmierniť dátový deficit alebo nedostatok relevantných údajov v rámci podniku alebo organizácie. Tiež sme sa pozreli na to, ktoré stratégie môžu pomôcť pri generovaní syntetických údajov a kto z nich môže profitovať.

Hovorili sme aj o niektorých ťažkostiach, ktoré so sebou prináša práca so syntetickými údajmi. Pri komerčnom rozhodovaní budú vždy uprednostňované skutočné údaje. Realistické údaje sú však ďalšou najlepšou možnosťou, keď takéto skutočné nespracované údaje nie sú dostupné na analýzu.

Je však potrebné pamätať na to, že na vytvorenie syntetických údajov sú potrební dátoví vedci so solídnymi znalosťami modelovania údajov. Nevyhnutné je aj dôkladné pochopenie skutočných údajov a ich okolia. Je to nevyhnutné, aby sa zabezpečilo, že vytvorené údaje sú čo najpresnejšie, ak sú k dispozícii.

Vysvetlenie syntetických údajov – ďalšia veľká vec v oblasti AI, ML a DL

Čo sú teda syntetické údaje?