Vysvětlení syntetických dat – další velká věc v AI, ML a DL

Pokročilé programy analýzy a strojového učení jsou poháněny daty, ale přístup k těmto datům může být pro akademiky obtížný kvůli problémům s ochranou soukromí a obchodními postupy.

Syntetická data, která lze sdílet a využívat způsobem, jakým to skutečná data nedokážou, jsou potenciálním novým směrem. Tato nová strategie však není bez nebezpečí a nevýhod, proto je důležité, aby podniky pečlivě zvážily, kde a jak své zdroje použijí.

V současné době AI můžeme také konstatovat, že data jsou novou ropou, ale jen pár vyvolených sedí na gejzíru. Mnoho lidí si proto vyrábí vlastní palivo, které je cenově dostupné a efektivní. To je známé jako syntetická data.

V tomto příspěvku se podrobně podíváme na syntetická data – proč byste je měli používat, jak je vytvářet, čím se liší od skutečných dat, k jakým případům použití mohou sloužit a mnoho dalšího.

Co jsou tedy syntetická data?

Pokud jsou originální soubory dat nedostačující z hlediska kvality, počtu nebo rozmanitosti, lze k trénování modelů umělé inteligence namísto skutečných historických dat použít syntetická data.

Když existující data nesplňují obchodní požadavky nebo mají rizika ochrany soukromí, když jsou využívána k vývoji strojové učení modely, testovací software nebo podobně, syntetická data mohou být významným nástrojem pro podnikové snahy o AI.

Jednoduše řečeno, syntetická data se často používají místo skutečných dat. Přesněji jde o data, která byla uměle označena a vytvořena pomocí simulací nebo počítačových algoritmů.

Syntetická data

Syntetická data jsou informace, které byly vytvořeny počítačovým programem uměle, spíše než jako výsledek skutečných událostí. Společnosti mohou ke svým školicím datům přidávat syntetická data, aby pokryla všechny situace využití a okrajové situace, snížila náklady na shromažďování dat nebo splnila předpisy na ochranu soukromí.

Umělá data jsou nyní dostupnější než kdy jindy díky vylepšení výkonu zpracování a metod ukládání dat, jako je cloud. Syntetická data zlepšují vytváření řešení AI, která jsou výhodnější pro všechny koncové uživatele, a to je nepochybně dobrý vývoj.

Jak jsou syntetická data důležitá a proč byste je měli používat?

Při trénování modelů umělé inteligence vývojáři často potřebují obrovské datové sady s přesným označením. Když se učí s rozmanitějšími údaji, neuronové sítě provádět přesněji.

Shromažďování a označování těchto masivních souborů dat obsahujících stovky nebo dokonce miliony položek však může být nepřiměřeně časově a finančně náročné. Cena za vytváření tréninkových dat může být výrazně snížena použitím syntetických dat. Například, pokud je vytvořen uměle, tréninkový obrázek, který stojí 5 $ při nákupu od a poskytovatel datových štítků může stát pouze 0.05 $.

Syntetická data mohou zmírnit obavy o soukromí související s potenciálně citlivými daty generovanými ze skutečného světa a zároveň snížit náklady.

Ve srovnání se skutečnými daty, která nemohla přesně odrážet celé spektrum faktů o skutečném světě, by to mohlo pomoci snížit předsudky. Poskytnutím neobvyklých jevů, které představují věrohodné možnosti, ale může být obtížné získat z legitimních dat, mohou syntetická data nabídnout větší rozmanitost.

Syntetická data mohou být pro váš projekt fantasticky vhodná z důvodů uvedených níže:

1. Robustnost modelu

Aniž byste je museli získávat, získejte přístup k rozmanitějším datům pro své modely. Pomocí syntetických dat můžete trénovat svůj model pomocí variant stejné osoby s různými účesy, vousy na obličeji, brýlemi, pozicemi hlavy atd., stejně jako odstínem pleti, etnickými rysy, strukturou kostí, pihami a dalšími charakteristikami, abyste vytvořili jedinečné obličeje a posílit ji.

2. Jsou zohledněny okrajové případy

Vyvážený datovou sadu preferuje strojové učení algoritmy. Vzpomeňte si na náš příklad rozpoznávání obličeje. Přesnost jejich modelů by se zlepšila (a ve skutečnosti některé z těchto podniků právě toto udělaly) a vytvořili by morálnější model, kdyby vytvořili syntetická data tváří tmavší pleti, aby zaplnila mezery v datech. Týmy mohou pokrýt všechny případy použití, včetně okrajových případů, kdy jsou data vzácná nebo neexistují, pomocí syntetických dat.

3. Lze je získat rychleji než „skutečná“ data

Týmy jsou schopny rychle generovat obrovské množství syntetických dat. To je zvláště užitečné, když reálná data závisí na sporadických událostech. Pro týmy může být obtížné získat dostatek reálných dat o náročných podmínkách na silnicích při shromažďování dat například pro samořídící auto kvůli jejich vzácnosti. Aby se urychlil pracný anotační proces, mohou datoví vědci sestavit algoritmy, které automaticky označí syntetická data při jejich vytváření.

4. Zabezpečuje informace o soukromí uživatelů

Společnosti mohou mít problémy se zabezpečením při manipulaci s citlivými údaji v závislosti na podnikání a druhu dat. Osobní zdravotní informace (PHI) jsou například často součástí údajů o hospitalizovaných pacientech ve zdravotnictví a musí se s nimi nakládat s maximální bezpečností.

Vzhledem k tomu, že syntetická data neobsahují informace o skutečných lidech, problémy s ochranou soukromí jsou menší. Zvažte použití syntetických dat jako alternativy, pokud váš tým musí dodržovat určité zákony na ochranu osobních údajů.

Skutečná data vs syntetická data

V reálném světě se získávají nebo měří reálná data. Když někdo používá chytrý telefon, notebook nebo počítač, nosí náramkové hodinky, přistupuje na webovou stránku nebo provádí online transakci, tento typ dat se generuje okamžitě.

Kromě toho lze průzkumy použít k poskytování skutečných dat (online i offline). Digitální nastavení vytváří syntetická data. S výjimkou části, která nebyla odvozena z žádných událostí v reálném světě, jsou syntetická data vytvořena způsobem, který úspěšně napodobuje skutečná data z hlediska základních kvalit.

Myšlenka použití syntetických dat jako náhrady skutečných dat je velmi slibná, protože ji lze použít k poskytnutí dat trénovací data strojového učení modely vyžadují. Ale jisté to není umělá inteligence dokáže vyřešit každý problém, který se ve skutečném světě objeví.

Případy užití

Syntetická data jsou užitečná pro různé komerční účely, včetně školení modelů, ověřování modelů a testování nových produktů. Uvedeme několik sektorů, které vedly v jeho aplikaci ke strojovému učení:

1. Zdravotnictví

Vzhledem k citlivosti svých dat je sektor zdravotnictví vhodný pro použití syntetických dat. Syntetická data mohou týmy používat k zaznamenávání fyziologie každého druhu pacienta, který může existovat, a napomáhat tak rychlejší a přesnější diagnostice nemocí.

Zdravotní péče

Model detekce melanomu společnosti Google je toho zajímavým příkladem, protože zahrnuje syntetická data lidí s tmavším odstínem pleti (oblast klinických dat, která je bohužel nedostatečně zastoupena), aby model mohl efektivně fungovat pro všechny typy pleti.

2. Osobní automobily

Simulátory často používají společnosti vyrábějící samořídící automobily k hodnocení výkonu. Když je například drsné počasí, shromažďování skutečných údajů o silnicích může být riskantní nebo obtížné.

Samořiditelné auto

Spoléhat se na živé testy se skutečnými automobily na silnicích obecně není dobrý nápad, protože existuje příliš mnoho proměnných, které nelze vzít v úvahu ve všech různých jízdních situacích.

3. Přenositelnost dat

Aby organizace mohly sdílet svá školicí data s ostatními, potřebují důvěryhodné a bezpečné metody. Skrytí osobních údajů (PII) před zveřejněním datové sady je další zajímavou aplikací pro syntetická data. Výměna vědeckých výzkumných datových souborů, lékařských dat, sociologických dat a dalších oblastí, které by mohly obsahovat PII, se označují jako syntetická data zachovávající soukromí.

4. Bezpečnostní

Organizace jsou bezpečnější díky syntetickým datům. Pokud jde o náš příklad rozpoznávání obličeje, možná vám je známá fráze „hluboké padělky“, která popisuje vyrobené fotografie nebo videa. Firmy mohou vyrábět hluboké padělky, aby otestovaly své vlastní systémy rozpoznávání obličeje a zabezpečení. Syntetická data se také používají ve video dohledu k rychlejšímu a levnějšímu výcviku modelů.

Syntetická data a strojové učení

K vytvoření spolehlivého a důvěryhodného modelu potřebují algoritmy strojového učení značné množství dat ke zpracování. Při absenci syntetických dat by bylo vytváření tak velkého objemu dat náročné.

V oblastech, jako je počítačové vidění nebo zpracování obrazu, kde je vývoj modelů usnadněn vývojem raných syntetických dat, může být extrémně významný. Novinkou v oblasti rozpoznávání obrázků je použití generativních adverzních sítí (GAN). Obvykle se skládá ze dvou sítí: generátoru a diskriminátoru.

Zatímco síť diskriminátorů se snaží oddělit skutečné fotografie od falešných, síť generátorů funguje tak, aby produkovala syntetické obrázky, které jsou podstatně podobnější obrázkům ze skutečného světa.

Ve strojovém učení jsou GAN podmnožinou rodiny neuronových sítí, kde se obě sítě neustále učí a vyvíjejí přidáváním nových uzlů a vrstev.

Při vytváření syntetických dat máte možnost změnit prostředí a typ dat podle potřeby, abyste zvýšili výkon modelu. Zatímco přesnosti syntetických dat lze snadno dosáhnout se silným skóre, přesnost označených dat v reálném čase může být občas extrémně drahá.

Jak můžete generovat syntetická data?

Přístupy použité k vytvoření syntetického sběru dat jsou následující:

Na základě statistického rozdělení

Strategie použitá v tomto případě je vzít čísla z distribuce nebo se podívat na skutečné statistické distribuce, aby se vytvořila falešná data, která vypadají srovnatelně. Reálná data mohou za určitých okolností zcela chybět.

Datový vědec může generovat datovou sadu obsahující náhodný vzorek libovolné distribuce, pokud má hluboké znalosti o statistické distribuci ve skutečných datech. Normální rozdělení, exponenciální rozdělení, chí-kvadrát rozdělení, lognormální rozdělení a další jsou jen některé příklady statistických rozdělení pravděpodobnosti, které lze k tomu použít.

Úroveň zkušeností datového vědce se situací bude mít významný dopad na přesnost trénovaného modelu.

V závislosti na modelu

Tato technika vytváří model, který zohledňuje pozorované chování před použitím tohoto modelu ke generování náhodných dat. V podstatě to zahrnuje přizpůsobení skutečných dat datům ze známé distribuce. Přístup Monte Carlo pak mohou korporace využít k vytváření falešných dat.

Kromě toho lze rozvody osadit i pomocí modely strojového učení jako rozhodovací stromy. Datoví vědci musí však věnovat pozornost předpovědi, protože rozhodovací stromy obvykle přerůstají kvůli své jednoduchosti a hloubkové expanzi.

S hlubokým učením

Hluboké učení modely, které používají Variational Autoencoder (VAE) nebo modely Generative Adversarial Network (GAN), jsou dva způsoby, jak vytvořit syntetická data. Modely strojového učení bez dozoru zahrnují VAE.

Skládají se z kodérů, které zmenšují a komprimují původní data, a dekodérů, které tato data zkoumají, aby poskytly reprezentaci skutečných dat. Základním cílem VAE je udržovat vstupní a výstupní data co nejtotožnější. Dvě protilehlé neuronové sítě jsou GAN modely a protichůdné sítě.

První síť, známá jako generátorová síť, má na starosti produkci falešných dat. Diskriminační síť, druhá síť, funguje tak, že porovnává vytvořená syntetická data se skutečnými daty ve snaze zjistit, zda je soubor dat podvodný. Diskriminátor upozorní generátor, když objeví falešnou datovou sadu.

Následující dávka dat poskytovaná diskriminátoru je následně modifikována generátorem. Výsledkem je, že diskriminátor se postupem času zlepšuje v odhalování falešných datových sad. Tento druh modelu se často používá ve finančním sektoru pro odhalování podvodů i ve zdravotnictví pro lékařské zobrazování.

Data Augmentation je odlišná metoda, kterou datoví vědci používají k vytváření více dat. Nemělo by se však zaměňovat s falešnými údaji. Jednoduše řečeno, augmentace dat je akt přidání nových dat do skutečné datové sady, která již existuje.

Vytvoření několika obrázků z jednoho obrázku, například úpravou orientace, jasu, zvětšení a dalších. Někdy se používá skutečná datová sada a zbývají pouze osobní údaje. Anonymizace dat je to, o co jde, a soubor takových dat rovněž nelze považovat za syntetická data.

Výzvy a omezení syntetických dat

Přestože syntetická data mají různé výhody, které mohou firmám pomoci s aktivitami v oblasti datové vědy, mají také určitá omezení:

Spolehlivost dat: Je všeobecně známo, že každý model strojového učení/hlubokého učení je jen tak dobrý, jak dobrá jsou data, která jsou do něj vkládána. Kvalita syntetických dat v tomto kontextu silně souvisí s kvalitou vstupních dat a modelu použitého k vytvoření dat. Je důležité zajistit, aby ve zdrojových datech neexistovaly žádné zkreslení, protože ty mohou být velmi jasně zrcadleny v syntetických datech. Kromě toho by před provedením jakýchkoli prognóz měla být potvrzena a ověřena kvalita dat.
Vyžaduje znalosti, úsilí a čas: I když vytváření syntetických dat může být jednodušší a levnější než vytváření skutečných dat, vyžaduje určité znalosti, čas a úsilí.
Replikace anomálií: Dokonalá replika reálných dat není možná; syntetická data jej mohou pouze přiblížit. Proto některé odlehlé hodnoty, které existují v reálných datech, nemusí být pokryty syntetickými daty. Datové anomálie jsou významnější než typická data.
Kontrola výroby a zajištění kvality: Syntetická data jsou určena k replikaci skutečných dat. Manuální ověření dat se stává nezbytností. Je nezbytné ověřit přesnost dat před jejich začleněním do modelů strojového učení/hlubokého učení pro komplikované datové sady vytvářené automaticky pomocí algoritmů.
Zpětná vazba: Vzhledem k tomu, že syntetická data jsou novým konceptem, ne každý bude připraven věřit prognózám vytvořeným pomocí nich. To naznačuje, že pro zvýšení uživatelské přijatelnosti je nejprve nutné zvýšit znalosti o užitečnosti syntetických dat.

Budoucnost

Použití syntetických dat se v předchozím desetiletí dramaticky zvýšilo. I když společnostem šetří čas a peníze, není bez nevýhod. Postrádá odlehlé hodnoty, které se přirozeně vyskytují ve skutečných datech a jsou kritické pro přesnost některých modelů.

Za zmínku také stojí, že kvalita syntetických dat často závisí na vstupních datech použitých k vytvoření; zkreslení ve vstupních datech se může rychle rozšířit do syntetických dat, takže výběr vysoce kvalitních dat jako výchozího bodu by neměl být přeháněn.

Konečně potřebuje další výstupní kontrolu, včetně porovnání syntetických dat se skutečnými daty anotovanými lidmi, aby se ověřilo, že nejsou zavedeny nesrovnalosti. Navzdory těmto překážkám zůstávají syntetická data slibným oborem.

Pomáhá nám vytvářet nová řešení umělé inteligence, i když reálná data nejsou dostupná. Především umožňuje podnikům vytvářet produkty, které jsou inkluzivnější a svědčí o rozmanitosti jejich koncových spotřebitelů.

V budoucnosti založené na datech však mají syntetická data v úmyslu pomoci datovým vědcům provádět nové a kreativní úkoly, které by bylo náročné dokončit pouze s daty z reálného světa.

Proč investovat do čističky vzduchu?

V určitých případech mohou syntetická data zmírnit datový deficit nebo nedostatek relevantních dat uvnitř podniku nebo organizace. Podívali jsme se také na to, které strategie mohou pomoci při generování syntetických dat a kdo z nich může profitovat.

Mluvili jsme také o některých obtížích, které přináší práce se syntetickými daty. Pro komerční rozhodování budou vždy upřednostňována skutečná data. Realistická data jsou však další nejlepší možností, když taková skutečná nezpracovaná data nejsou dostupná pro analýzu.

Je však třeba pamatovat na to, že k vytvoření syntetických dat jsou zapotřebí datoví vědci se solidní znalostí datového modelování. Nezbytné je také důkladné porozumění skutečným datům a jejich okolí. To je nezbytné pro zajištění toho, že jsou-li k dispozici, vytvořená data jsou co nejpřesnější.

Vysvětlení syntetických dat – další velká věc v AI, ML a DL

Co jsou tedy syntetická data?