Obsah[Skrýt][Ukázat]
Výzkumníci a datoví vědci se často setkávají s okolnostmi, kdy buď nemají skutečná data, nebo je nemohou použít z důvodu důvěrnosti nebo ochrany soukromí.
K vyřešení tohoto problému se používá syntetická produkce dat k výrobě náhrady za pravá data.
Aby algoritmus správně fungoval, je nutná vhodná náhrada pravých dat, která by také měla mít realistický charakter. Taková data můžete použít pro zachování soukromí, testování systémů nebo vytváření tréninkových dat pro algoritmy strojového učení.
Pojďme podrobně prozkoumat generování syntetických dat a zjistit, proč jsou ve věku umělé inteligence životně důležitá.
Co jsou to syntetická data?
Syntetická data jsou anotovaná data generovaná počítačovými simulacemi nebo algoritmy jako náhrada za data z reálného světa. Jedná se o umělou inteligenci generovanou repliku skutečných dat.
Je možné použít datové vzory a dimenze pomocí pokročilých algoritmů AI. Mohou vytvářet neomezené množství syntetických dat, která jsou statisticky reprezentativní pro původní tréninková data, jakmile jsou trénováni.
Existuje celá řada přístupů a technologií, které nám mohou pomoci vytvořit syntetická data a které můžete použít v různých aplikacích.
Software pro generování dat často vyžaduje:
- Metadata datového úložiště, pro které musí být vytvořena syntetická data.
- Technika pro generování věrohodných, ale fiktivních hodnot. Příklady zahrnují seznamy hodnot a regulární výrazy.
- Komplexní povědomí o všech vztazích dat, deklarovaných na úrovni databáze i řízených na úrovni aplikačního kódu.
Stejně tak je nutné model validovat a porovnat behaviorální aspekty reálných dat s těmi, které generuje model.
Tyto fiktivní datové sady mají veškerou hodnotu skutečné věci, ale žádnou z citlivých dat. Je to jako lahodný dort bez kalorií. Přesně zobrazuje skutečný svět.
Díky tomu jej můžete použít k nahrazení reálných dat.
Význam syntetických dat
Syntetická data mají vlastnosti, které vyhovují určitým požadavkům nebo situacím, které by jinak nebyly v reálných datech dostupné. Když je nedostatek dat pro testování nebo když je soukromí nejdůležitější, přichází na řadu záchrana.
Datové sady generované umělou inteligencí jsou přizpůsobitelné, bezpečné a snadno se ukládají, vyměňují a likvidují. Technika syntézy dat je vhodná pro podmnožinu a vylepšení původních dat.
V důsledku toho je ideální pro použití jako testovací data a tréninková data AI.
- Naučit Uber založený na ML a Samořídící automobily Tesla.
- V lékařském a zdravotnickém průmyslu k posouzení konkrétních nemocí a okolností, pro které neexistují skutečné údaje.
- Odhalování a ochrana podvodů jsou ve finančním sektoru zásadní. Jeho používáním můžete prošetřit nové podvodné případy.
- Amazon trénuje jazykový systém Alexy pomocí syntetických dat.
- American Express používá syntetická finanční data ke zlepšení odhalování podvodů.
Typy syntetických dat
Syntetická data jsou vytvářena náhodně se záměrem utajit citlivé soukromé informace a zároveň zachovat statistické informace o charakteristikách v původních datech.
Jedná se především o tři typy:
- Plně syntetická data
- Částečně syntetická data
- Hybridní syntetická data
1. Plně syntetická data
Tato data jsou výhradně generována a neobsahují žádná původní data.
Generátor dat pro tento druh obvykle identifikuje funkce hustoty prvků v reálných datech a odhadne jejich parametry. Později se z funkcí předpokládané hustoty náhodně pro každý prvek vytvoří série chráněné proti soukromí.
Pokud je vybráno pouze několik charakteristik skutečných dat, které jimi mají být nahrazeny, chráněné řady těchto prvků jsou mapovány na zbývající prvky skutečných dat, aby se chráněné a skutečné řady seřadily ve stejném pořadí.
Techniky bootstrap a vícenásobné imputace jsou dvě tradiční metody pro vytváření zcela syntetických dat.
Vzhledem k tomu, že data jsou zcela syntetická a neexistují žádná skutečná data, tato strategie poskytuje vynikající ochranu soukromí se spoléháním na pravdivost dat.
2. Částečně syntetická data
Tato data používají pouze syntetické hodnoty k nahrazení hodnot několika citlivých prvků.
V této situaci se skutečné hodnoty změní pouze v případě, že existuje značné nebezpečí expozice. Tato změna se provádí za účelem ochrany soukromí čerstvě vytvořených dat.
K vytvoření částečně syntetických dat se používá vícenásobná imputace a přístupy založené na modelu. Tyto metody lze také použít k doplnění chybějících hodnot v datech z reálného světa.
3. Hybridní syntetická data
Hybridní syntetická data zahrnují skutečná i falešná data.
Pro každý náhodný záznam skutečných dat je v něm vybrán téměř záznam a tyto dva jsou pak spojeny za účelem generování hybridních dat. Má výhody jak zcela syntetických, tak částečně syntetických dat.
Nabízí proto silné zachování soukromí s vysokou užitečností ve srovnání s ostatními dvěma, ale za cenu větší paměti a doby zpracování.
Techniky generování syntetických dat
Po mnoho let je populární koncept strojově vytvořených dat. Nyní dozrává.
Zde jsou některé z technik používaných k vytváření syntetických dat:
1. Na základě distribuce
V případě, že neexistují žádná skutečná data, ale analytik dat má důkladnou představu o tom, jak by distribuce datové sady vypadala; mohou vytvořit náhodný vzorek libovolné distribuce, včetně normálního, exponenciálního, chí-kvadrát, t, lognormálního a jednotného.
Hodnota syntetických dat v této metodě se liší v závislosti na úrovni analytikových znalostí o určitém datovém prostředí.
2. Reálná data do známé distribuce
Podniky jej mohou vytvořit identifikací nejvhodnějších distribucí pro daná skutečná data, pokud existují skutečná data.
Podniky mohou k jeho výrobě použít přístup Monte Carlo, pokud chtějí vložit skutečná data do známé distribuce a znát distribuční parametry.
Ačkoli přístup Monte Carlo může podnikům pomoci najít největší dostupnou shodu, ta nejlepší nemusí být dostatečně použitelná pro potřeby společnosti syntetická data.
Firmy by mohly prozkoumat využití modelů strojového učení, které by vyhovovaly distribucím za těchto okolností.
Techniky strojového učení, jako jsou rozhodovací stromy, umožňují organizacím modelovat neklasické distribuce, které mohou být multimodální a postrádat společné vlastnosti uznávaných distribucí.
Podniky mohou produkovat syntetická data, která se připojují ke skutečným datům pomocí této distribuce přizpůsobené strojovému učení.
Nicméně, modely strojového učení jsou náchylné k nadměrnému přizpůsobení, což způsobuje, že nedokážou odpovídat čerstvým datům nebo předpovídat budoucí pozorování.
3. Hluboké učení
Hluboké generativní modely jako Variational Autoencoder (VAE) a Generative Adversarial Network (GAN) mohou produkovat syntetická data.
Variační automatický kodér
VAE je přístup bez dozoru, ve kterém kodér komprimuje původní datovou sadu a posílá data do dekodéru.
Dekodér pak vytváří výstup, který je reprezentací původní datové sady.
Výuka systému zahrnuje maximalizaci korelace mezi vstupními a výstupními daty.
Generativní protivníková síť
Model GAN iterativně trénuje model pomocí dvou sítí, generátoru a diskriminátoru.
Generátor vytvoří syntetickou datovou sadu ze sady náhodných vzorových dat.
Discriminator porovnává synteticky vytvořená data s reálnou datovou sadou pomocí předem definovaných podmínek.
Poskytovatelé syntetických dat
Strukturovaná data
Níže uvedené platformy poskytují syntetická data odvozená z tabulkových dat.
Replikuje data z reálného světa uchovávaná v tabulkách a může být použita pro behaviorální, prediktivní nebo transakční analýzu.
- Instilujte AI: Je poskytovatelem systému pro vytváření syntetických dat, který využívá generativní adversariální sítě a diferenciální soukromí.
- Lepší data: Je poskytovatelem řešení syntetických dat pro AI, sdílení dat a vývoj produktů, které chrání soukromí.
- Divepale: Je poskytovatelem Geminai, systému pro vytváření „dvojitých“ datových sad se stejnými statistickými vlastnostmi jako původní data.
Nestrukturovaná data
Níže uvedené platformy pracují s nestrukturovanými daty a poskytují syntetické datové zboží a služby pro trénování vizí a průzkumných algoritmů.
- Datagen: Poskytuje 3D simulovaná tréninková data pro výuku a vývoj vizuální AI.
- Neurolabs: Neurolabs je poskytovatelem syntetické datové platformy pro počítačové vidění.
- Paralelní doména: Je poskytovatelem syntetické datové platformy pro školení autonomních systémů a testovací případy použití.
- Švagrová: Je dodavatelem simulací pro ADAS a vývojáře autonomních vozidel.
- Bifrost: Poskytuje rozhraní API pro syntetická data pro vytváření 3D prostředí.
Výzvy
Má dlouhou historii v Umělá inteligencea přestože má mnoho výhod, má také významné nevýhody, které musíte řešit při práci se syntetickými daty.
Tady jsou některé z nich:
- Při kopírování složitosti ze skutečných dat do syntetických dat může být mnoho chyb.
- Jeho tvárná povaha vede k předsudkům v jeho chování.
- Ve výkonu algoritmů trénovaných pomocí zjednodušených reprezentací syntetických dat, které se nedávno objevily při práci se skutečnými daty, mohou být některé skryté nedostatky.
- Replikace všech relevantních atributů z reálných dat může být komplikovaná. Je také možné, že některé podstatné aspekty mohou být během této operace přehlédnuty.
Proč investovat do čističky vzduchu?
Produkce syntetických dat jednoznačně přitahuje pozornost lidí.
Tato metoda nemusí být univerzální odpovědí pro všechny případy generování dat.
Kromě toho může tato technika vyžadovat inteligenci prostřednictvím AI/ML a být schopna zvládnout složité situace v reálném světě vytváření vzájemně souvisejících dat, ideálně dat vhodných pro určitou doménu.
Nicméně jde o inovativní technologii, která zaplňuje mezeru tam, kde ostatní technologie umožňující soukromí zaostávají.
Dnes syntetické produkce dat může vyžadovat koexistenci maskování dat.
V budoucnu může dojít k větší konvergenci mezi těmito dvěma, což povede ke komplexnějšímu řešení pro generování dat.
Podělte se o své názory v komentářích!
Napsat komentář