Explicació de les dades sintètiques: la propera gran cosa en IA, ML i DL

Els programes d'anàlisi avançada i d'aprenentatge automàtic estan impulsats per les dades, però l'accés a aquestes dades pot ser difícil per als acadèmics a causa dels problemes amb la privadesa i els procediments empresarials.

Les dades sintètiques, que es poden compartir i utilitzar de manera que les dades reals no, són una possible nova direcció a seguir. Tanmateix, aquesta nova estratègia no està exempta de perills o inconvenients, per la qual cosa és crucial que les empreses considerin acuradament on i com utilitzen els seus recursos.

En l'era actual de la IA, també podem afirmar que les dades són el nou oli, però només uns pocs es troben asseguts en un broix. Per tant, molta gent està produint el seu propi combustible, que és alhora assequible i eficient. Es coneix com a dades sintètiques.

En aquesta publicació, farem una visió detallada de les dades sintètiques: per què les hauríeu d'utilitzar, com produir-les, què les fa diferents de les dades reals, quins casos d'ús poden servir i molt més.

Aleshores, què són les dades sintètiques?

Quan els conjunts de dades genuïns són inadequats en termes de qualitat, nombre o diversitat, les dades sintètiques es poden utilitzar per entrenar models d'IA en lloc de dades històriques reals.

Quan les dades existents no compleixen els requisits empresarials o tenen riscos de privadesa quan s'utilitzen per desenvolupar-se màquina d'aprenentatge models, programari de prova o similars, les dades sintètiques poden ser una eina important per als esforços d'IA corporativa.

Dit simplement, sovint s'utilitzen dades sintètiques en lloc de dades reals. Més precisament, són dades que han estat etiquetades artificialment i produïdes per simulacions o algorismes informàtics.

Dades sintètiques

Les dades sintètiques són informació que ha estat creada per un programa informàtic de manera artificial i no com a resultat d'ocurrències reals. Les empreses poden afegir dades sintètiques a les seves dades de formació per cobrir totes les situacions d'ús i límit, reduir el cost de la recollida de dades o complir les normatives de privadesa.

Les dades artificials són ara més accessibles que mai gràcies a les millores en la potència de processament i als mètodes d'emmagatzematge de dades com el núvol. Les dades sintètiques milloren la creació de solucions d'IA que són més beneficioses per a tots els usuaris finals, i això és sens dubte un bon desenvolupament.

Com són importants les dades sintètiques i per què les hauríeu d'utilitzar?

Quan entrenen models d'IA, els desenvolupadors sovint necessiten grans conjunts de dades amb un etiquetatge precís. Quan s'ensenya amb dades més variades, xarxes neuronals actuar amb més precisió.

No obstant això, recollir i etiquetar aquests conjunts de dades massius que contenen centenars o fins i tot milions d'elements pot suposar un consum excessiu de temps i diners. El preu de la producció de dades d'entrenament es pot reduir molt utilitzant dades sintètiques. Per exemple, si es crea artificialment, una imatge d'entrenament que costa 5 dòlars quan es compra a un proveïdor d'etiquetatge de dades només podria costar 0.05 dòlars.

Les dades sintètiques poden alleujar els problemes de privadesa relacionats amb les dades potencialment sensibles generades del món real alhora que redueixen les despeses.

En comparació amb les dades genuïnes, que no podrien reflectir amb precisió l'espectre complet de fets sobre el món real, podria ajudar a reduir els prejudicis. En proporcionar fets inusuals que representen possibilitats plausibles però que pot ser difícil d'obtenir de dades legítimes, les dades sintètiques poden oferir una major diversitat.

Les dades sintètiques poden ser una opció fantàstica per al vostre projecte pels motius que s'indiquen a continuació:

1. La robustesa del model

Sense haver d'adquirir-lo, accedeix a dades més variades per als teus models. Amb dades sintètiques, podeu entrenar el vostre model utilitzant variants de la mateixa persona amb diversos talls de cabell, pèl facial, ulleres, postures del cap, etc., així com el to de la pell, trets ètnics, estructura òssia, pigues i altres característiques per generar característiques úniques. cara i enfortir-lo.

2. Es tenen en compte els casos Edge

Un equilibrat El conjunt de dades és preferit per l'aprenentatge automàtic algorismes. Penseu en el nostre exemple de reconeixement facial. La precisió dels seus models hauria millorat (i, de fet, algunes d'aquestes empreses ho van fer) i haurien produït un model més moral si haguessin produït dades sintètiques de cares de pell més fosca per omplir els buits de dades. Els equips poden cobrir tots els casos d'ús, inclosos els casos extrems on les dades són escasses o inexistents, amb l'ajuda de dades sintètiques.

3. Es pot obtenir més ràpidament que les dades "reals".

Els equips són capaços de generar grans quantitats de dades sintètiques ràpidament. Això és especialment útil quan les dades de la vida real depenen d'esdeveniments esporàdics. És possible que els equips tinguin dificultats per obtenir prou dades del món real sobre condicions greus de les carreteres mentre recullen dades per a un cotxe autònom, per exemple, a causa de la seva raresa. Per tal d'accelerar el laboriós procés d'anotació, els científics de dades poden crear algorismes per etiquetar automàticament les dades sintètiques a mesura que es generen.

4. Assegura la informació de privadesa dels usuaris

Les empreses poden tenir dificultats de seguretat mentre gestionen dades sensibles, depenent del negoci i del tipus de dades. La informació personal de salut (PHI), per exemple, s'inclou sovint a les dades de pacients hospitalitzats en el sector sanitari i s'ha de gestionar amb la màxima seguretat.

Com que les dades sintètiques no inclouen informació sobre persones reals, es redueixen els problemes de privadesa. Considereu l'ús de dades sintètiques com a alternativa si el vostre equip ha de complir determinades lleis de privadesa de dades.

Dades reals vs dades sintètiques

En el món real, s'obtenen o es mesuren dades reals. Quan algú utilitza un telèfon intel·ligent, un ordinador portàtil o un ordinador, porta un rellotge de polsera, accedeix a un lloc web o fa una transacció en línia, aquest tipus de dades es generen a l'instant.

A més, les enquestes es poden utilitzar per proporcionar dades genuïnes (en línia i fora de línia). La configuració digital produeix dades sintètiques. Amb l'excepció de la part que no es va derivar de cap esdeveniment del món real, les dades sintètiques es creen d'una manera que imiten amb èxit les dades reals en termes de qualitats fonamentals.

La idea d'utilitzar dades sintètiques com a substitut de les dades reals és molt prometedora, ja que es pot utilitzar per proporcionar el dades d'entrenament que l'aprenentatge automàtic els models requereixen. Però això no és segur intel·ligència artificial pot resoldre tots els problemes que sorgeixen en el món real.

Utilitza cases

Les dades sintètiques són útils per a diversos propòsits comercials, com ara la formació de models, la validació de models i les proves de nous productes. Enumerarem alguns dels sectors que han marcat el camí en la seva aplicació a l'aprenentatge automàtic:

1. salut

Donada la sensibilitat de les seves dades, el sector sanitari és molt adequat per a l'ús de dades sintètiques. Les dades sintètiques poden ser utilitzades pels equips per registrar les fisiologies de cada tipus de pacient que hi pugui haver, ajudant així a un diagnòstic més ràpid i precís de les malalties.

Salut

El model de detecció de melanoma de Google és una il·lustració intrigant d'això, ja que incorpora dades sintètiques de persones amb tons de pell més foscos (una àrea de dades clíniques que lamentablement està subrepresentada) per proporcionar al model la capacitat de funcionar eficaçment per a tot tipus de pell.

2. Automòbils

Les empreses que creen automòbils autònoms utilitzen sovint els simuladors per avaluar el rendiment. Quan el temps és dur, per exemple, recopilar dades reals de les carreteres pot ser arriscat o difícil.

Cotxe autònom

En general, confiar en proves en directe amb automòbils reals a les carreteres no és una bona idea, ja que hi ha massa variables per tenir en compte en totes les diferents situacions de conducció.

3. Portabilitat de les dades

Per poder compartir les seves dades de formació amb altres, les organitzacions necessiten mètodes fiables i segurs. Amagar la informació d'identificació personal (PII) abans de fer públic el conjunt de dades és una altra aplicació intrigant per a dades sintètiques. L'intercanvi de conjunts de dades de recerca científica, dades mèdiques, dades sociològiques i altres camps que podrien contenir PII s'anomenen dades sintètiques que preserven la privadesa.

4. Seguretat

Les organitzacions són més segures gràcies a les dades sintètiques. Pel que fa al nostre exemple de reconeixement facial, és possible que estigueu familiaritzat amb la frase "falsificacions profundes", que descriu fotos o vídeos fabricats. Les empreses poden produir falsificacions profundes per provar els seus propis sistemes de seguretat i reconeixement facial. Les dades sintètiques també s'utilitzen en videovigilància per entrenar models més ràpidament i a un cost més barat.

Dades sintètiques i aprenentatge automàtic

Per construir un model sòlid i fiable, els algorismes d'aprenentatge automàtic necessiten una quantitat important de dades per processar-se. En absència de dades sintètiques, produir un volum tan gran de dades seria un repte.

En dominis com la visió per computador o el processament d'imatges, on el desenvolupament de models es facilita pel desenvolupament de dades sintètiques primerenques, pot ser extremadament significatiu. Un nou desenvolupament en el camp del reconeixement d'imatges és l'ús de xarxes generatives adversàries (GAN). Normalment consta de dues xarxes: un generador i un discriminador.

Mentre que la xarxa discriminadora pretén separar les fotos reals de les falses, la xarxa del generador funciona per produir imatges sintètiques que són considerablement més semblants a les imatges del món real.

En l'aprenentatge automàtic, els GAN són un subconjunt de la família de xarxes neuronals, on ambdues xarxes aprenen i es desenvolupen contínuament afegint nous nodes i capes.

Quan creeu dades sintètiques, teniu l'opció de canviar l'entorn i el tipus de dades segons sigui necessari per millorar el rendiment del model. Tot i que la precisió de les dades sintètiques es pot aconseguir fàcilment amb una puntuació forta, la precisió de les dades en temps real etiquetades pot ser de vegades extremadament cara.

Com es poden generar dades sintètiques?

Els enfocaments utilitzats per crear una recollida de dades sintètica són els següents:

Basat en la distribució estadística

L'estratègia utilitzada en aquest cas és agafar números de la distribució o mirar distribucions estadístiques reals per tal de crear dades falses que semblin comparables. Les dades reals poden estar completament absents en algunes circumstàncies.

Un científic de dades pot generar un conjunt de dades que contingui una mostra aleatòria de qualsevol distribució si té una comprensió profunda de la distribució estadística de les dades reals. La distribució normal, la distribució exponencial, la distribució chi quadrat, la distribució lognormal i més són només alguns exemples de distribucions de probabilitat estadístiques que es poden utilitzar per fer-ho.

El nivell d'experiència del científic de dades amb la situació tindrà un impacte significatiu en la precisió del model entrenat.

Segons el model

Aquesta tècnica crea un model que té en compte el comportament observat abans d'utilitzar aquest model per generar dades aleatòries. En essència, això implica ajustar dades reals a dades d'una distribució coneguda. L'enfocament de Montecarlo pot ser utilitzat per les corporacions per crear dades falses.

A més, també es poden instal·lar distribucions mitjançant models d’aprenentatge automàtic com arbres de decisió. Científics de dades Cal prestar atenció a la previsió, però, ja que els arbres de decisió solen sobrepassar-se a causa de la seva senzillesa i expansió de profunditat.

Amb un aprenentatge profund

Aprenentatge profund Els models que utilitzen un codificador automàtic variacional (VAE) o models de xarxa adversària generativa (GAN) són dues maneres de crear dades sintètiques. Els models d'aprenentatge automàtic no supervisats inclouen VAE.

Estan formats per codificadors, que redueixen i compacten les dades originals, i descodificadors, que examinen aquestes dades per proporcionar una representació de les dades reals. Mantenir les dades d'entrada i de sortida tan idèntiques com sigui possible és l'objectiu bàsic d'un VAE. Dues xarxes neuronals oposades són els models GAN i les xarxes adversàries.

La primera xarxa, coneguda com a xarxa generadora, s'encarrega de produir dades falses. La xarxa discriminadora, la segona xarxa, funciona comparant les dades sintètiques creades amb les dades reals en un esforç per identificar si el conjunt de dades és fraudulent. El discriminador alerta el generador quan descobreix un conjunt de dades fals.

El següent lot de dades proporcionat al discriminador és modificat posteriorment pel generador. Com a resultat, el discriminador millora amb el temps en detectar conjunts de dades falsos. Aquest tipus de model s'utilitza amb freqüència en el sector financer per a la detecció de fraus, així com en el sector sanitari per a la imatge mèdica.

L'augment de dades és un mètode diferent que utilitzen els científics de dades per produir més dades. Tanmateix, no s'ha de confondre amb dades falses. Dit simplement, l'augment de dades és l'acte d'afegir dades noves a un conjunt de dades genuí que ja existeix.

Creació de diverses imatges a partir d'una sola imatge, per exemple, ajustant l'orientació, la brillantor, l'ampliació i molt més. De vegades, el conjunt de dades real s'utilitza amb només la informació personal restant. L'anonimització de dades és el que és, i un conjunt d'aquestes dades tampoc s'ha de considerar dades sintètiques.

Reptes i limitacions de les dades sintètiques

Tot i que les dades sintètiques tenen diversos avantatges que poden ajudar les empreses amb activitats de ciència de dades, també tenen certes limitacions:

Fiabilitat de les dades: És conegut que cada model d'aprenentatge automàtic/aprenentatge profund només és tan bo com les dades que s'alimenten. La qualitat de les dades sintètiques en aquest context està fortament relacionada amb la qualitat de les dades d'entrada i el model utilitzat per produir les dades. És fonamental assegurar-se que no existeixen biaixos a les dades font, ja que es poden reflectir molt clarament a les dades sintètiques. A més, abans de fer cap previsió, s'ha de confirmar i verificar la qualitat de les dades.
Requereix coneixement, esforç i temps: Tot i que crear dades sintètiques podria ser més senzill i menys costós que crear dades genuïnes, necessita una mica de coneixement, temps i esforç.
Replicar anomalies: La rèplica perfecta de dades del món real no és possible; Les dades sintètiques només ho poden aproximar. Per tant, alguns valors atípics que existeixen a les dades reals poden no estar coberts per dades sintètiques. Les anomalies de dades són més significatives que les dades típiques.
Controlar la producció i garantir la qualitat: Les dades sintètiques estan pensades per replicar dades del món real. La verificació manual de dades esdevé essencial. És essencial verificar la precisió de les dades abans d'incorporar-les als models d'aprenentatge automàtic/aprenentatge profund per a conjunts de dades complicats creats automàticament mitjançant algorismes.
Comentaris dels usuaris: Com que les dades sintètiques són un concepte nou, no tothom estarà disposat a creure les previsions fetes amb ella. Això indica que per augmentar l'acceptabilitat dels usuaris, primer cal augmentar el coneixement de la utilitat de les dades sintètiques.

Futur

L'ús de dades sintètiques ha augmentat dràsticament en la dècada anterior. Tot i que estalvia temps i diners a les empreses, no està exempt dels seus inconvenients. No té valors atípics, que es produeixen de manera natural a les dades reals i són crítics per a la precisió en alguns models.

També val la pena assenyalar que la qualitat de les dades sintètiques sovint depèn de les dades d'entrada utilitzades per a la creació; els biaixos en les dades d'entrada es poden estendre ràpidament a les dades sintètiques, per la qual cosa no s'hauria d'exagerar escollir dades d'alta qualitat com a punt de partida.

Finalment, necessita un control addicional de la sortida, inclosa la comparació de les dades sintètiques amb les dades reals anotades per humans per verificar que no s'introdueixen discrepàncies. Malgrat aquests obstacles, les dades sintètiques segueixen sent un camp prometedor.

Ens ajuda a crear noves solucions d'IA fins i tot quan les dades del món real no estan disponibles. El més important és que permet a les empreses crear productes més inclusius i indicatius de la diversitat dels seus consumidors finals.

En el futur basat en dades, però, les dades sintètiques pretenen ajudar els científics de dades a realitzar tasques noves i creatives que seria difícil de completar només amb dades del món real.

Conclusió

En determinats casos, les dades sintètiques poden alleujar un dèficit de dades o la manca de dades rellevants dins d'una empresa o organització. També vam analitzar quines estratègies poden ajudar en la generació de dades sintètiques i qui se'n pot beneficiar.

També hem parlat d'algunes de les dificultats que comporta el tractament de dades sintètiques. Per a la presa de decisions comercials, sempre es veuran afavorides les dades reals. Tanmateix, les dades realistes són la següent millor opció quan aquestes dades en brut reals no són accessibles per analitzar-les.

Tanmateix, cal recordar que per produir dades sintètiques, es necessiten científics de dades amb un coneixement sòlid del modelatge de dades. També és essencial una comprensió completa de les dades reals i del seu entorn. Això és essencial per assegurar-se que, si estan disponibles, les dades produïdes siguin tan precises com sigui possible.

Explicació de les dades sintètiques: la propera gran cosa en IA, ML i DL

Aleshores, què són les dades sintètiques?