Spiegazione dei dati sintetici - La prossima grande novità in AI, ML e DL

I programmi di analisi avanzata e apprendimento automatico sono alimentati dai dati, ma l'accesso a tali dati può essere difficile per gli accademici a causa delle sfide con la privacy e le procedure aziendali.

I dati sintetici, che possono essere condivisi e utilizzati in modi che i dati effettivi non possono, rappresentano una potenziale nuova direzione da perseguire. Tuttavia, questa nuova strategia non è esente da pericoli o svantaggi, quindi è fondamentale che le aziende valutino attentamente dove e come utilizzano le proprie risorse.

Nell'attuale era dell'IA, possiamo anche affermare che i dati sono il nuovo petrolio, ma solo pochi eletti sono seduti su un gusher. Pertanto, molte persone producono il proprio carburante, che è sia conveniente che efficiente. È noto come dati sintetici.

In questo post, daremo uno sguardo dettagliato ai dati sintetici: perché dovresti usarli, come produrli, cosa li rende diversi dai dati effettivi, quali casi d'uso possono servire e molto altro.

Allora, cosa sono i dati sintetici?

Quando i set di dati originali sono inadeguati in termini di qualità, numero o diversità, i dati sintetici possono essere utilizzati per addestrare modelli di intelligenza artificiale al posto dei dati storici reali.

Quando i dati esistenti non soddisfano i requisiti aziendali o presentano rischi per la privacy se utilizzati per lo sviluppo machine learning modelli, software di test o simili, i dati sintetici possono essere uno strumento significativo per gli sforzi aziendali di IA.

Detto semplicemente, i dati sintetici vengono spesso utilizzati al posto dei dati effettivi. Più precisamente, si tratta di dati che sono stati etichettati artificialmente e prodotti da simulazioni o algoritmi informatici.

Dati sintetici

I dati sintetici sono informazioni che sono state create artificialmente da un programma per computer piuttosto che come risultato di eventi reali. Le aziende possono aggiungere dati sintetici ai propri dati di formazione per coprire tutte le situazioni di utilizzo e edge, ridurre i costi di raccolta dei dati o soddisfare le normative sulla privacy.

I dati artificiali sono ora più accessibili che mai grazie ai miglioramenti nella potenza di elaborazione e nei metodi di archiviazione dei dati come il cloud. I dati sintetici migliorano la creazione di soluzioni di intelligenza artificiale che sono più vantaggiose per tutti gli utenti finali e questo è senza dubbio un buon sviluppo.

Quanto sono importanti i dati sintetici e perché dovresti usarli?

Quando si addestrano modelli di intelligenza artificiale, gli sviluppatori hanno spesso bisogno di enormi set di dati con un'etichettatura precisa. Quando viene insegnato con dati più vari, reti neurali eseguire in modo più accurato.

La raccolta e l'etichettatura di questi enormi set di dati contenenti centinaia o addirittura milioni di elementi, tuttavia, può richiedere irragionevolmente tempo e denaro. Il prezzo della produzione dei dati di addestramento può essere notevolmente ridotto utilizzando dati sintetici. Ad esempio, se creata artificialmente, un'immagine di allenamento che costa $ 5 se acquistata da a fornitore di etichettatura dati potrebbe costare solo $ 0.05.

I dati sintetici possono alleviare i problemi di privacy relativi a dati potenzialmente sensibili generati dal mondo reale riducendo al contempo le spese.

Rispetto ai dati autentici, che non potrebbero riflettere con precisione l'intero spettro di fatti sul mondo reale, potrebbero aiutare a ridurre i pregiudizi. Fornendo eventi insoliti che rappresentano possibilità plausibili ma possono essere difficili da ottenere da dati legittimi, i dati sintetici possono offrire una maggiore diversità.

I dati sintetici potrebbero essere una soluzione fantastica per il tuo progetto per i motivi elencati di seguito:

1. La robustezza del modello

Senza doverlo acquisire, accedi a dati più vari per i tuoi modelli. Con i dati sintetici, puoi addestrare il tuo modello utilizzando varianti della stessa persona con vari tagli di capelli, peli sul viso, occhiali, pose della testa, ecc., nonché tono della pelle, tratti etnici, struttura ossea, lentiggini e altre caratteristiche per generare volti e rafforzarlo.

2. Vengono presi in considerazione i casi limite

Un equilibrato il set di dati è preferito dall'apprendimento automatico algoritmi. Ripensa al nostro esempio di riconoscimento facciale. L'accuratezza dei loro modelli sarebbe migliorata (e in effetti, alcune di queste aziende hanno fatto proprio questo) e avrebbero prodotto un modello più morale se avessero prodotto dati sintetici di volti dalla pelle più scura per colmare le loro lacune nei dati. I team possono coprire tutti i casi d'uso, compresi i casi limite in cui i dati sono scarsi o inesistenti, con l'aiuto di dati sintetici.

3. Può essere ottenuto più rapidamente dei dati "effettivi".

I team sono in grado di generare rapidamente grandi quantità di dati sintetici. Ciò è particolarmente utile quando i dati della vita reale dipendono da eventi sporadici. I team potrebbero avere difficoltà a ottenere dati sufficienti dal mondo reale su condizioni stradali difficili durante la raccolta di dati per un'auto a guida autonoma, ad esempio, a causa della loro rarità. Per accelerare il laborioso processo di annotazione, i data scientist possono creare algoritmi per etichettare automaticamente i dati sintetici man mano che vengono generati.

4. Protegge le informazioni sulla privacy degli utenti

Le aziende possono incontrare difficoltà di sicurezza durante la gestione dei dati sensibili, a seconda dell'attività e del tipo di dati. Le informazioni sulla salute personale (PHI), ad esempio, sono spesso incluse nei dati dei pazienti ricoverati nel settore sanitario e devono essere gestite con la massima sicurezza.

Poiché i dati sintetici non includono informazioni su persone reali, i problemi di privacy sono ridotti. Considera l'utilizzo di dati sintetici come alternativa se il tuo team deve aderire a determinate leggi sulla privacy dei dati.

Dati reali vs dati sintetici

Nel mondo reale, i dati reali vengono ottenuti o misurati. Quando qualcuno utilizza uno smartphone, un laptop o un computer, indossa un orologio da polso, accede a un sito Web o effettua una transazione online, questo tipo di dati viene generato istantaneamente.

Inoltre, i sondaggi possono essere utilizzati per fornire dati autentici (online e offline). Le impostazioni digitali producono dati sintetici. Con l'eccezione della parte che non è stata derivata da alcun evento del mondo reale, i dati sintetici vengono creati in un modo che imita con successo i dati effettivi in termini di qualità fondamentali.

L'idea di utilizzare dati sintetici come sostituti dei dati reali è molto promettente poiché può essere utilizzata per fornire il dati di addestramento che l'apprendimento automatico richiedono i modelli. Ma non è detto che intelligenza artificiale può risolvere ogni problema che sorge nel mondo reale.

Utilizzo Tipico

I dati sintetici sono utili per una varietà di scopi commerciali, tra cui l'addestramento del modello, la convalida del modello e il test di nuovi prodotti. Elencheremo alcuni dei settori che hanno aperto la strada alla sua applicazione all'apprendimento automatico:

1. Assistenza Sanitaria

Data la sensibilità dei suoi dati, il settore sanitario si presta bene all'utilizzo di dati sintetici. I dati sintetici possono essere utilizzati dai team per registrare le fisiologie di ogni tipo di paziente che potrebbe esistere, aiutando così a una diagnosi più rapida e accurata delle malattie.

SANITARIETÀ

Il modello di rilevamento del melanoma di Google ne è un'interessante illustrazione poiché incorpora dati sintetici di persone con carnagioni più scure (un'area di dati clinici purtroppo sottorappresentata) per fornire al modello la capacità di funzionare efficacemente per tutti i tipi di pelle.

2. Vetture

I simulatori sono spesso utilizzati dalle aziende che creano automobili a guida autonoma per valutare le prestazioni. Quando il tempo è rigido, ad esempio, la raccolta di dati stradali reali potrebbe essere rischiosa o difficile.

Auto a guida autonoma

Fare affidamento su test dal vivo con automobili reali su strada non è generalmente una buona idea poiché ci sono troppe variabili da prendere in considerazione in tutte le diverse situazioni di guida.

3. Portabilità dei Dati

Per poter condividere i propri dati di formazione con altri, le organizzazioni richiedono metodi affidabili e sicuri. Nascondere le informazioni di identificazione personale (PII) prima di rendere pubblico il set di dati è un'altra interessante applicazione per i dati sintetici. Lo scambio di set di dati di ricerca scientifica, dati medici, dati sociologici e altri campi che potrebbero contenere PII sono indicati come dati sintetici di tutela della privacy.

4. Sicurezza

Le organizzazioni sono più sicure grazie ai dati sintetici. Riguardo al nostro esempio di riconoscimento facciale, potresti avere familiarità con la frase "falsi profondi", che descrive foto o video fabbricati. I falsi profondi possono essere prodotti dalle aziende per testare i propri sistemi di riconoscimento facciale e sicurezza. I dati sintetici vengono utilizzati anche nella videosorveglianza per addestrare i modelli più rapidamente ea un costo inferiore.

Dati sintetici e apprendimento automatico

Per costruire un modello solido e affidabile, gli algoritmi di machine learning necessitano di una quantità significativa di dati da elaborare. In assenza di dati sintetici, produrre un volume di dati così grande sarebbe difficile.

In domini come la visione artificiale o l'elaborazione di immagini, in cui lo sviluppo di modelli è facilitato dallo sviluppo di primi dati sintetici, può essere estremamente significativo. Un nuovo sviluppo nel campo del riconoscimento delle immagini è l'uso delle reti generative contraddittorio (GAN). Solitamente è costituito da due reti: un generatore e un discriminatore.

Mentre la rete dei discriminatori mira a separare le foto reali da quelle false, la rete del generatore funziona per produrre immagini sintetiche che sono notevolmente più simili alle immagini del mondo reale.

Nell'apprendimento automatico, i GAN sono un sottoinsieme della famiglia delle reti neurali, in cui entrambe le reti apprendono e si sviluppano continuamente aggiungendo nuovi nodi e livelli.

Quando si creano dati sintetici, è possibile modificare l'ambiente e il tipo di dati in base alle esigenze per migliorare le prestazioni del modello. Mentre l'accuratezza per i dati sintetici può essere facilmente ottenuta con un punteggio elevato, l'accuratezza per i dati in tempo reale etichettati può occasionalmente essere estremamente costosa.

Come puoi generare dati sintetici?

Gli approcci utilizzati per creare una raccolta di dati sintetici sono i seguenti:

Basato sulla distribuzione statistica

La strategia utilizzata in questo caso è prendere i numeri dalla distribuzione o guardare le distribuzioni statistiche effettive per creare dati falsi che sembrano comparabili. I dati reali possono essere completamente assenti in alcune circostanze.

Un data scientist può generare un set di dati contenente un campione casuale di qualsiasi distribuzione se ha una profonda conoscenza della distribuzione statistica nei dati effettivi. La distribuzione normale, la distribuzione esponenziale, la distribuzione chi-quadrato, la distribuzione lognormale e altro sono solo alcuni esempi di distribuzioni statistiche di probabilità che possono essere utilizzate per farlo.

Il livello di esperienza del data scientist con la situazione avrà un impatto significativo sull'accuratezza del modello addestrato.

A seconda del modello

Questa tecnica crea un modello che tiene conto del comportamento osservato prima di utilizzare quel modello per generare dati casuali. In sostanza, ciò comporta l'adattamento di dati reali ai dati di una distribuzione nota. L'approccio Monte Carlo può quindi essere utilizzato dalle aziende per creare dati falsi.

Inoltre, le distribuzioni possono anche essere montate utilizzando modelli di apprendimento automatico come alberi decisionali. Data scientist deve prestare attenzione alle previsioni, tuttavia, poiché gli alberi decisionali in genere si adattano in modo eccessivo a causa della loro semplicità e dell'espansione della profondità.

Con apprendimento profondo

Apprendimento approfondito i modelli che utilizzano un modello Variational Autoencoder (VAE) o Generative Adversarial Network (GAN) sono due modi per creare dati sintetici. I modelli di machine learning senza supervisione includono VAE.

Sono costituiti da codificatori, che riducono e compattano i dati originali, e decodificatori, che esaminano questi dati per fornire una rappresentazione dei dati reali. Mantenere i dati di input e output il più possibile identici è l'obiettivo fondamentale di un VAE. Due reti neurali opposte sono i modelli GAN e le reti contraddittorie.

La prima rete, nota come rete del generatore, è incaricata di produrre dati falsi. La rete discriminatore, la seconda rete, funziona confrontando i dati sintetici creati con i dati effettivi nel tentativo di identificare se il set di dati è fraudolento. Il discriminatore avverte il generatore quando scopre un set di dati fasullo.

Il successivo batch di dati fornito al discriminatore viene successivamente modificato dal generatore. Di conseguenza, il discriminatore migliora nel tempo nell'individuare set di dati fasulli. Questo tipo di modello è spesso utilizzato nel settore finanziario per il rilevamento delle frodi e nel settore sanitario per l'imaging medico.

L'aumento dei dati è un metodo diverso che i data scientist utilizzano per produrre più dati. Tuttavia, non dovrebbe essere confuso con dati falsi. Detto semplicemente, l'aumento dei dati è l'atto di aggiungere nuovi dati a un vero set di dati già esistente.

Creazione di più immagini da una singola immagine, ad esempio, regolando l'orientamento, la luminosità, l'ingrandimento e altro ancora. A volte, il set di dati effettivo viene utilizzato con solo le informazioni personali rimanenti. L'anonimizzazione dei dati è ciò che è, e allo stesso modo un insieme di tali dati non deve essere considerato come dati sintetici.

Sfide e limiti dei dati sintetici

Sebbene i dati sintetici presentino vari vantaggi che possono aiutare le aziende nelle attività di data science, presentano anche alcune limitazioni:

L'affidabilità dei dati: È risaputo che ogni modello di machine learning/deep learning è valido solo quanto i dati che riceve. La qualità dei dati sintetici in questo contesto è fortemente correlata alla qualità dei dati di input e al modello utilizzato per produrre i dati. È fondamentale garantire che non esistano distorsioni nei dati di origine, poiché questi possono essere rispecchiati molto chiaramente nei dati sintetici. Inoltre, prima di effettuare qualsiasi previsione, è opportuno confermare e verificare la qualità dei dati.
Richiede conoscenza, impegno e tempo: sebbene la creazione di dati sintetici possa essere più semplice e meno costosa rispetto alla creazione di dati autentici, è necessaria una certa conoscenza, tempo e impegno.
Replicare le anomalie: La replica perfetta dei dati del mondo reale non è possibile; i dati sintetici possono solo approssimarlo. Pertanto, alcuni valori anomali che esistono nei dati reali potrebbero non essere coperti da dati sintetici. Le anomalie dei dati sono più significative dei dati tipici.
Controllo della produzione e garanzia della qualità: i dati sintetici hanno lo scopo di replicare i dati del mondo reale. La verifica manuale dei dati diventa essenziale. È essenziale verificare l'accuratezza dei dati prima di incorporarli in modelli di machine learning/deep learning per set di dati complicati creati automaticamente utilizzando algoritmi.
Il feedback degli utenti: Poiché i dati sintetici sono un concetto nuovo, non tutti saranno pronti a credere alle previsioni fatte con essi. Ciò indica che al fine di aumentare l'accettabilità da parte dell'utente, è innanzitutto necessario aumentare la conoscenza dell'utilità dei dati sintetici.

Futuro

L'uso di dati sintetici è aumentato notevolmente nel decennio precedente. Sebbene faccia risparmiare tempo e denaro alle aziende, non è privo di inconvenienti. Manca di valori anomali, che si verificano naturalmente nei dati effettivi e sono fondamentali per l'accuratezza in alcuni modelli.

Vale anche la pena notare che la qualità dei dati sintetici dipende spesso dai dati di input utilizzati per la creazione; i pregiudizi nei dati di input possono diffondersi rapidamente nei dati sintetici, quindi la scelta di dati di alta qualità come punto di partenza non dovrebbe essere sopravvalutata.

Infine, necessita di un ulteriore controllo dell'output, incluso il confronto dei dati sintetici con i dati reali annotati dall'uomo per verificare che non vengano introdotte discrepanze. Nonostante questi ostacoli, i dati sintetici rimangono un campo promettente.

Ci aiuta a creare nuove soluzioni di intelligenza artificiale anche quando i dati del mondo reale non sono disponibili. Più significativamente, consente alle imprese di realizzare prodotti più inclusivi e indicativi della diversità dei consumatori finali.

Nel futuro basato sui dati, tuttavia, i dati sintetici intendono aiutare i data scientist a svolgere compiti nuovi e creativi che sarebbero difficili da completare con i soli dati del mondo reale.

Conclusione

In alcuni casi, i dati sintetici possono alleviare un deficit di dati o la mancanza di dati rilevanti all'interno di un'azienda o di un'organizzazione. Abbiamo anche esaminato quali strategie possono aiutare nella generazione di dati sintetici e chi può trarne profitto.

Abbiamo anche parlato di alcune delle difficoltà che derivano dalla gestione dei dati sintetici. Per le decisioni commerciali saranno sempre privilegiati i dati reali. Tuttavia, i dati realistici sono l'opzione migliore quando tali dati grezzi non sono accessibili per l'analisi.

Tuttavia, va ricordato che per produrre dati sintetici sono necessari data scientist con una solida conoscenza della modellazione dei dati. È inoltre essenziale una comprensione approfondita dei dati reali e dell'ambiente circostante. Ciò è essenziale per assicurarsi che, se disponibili, i dati prodotti siano il più accurati possibile.

Spiegazione dei dati sintetici: la prossima grande novità in AI, ML e DL

Allora, cosa sono i dati sintetici?