Augmentarea datelor: esențială pentru modelele de învățare automată

Cuprins[Ascunde][Spectacol]

Deci, ce este creșterea datelor?
La ce folosește creșterea datelor în prezent?
Tipuri de creștere a datelor+-
- Mărirea datelor reale
- Mărirea datelor sintetice
Tehnici de creștere a datelor+-
Utilizare caz
Provocări
Concluzie

Majoritatea modelelor de învățare automată și de învățare profundă se bazează în mare măsură pe cantitatea și varietatea datelor pentru a funcționa bine. Volumul și diversitatea datelor furnizate în timpul antrenamentului au un impact semnificativ asupra acurateței predicției acestor modele.

Modelele de învățare profundă care au fost învățate să funcționeze eficient în sarcini complicate includ frecvent neuroni ascunși. Numărul de parametri antrenabili crește în funcție de numărul de neuroni ascunși.

Cantitatea de date necesară este proporțională cu numărul de parametri care pot fi învățați pe model. O metodă de a trata dificultatea datelor limitate este aplicarea unei varietăți de transformări datelor curente pentru a sintetiza date noi.

Tehnica de sinteză a datelor noi din datele existente este denumită „Data Augmentation”. Mărirea datelor poate fi utilizată pentru a îndeplini ambele cerințe: volumul de date și varietatea datelor de antrenament necesare pentru a dezvolta o precizie. modele de învățare automată sau de învățare profundă.

În această postare, ne vom uita îndeaproape la creșterea datelor, tipurile acesteia, de ce este esențială și multe altele.

Deci, ce este creșterea datelor?

Augmentarea datelor este procesul de dezvoltare a datelor noi și reprezentative din datele existente. Puteți realiza acest lucru incluzând versiuni modificate ale datelor existente sau sintetizând date noi.

Seturile de date produse prin această metodă vă vor îmbunătăți învățarea automată sau modele de învățare profundă prin reducerea la minimum a riscului de supraadaptare. Este procesul de schimbare sau „augmentare” a unui set de date cu informații suplimentare.

Această intrare suplimentară poate varia de la imagini la text și crește performanța sistemelor de învățare automată.

Să presupunem că vrem să construim un model pentru a clasifica rasele de câini și că avem un număr mare de fotografii de toate soiurile, cu excepția pugilor. Ca urmare, modelul ar avea dificultăți în clasificarea pugilor.

Am putea adăuga fotografii suplimentare (reale sau false) de pug la colecție sau ne-am putea dubla fotografiile actuale de pug (de exemplu, replicând și distorsionându-le pentru a le face unice artificial).

La ce folosește creșterea datelor în prezent?

Cererile pentru masina de învățare se dezvoltă și se diversifică rapid, în special în domeniul învățării profunde. Provocările cu care se confruntă industria inteligenței artificiale pot fi depășite prin tehnici de creștere a datelor.

Mărirea datelor poate îmbunătăți performanța și rezultatele modelelor de învățare automată prin adăugarea de exemple noi și diverse la seturile de date de instruire.

Când setul de date este mare și suficient, un model de învățare automată are performanțe mai bune și este mai precis. Pentru modelele de învățare automată, colectarea și etichetarea datelor pot fi consumatoare de timp și costisitoare.

Companiile își pot reduce costurile operaționale schimbând seturile de date și utilizând strategii de creștere a datelor.

Curățarea datelor este una dintre etapele dezvoltării unui model de date și este esențială pentru modelele de înaltă precizie. Cu toate acestea, modelul nu va putea anticipa intrări adecvate din lumea reală dacă curățarea datelor scade reprezentabilitatea.

Modelele de învățare automată pot fi consolidate prin utilizarea abordărilor de creștere a datelor, care produc variații pe care modelul le-ar putea întâlni în lumea reală.

Tipuri de creștere a datelor

Mărirea datelor reale

Mărirea datelor reale are loc atunci când adăugați date autentice suplimentare la un set de date. Aceasta poate varia de la fișiere text cu atribute suplimentare (pentru imagini etichetate) până la imagini ale altor obiecte comparabile cu obiectul original sau chiar înregistrări ale obiectului real.

De exemplu, adăugând câteva caracteristici suplimentare la un fișier imagine, un model de învățare automată poate detecta elementul mai ușor.

Mai multe metadate despre fiecare imagine (de exemplu, numele și descrierea acesteia) ar putea fi incluse, astfel încât modelul nostru AI să știe mai multe despre ce reprezintă fiecare imagine înainte de a începe antrenamentul pe acele fotografii.

Când vine timpul să clasificați fotografiile proaspete într-una dintre categoriile noastre predeterminate, cum ar fi „pisică” sau „câine”, modelul ar putea fi mai capabil să detecteze elementele care sunt prezente într-o imagine și, ca rezultat, să perfecționeze în general mai bine.

Date sintetice Augmentare

Pe lângă adăugarea mai multor date reale, puteți și contribui date sintetice sau date artificiale care par autentice.

Acest lucru este benefic pentru sarcini dificile, cum ar fi transferul stilului neuronal, dar este și bun pentru orice design, indiferent dacă utilizați GAN (Generative Adversarial Networks), CNN (Convolutional Neural Networks) sau alte arhitecturi de rețele neuronale profunde.

De exemplu, dacă dorim să clasificam corect pugii fără a fi nevoie să ieșim și să facem o serie de fotografii, am putea adăuga câteva fotografii false de pug la o colecție de imagini de câini.

Această formă de creștere a datelor este eficientă în special pentru îmbunătățirea acurateței modelului atunci când colectarea datelor este dificilă, costisitoare sau necesită timp. În această situație, extindem artificial setul de date.

Să presupunem că grupul nostru inițial de 1000 de fotografii de rasă de câini conține doar 5 imagini de pug. În loc să adăugăm fotografii suplimentare de pug reale de la câini reali, să creăm una falsă clonând una dintre cele actuale și distorsionând-o ușor, astfel încât să pară în continuare ca un pug.

Tehnici de creștere a datelor

Abordările de creștere a datelor implică efectuarea de mici modificări la datele existente. Este la fel cu a reformula o afirmație. Putem împărți creșterea datelor în trei categorii:

Text

Înlocuirea cuvintelor: această abordare de creștere a datelor include înlocuirea termenilor actuali cu sinonime. De exemplu, „Acest film este prost” poate deveni „Acest film este idiot”.
Schimbarea propoziției/cuvintelor: Această strategie implică schimbarea secvenței de fraze sau cuvinte, menținând în același timp coerența generală.
Manipularea arborelui de sintaxă: modificați o propoziție existentă pentru a fi corectă din punct de vedere gramatical, utilizând aceiași termeni.
Ștergere aleatorie: deși această strategie produce o scriere urâtă, este eficientă. Drept urmare, linia „Nu voi cumpăra acest disc pentru că este zgâriat” devine „Nu voi cumpăra acest disc pentru că este zgâriat”. Expresia este mai puțin clară, dar rămâne o adăugare plauzibilă.
Traducere înapoi: Această abordare este atât eficientă, cât și plăcută. Luați o declarație scrisă în limba dvs., traduceți-o în altă limbă și apoi retraduceți-o înapoi în limba dvs. originală.

imagini

Filtre Kernel: Această abordare clarifică sau estompează o imagine.
Combinație de imagini: deși poate părea ciudat, puteți combina fotografii.
Ștergerea aleatorie: ștergeți o mică parte din imaginea curentă.
Transformări geometrice: Această abordare cuprinde, printre altele, răsturnarea, rotirea, decuparea sau traducerea în mod arbitrar a imaginilor.
Întoarcerea unei imagini: puteți întoarce o imagine de la orientarea orizontală la orientarea verticală.
Transformarea spațiului de culoare: puteți modifica canalele de culoare RGB sau puteți îmbunătăți orice culoare curentă.
Re-Scalarea este procesul de ajustare a scalei vizuale. Aveți opțiunea de a mări sau de a reduce. Când scalați spre interior, imaginea devine mai mică decât dimensiunea inițială. Imaginea va fi mai mare decât cea originală dacă o scalați spre exterior.

Audio

Pitch: Această abordare implică schimbarea înălțimii audio.
Schimbați viteza: modificați viteza fișierului audio sau a înregistrării.
Mai mult zgomot: puteți adăuga mai mult zgomot fișierului audio.

Utilizare caz

Imagistica medicală este un caz de utilizare proeminent pentru creșterea datelor chiar acum. Colecțiile de imagini medicale sunt mici, iar partajarea datelor este dificilă din cauza regulilor și preocupărilor legate de confidențialitate.

În plus, seturile de date sunt mult mai restrânse în cazul tulburărilor neobișnuite. Companiile de imagistică medicală folosesc creșterea datelor pentru a-și diversifica seturile de date.

Provocări

Scalabilitate, seturi de date diverse și relevanța sunt câteva dintre problemele care trebuie rezolvate pentru a dezvolta tehnici eficiente de creștere a datelor.

În ceea ce privește scalabilitatea, datele augmentate trebuie să fie scalabile, astfel încât multe modele diferite să le poată utiliza. Veți dori să vă asigurați că acest lucru poate fi duplicat pentru utilizare în modelele viitoare, deoarece configurarea unui sistem de creștere a datelor care generează o cantitate mare de date pertinente, valoroase și îmbunătățite poate dura ceva timp.

În ceea ce privește eterogenitatea, diverse seturi de date au caracteristici distincte care trebuie luate în considerare în timpul dezvoltării datelor augmentate. Pentru a dezvolta date adecvate îmbunătățite, trebuie utilizate proprietățile fiecărui set de date.

Cu alte cuvinte, creșterea datelor va diferi între seturile de date și cazurile de utilizare.

În cele din urmă, pentru a garanta că avantajele datelor crescute depășesc orice pericole, datele augmentate ar trebui evaluate folosind metrici adecvate înainte de a fi utilizate de modelele de învățare automată.

De exemplu, prezența unui zgomot de fond semnificativ sau a unor elemente care nu au legătură în datele augmentate bazate pe imagini ar putea avea un impact negativ asupra performanței modelului.

Concluzie

În cele din urmă, indiferent dacă încercați să prognozați pierderile, să identificați frauda financiară sau să construiți mai bine clasificarea imaginii modele, creșterea datelor este o modalitate esențială de a construi modele mai precise și mai robuste.

Printr-o procedură de instruire superioară, preprocesarea simplă și creșterea datelor pot ajuta chiar echipele să dezvolte modele de ultimă oră.

Companiile pot utiliza creșterea datelor pentru a reduce timpul petrecut cu pregătirea datelor de formare și pentru a crea modele de învățare automată care sunt mai precise și mai rapide.

Prin extinderea cantității de date pertinente din setul de date, creșterea datelor poate beneficia și modelelor de învățare automată care au deja o mulțime de date.

Augmentarea datelor: esențială pentru modelele de învățare automată

Deci, ce este creșterea datelor?

La ce folosește creșterea datelor în prezent?