Duomenų ženklinimas – itin svarbus dirbtinio intelekto modeliams

Daugelis įsivaizduoja tokius robotus kaip mokslinės fantastikos filmuose, kurie imituoja ar net pranoksta žmogaus intelektą, kai išgirsta terminus dirbtinis intelektas, gilus mokymasis ir mašinų mokymasis.

Kiti mano, kad šie įrenginiai tik ima informaciją ir patys iš jos mokosi. Na... Tai šiek tiek apgaulinga. Duomenų žymėjimas yra metodas, naudojamas kompiuteriams išmokyti tapti „protingais“, nes jų galimybės be žmogaus nurodymų yra ribotos.

Norėdami išmokyti kompiuterį veikti „protingai“, įvedame duomenis įvairiomis formomis ir mokome įvairių strategijų naudodami duomenų žymėjimą.

Duomenų rinkiniai turi būti anotuoti arba pažymėti daugybe tos pačios informacijos permutacijų, kaip duomenų ženklinimo mokslo dalis.

Įdėtos pastangos ir atsidavimas galutiniam produktui yra pagirtini, net kai tai stebina ir palengvina mūsų kasdienybę.

Šiame straipsnyje sužinokite apie duomenų ženklinimą, kad sužinotumėte, kas tai yra, kaip jis veikia, apie skirtingus duomenų ženklinimo tipus, kliūtis ir dar daugiau.

Taigi, kas yra duomenų ženklinimas?

In mašininis mokymasis, įvesties duomenų kalibras ir pobūdis lemia išvesties kalibrą ir pobūdį. Jūsų AI modelio tikslumą padidina duomenų, naudojamų jo mokymui, kalibras.

Kitaip tariant, duomenų ženklinimas yra skirtingų nestruktūrizuotų arba struktūrizuotų duomenų rinkinių žymėjimas arba anotavimas, siekiant išmokyti kompiuterį nustatyti jų skirtumus ir modelius.

Iliustracija padės jums tai suprasti. Būtina pažymėti kiekvieną raudoną lemputę įvairiuose vaizduose, kad kompiuteris sužinotų, jog raudona lemputė yra signalas sustoti.

Tuo remdamasis dirbtinis intelektas sukuria algoritmą, kuris kiekvienoje situacijoje raudoną šviesą interpretuos kaip sustabdymo indikatorių. Kita iliustracija – galimybė suskirstyti skirtingus duomenų rinkinius pagal džiazo, pop, roko, klasikos ir kt. antraštes, kad būtų galima atskirti skirtingus muzikos žanrus.

Paprasčiau tariant, mašininio mokymosi duomenų žymėjimas reiškia nepažymėtų duomenų (pvz., nuotraukų, tekstinių failų, vaizdo įrašų ir kt.) aptikimo procesą ir vienos ar kelių atitinkamų etikečių pridėjimą, kad būtų pateiktas kontekstas, kad mašininio mokymosi modelis galėtų mokytis iš tai.

Pavyzdžiui, etiketėse gali būti nurodyta, ar rentgeno nuotrauka rodo auglį, ar ne, kurie žodžiai buvo pasakyti garso klipe, ar paukščio ar automobilio nuotrauka.

Duomenų žymėjimas yra būtinas daugeliu atvejų, įskaitant kalbos atpažinimą, kompiuterio vizijair natūralios kalbos apdorojimas.

Duomenų ženklinimas: kodėl tai svarbu?

Pirma, ketvirtoji pramonės revoliucija yra sutelkta į mokymo mašinų įgūdžius. Dėl to ji yra viena iš svarbiausių dabartinių programinės įrangos pažangų.

Turi būti sukurta mašininio mokymosi sistema, kuri apima duomenų ženklinimą. Tai nustato sistemos galimybes. Nėra sistemos, jei duomenys nepaženklinti.

Duomenų ženklinimo galimybes riboja tik jūsų kūrybiškumas. Bet koks veiksmas, kurį galite įtraukti į sistemą, kartosis su nauja informacija.

Tai reiškia, kad duomenų, kuriuos galite išmokyti sistemoje, tipas, kiekis ir įvairovė lems jos intelektą ir galimybes.

Antrasis yra tas, kad duomenų ženklinimo darbas yra prieš duomenų mokslo darbą. Atitinkamai duomenų mokslui būtinas duomenų ženklinimas. Duomenų ženklinimo gedimai ir klaidos turi įtakos duomenų mokslui. Arba galite naudoti grubesnę klišę „šiukšliadėžė, šiukšlė išvežti“.

Trečia, „Duomenų žymėjimo menas“ reiškia, kad pasikeitė žmonių požiūris į AI sistemų kūrimą. Tuo pačiu metu tobuliname duomenų ženklinimo struktūrą, kad geriau pasiektume savo tikslus, o ne tik stengiamės tobulinti matematinius metodus.

Tuo pagrįsta šiuolaikinė automatizacija, kuri yra šiuo metu vykstančios AI transformacijos centras. Dabar labiau nei bet kada žinių darbas mechanizuojamas.

Kaip veikia duomenų ženklinimas?

Duomenų ženklinimo procedūros metu laikomasi šios chronologinės tvarkos.

Duomenų rinkimas

Duomenys yra bet kokių mašininio mokymosi pastangų kertinis akmuo. Pradinis duomenų ženklinimo etapas susideda iš tinkamo neapdorotų duomenų kiekio rinkimo įvairiomis formomis.

Duomenų rinkimas gali būti dviejų formų: arba iš vidinių šaltinių, kuriuos naudojo įmonė, arba iš viešai prieinamų išorinių šaltinių.

Kadangi jie yra neapdoroti, šie duomenys turi būti išvalyti ir apdoroti prieš sukuriant duomenų rinkinio etiketes. Tada modelis apmokomas naudojant šiuos išvalytus ir iš anksto apdorotus duomenis. Išvados bus tikslesnės, kuo didesnis ir įvairesnis duomenų rinkinys.

Duomenų anotavimas

Išvalę duomenis domeno ekspertai ištiria duomenis ir pritaiko etiketes naudodami keletą duomenų ženklinimo būdų. Modelis turi prasmingą kontekstą, kurį galima panaudoti kaip pagrindinę tiesą.

Tai yra kintamieji, kuriuos norite, kad modelis numatytų, pvz., nuotraukos.

Kokybės užtikrinimas

Duomenų kokybė, kuri turėtų būti patikima, tiksli ir nuosekli, yra labai svarbi ML modelio mokymo sėkmei. Siekiant užtikrinti tikslų ir teisingą duomenų ženklinimą, turi būti atliekami reguliarūs kokybės užtikrinimo testai.

Šių anotacijų tikslumą galima įvertinti naudojant kokybės užtikrinimo metodus, pvz., Consensus ir Cronbach alfa testą. Rezultatų teisingumą žymiai pagerina įprastiniai kokybės užtikrinimo patikrinimai.

Mokymo ir testavimo modeliai

Pirmiau minėtos procedūros yra prasmingos tik tada, kai tikrinamas duomenų teisingumas. Technika bus išbandyta įtraukiant nestruktūrizuotą duomenų rinkinį, kad būtų galima patikrinti, ar jis duoda norimų rezultatų.

Duomenų ženklinimo strategijos

Duomenų ženklinimas yra sunkus procesas, reikalaujantis dėmesio detalėms. Duomenims komentuoti naudojamas metodas skirsis priklausomai nuo problemos pareiškimo, kiek duomenų reikia pažymėti, duomenų sudėtingumo ir stiliaus.

Panagrinėkime kai kurias jūsų įmonės galimybes, atsižvelgdami į turimus išteklius ir turimą laiką.

Duomenų ženklinimas įmonės viduje

Kaip rodo pavadinimas, vidinį duomenų ženklinimą atlieka įmonės ekspertai. Kai turite pakankamai laiko, personalo ir finansinių išteklių, tai geriausias pasirinkimas, nes užtikrinamas tiksliausias ženklinimas. Tačiau jis juda lėtai.

Užsakomosios paslaugos

Kitas būdas atlikti reikalus yra samdyti laisvai samdomus darbuotojus duomenų ženklinimo užduotims atlikti, kuriuos galima rasti įvairiose darbo ieškančių ir laisvai samdomų vertėjų rinkose, pvz., Upwork.

Užsakomosios paslaugos yra greitas pasirinkimas norint gauti duomenų ženklinimo paslaugas, tačiau kokybė gali nukentėti, panašiai kaip ir anksčiau.

"Crowdsourcing"

Galite prisijungti kaip prašytojas ir platinti įvairius ženklinimo darbus galimiems rangovams specializuotose sutelktųjų paslaugų platformose, pvz., "Amazon Mechanical Turk" (MTurk).

Šis metodas, nors ir šiek tiek greitas ir nebrangus, negali pateikti geros kokybės anotuotų duomenų.

Automatinis duomenų ženklinimas.

Procedūrą gali padėti atlikti ne tik rankiniu būdu, bet ir programinė įranga. Naudojant aktyvaus mokymosi metodą, žymes galima rasti automatiškai ir įtraukti į mokymo duomenų rinkinį.

Iš esmės žmonių specialistai kuria AI automatinio žymėjimo modelį, skirtą pažymėti nepažymėtus neapdorotus duomenis. Tada jie nusprendžia, ar modelis tinkamai ženklino. Žmonės ištaiso klaidas po gedimo ir perkvalifikuoja algoritmą.

Sintetinių duomenų kūrimas.

Vietoj realaus pasaulio duomenų, sintetiniai duomenys yra pažymėtas duomenų rinkinys, sukurtas dirbtinai. Jis sukurtas naudojant algoritmus arba kompiuterinį modeliavimą ir dažnai naudojamas mokyti mašininio mokymosi modelius.

Sintetiniai duomenys yra puikus atsakymas į duomenų trūkumo ir įvairovės klausimus ženklinimo procedūrų kontekste. Sukūrimas sintetiniai duomenys nuo nulio siūlo sprendimą.

Duomenų rinkinio kūrėjai turi atpažinti 3D nustatymų kūrimą su elementais ir aplinkui modelį. Galima pateikti tiek sintetinių duomenų, kiek reikia projektui.

Duomenų ženklinimo iššūkiai

Reikalauja daugiau laiko ir pastangų

Be to, kad sunku gauti didelius duomenų kiekius (ypač labai specializuotose pramonės šakose, pvz., sveikatos priežiūros srityse), kiekvieno duomenų ženklinimas rankiniu būdu reikalauja daug darbo ir pastangų, todėl reikia žmonių ženklintojų pagalbos.

Beveik 80% laiko, praleisto projektui per visą ML kūrimo ciklą, skiriama duomenų paruošimui, kuris apima ir ženklinimą.

Nenuoseklumo galimybė

Dažniausiai kryžminis ženklinimas, kai daugelis žmonių žymi tuos pačius duomenų rinkinius, užtikrina didesnį tikslumą.

Tačiau kadangi asmenys kartais turi skirtingą kompetencijos laipsnį, ženklinimo standartai ir pačios etiketės gali būti nenuoseklios, o tai yra kita problema. Dėl kai kurių žymų du ar daugiau komentatorių gali nesutarti.

Pavyzdžiui, vienas ekspertas galėtų įvertinti viešbučio apžvalgą kaip palankų, o kitas manytų, kad tai sarkastiškas ir priskirti žemą įvertinimą.

Domeno žinios

Jausite poreikį samdyti specialių pramonės žinių turinčius etikečių klijus kai kuriuose sektoriuose.

Pavyzdžiui, anotatoriams, neturintiems reikiamų domeno žinių, bus labai sunku tinkamai pažymėti elementus kuriant ML programą sveikatos priežiūros sektoriui.

Polinkis į klaidas

Ženklinimas rankiniu būdu priklauso nuo žmogaus klaidų, nepaisant to, kiek išmanantys ir atidūs yra jūsų ženklintojai. Dėl to, kad anotatoriai dažnai dirba su didžiuliais neapdorotų duomenų rinkiniais, tai neišvengiama.

Įsivaizduokite žmogų, komentuojantį 100,000 10 vaizdų su iki XNUMX skirtingų dalykų.

Įprasti duomenų ženklinimo tipai

Kompiuterio vizija

Kad sukurtumėte treniruočių duomenų rinkinį, pirmiausia turite pažymėti paveikslėlius, pikselius ar pagrindines vietas arba nustatyti ribą, kuri visiškai apgaubia skaitmeninį vaizdą, vadinamą ribojančiu langeliu, kurdami kompiuterinės regos sistemą.

Nuotraukos gali būti skirstomos į įvairias kategorijas, įskaitant turinį (kas iš tikrųjų yra pačiame vaizde) ir kokybę (pvz., produkto ir gyvenimo būdo nuotraukas).

Vaizdus taip pat galima suskirstyti į segmentus pikselių lygiu. Kompiuterinio matymo modelis, sukurtas naudojant šiuos mokymo duomenis, vėliau gali būti naudojamas automatiškai klasifikuoti vaizdus, nustatyti objektų vietą, paryškinti pagrindines vaizdo sritis ir segmentuoti vaizdus.

Gamtos kalbos apdorojimas

Prieš sukurdami natūralios kalbos apdorojimo mokymo duomenų rinkinį, turite rankiniu būdu pasirinkti atitinkamus teksto fragmentus arba klasifikuoti medžiagą nurodytomis etiketėmis.

Pavyzdžiui, galbūt norėsite atpažinti kalbos modelius, klasifikuoti tinkamus daiktavardžius, pvz., vietas ir žmones, ir identifikuoti tekstą vaizduose, PDF rinkmenose ar kitose laikmenose. Taip pat galbūt norėsite nustatyti teksto suliejimo jausmą ar tikslą.

Kad tai atliktumėte, aplink tekstą treniruočių duomenų rinkinyje sukurkite ribojančius langelius, tada perrašykite jį rankiniu būdu.

Optinis simbolių atpažinimas, subjekto pavadinimo identifikavimas ir nuotaikų analizė atliekama naudojant natūralios kalbos apdorojimo modelius.

Garso apdorojimas

Garso apdorojimas visų tipų garsus paverčia struktūrizuotu formatu, kad juos būtų galima panaudoti mašininiam mokymuisi, įskaitant kalbą, gyvūnų triukšmą (lojimą, švilpimą ar čirškimą) ir pastatų triukšmą (dūžusį stiklą, skenavimą ar sirenas).

Dažnai prieš tvarkydami garsą turite rankiniu būdu konvertuoti jį į tekstą. Po to, suskirstę garso įrašą į kategorijas ir pridėję žymų, galite sužinoti daugiau apie jį informacijos. Tavo mokymo duomenų rinkinys ar tai įslaptintas garso įrašas.

Išvada

Apibendrinant galima pasakyti, kad jūsų duomenų identifikavimas yra esminė bet kurio AI modelio mokymo dalis. Tačiau sparčiai besivystanti organizacija tiesiog negali sau leisti laiko tai daryti rankiniu būdu, nes tai užima daug laiko ir energijos.

Be to, tai procedūra, kuri yra linkusi į netikslumą ir nežada didelio tikslumo. Tai neturi būti taip sunku, o tai yra puiki žinia.

Šiuolaikinės duomenų ženklinimo technologijos leidžia bendradarbiauti žmonėms ir mašinoms, kad būtų galima pateikti tikslius ir naudingus duomenis įvairioms mašininio mokymosi programoms.

Duomenų ženklinimas itin svarbus dirbtinio intelekto modeliams

Duomenų ženklinimas – itin svarbus dirbtinio intelekto modeliams

Taigi, kas yra duomenų ženklinimas?

Duomenų ženklinimas: kodėl tai svarbu?