Andmete märgistamine – AI mudelite jaoks ülioluline

Paljud näevad ulmefilmides olevaid roboteid ette, mis jäljendavad või isegi ületavad inimintellekti, kui kuulevad mõisteid tehisintellekt, sügavõpe ja masinõpe.

Teised arvavad, et need seadmed lihtsalt võtavad teavet ja õpivad sellest iseseisvalt. Noh... See on natuke petlik. Andmete märgistamine on meetod, mida kasutatakse arvutite nutikateks treenimiseks, kuna nende võimalused on ilma inimese juhendamiseta piiratud.

Arvuti “targalt” tegutsemise õpetamiseks sisestame andmed erineval kujul ja õpetame sellele erinevaid strateegiaid andmemärgistuse abil.

Andmekogumitele tuleb andmesildistamise aluseks oleva teaduse osana lisada märkused või sildid sama teabe arvukate permutatsioonidega.

Lõpptootele pandud pingutus ja pühendumus on kiiduväärt, isegi kui see üllatab ja muudab meie igapäevaelu lihtsamaks.

Sellest artiklist leiate teavet andmete märgistamise kohta, et saada teada, mis see on, kuidas see toimib, erinevat tüüpi andmesildid, takistused ja palju muud.

Niisiis, mis on andmete märgistamine?

In masinõpe, sisendandmete kaliiber ja olemus määravad väljundi kaliibri ja olemuse. Teie tehisintellekti mudeli täpsust suurendab selle treenimiseks kasutatud andmete kaliiber.

Teisisõnu on andmete märgistamine erinevate struktureerimata või struktureeritud andmekogumite märgistamine või märkuste lisamine, et õpetada arvutit tuvastama nendevahelisi erinevusi ja mustreid.

Illustratsioon aitab teil seda mõista. Selleks, et arvuti saaks teada, et punane tuli on peatumise signaal, tuleb erinevatel piltidel märgistada iga punane tuli.

Selle põhjal töötab tehisintellekt välja algoritmi, mis igas olukorras tõlgendab punast tuld peatumismärguana. Teine näide on võimalus liigitada erinevaid andmekogumeid džässi, popi, roki, klassika ja muu alla, et eristada erinevaid muusikažanre.

Lihtsamalt öeldes viitab andmete märgistamine masinõppes märgistamata andmete (nt fotod, tekstifailid, videod jne) tuvastamise ja ühe või mitme asjakohase sildi lisamise protsessile, et pakkuda konteksti, et masinõppemudel saaks sellest õppida. seda.

Sildid võivad näiteks öelda, kas röntgenipilt näitab kasvajat või mitte, millised sõnad kõlasid heliklipis või kas pilt linnust või autost.

Andmete märgistamine on oluline paljudel kasutusjuhtudel, sealhulgas kõnetuvastuse, arvuti nägemineja loomuliku keele töötlemine.

Andmete märgistamine: miks see oluline on?

Esiteks keskendub neljas tööstusrevolutsioon treeningmasinate oskustele. Selle tulemusena kuulub see praeguse aja kõige olulisemate tarkvaraarengute hulka.

Teie masinõppesüsteem tuleb luua, mis hõlmab andmete märgistamist. See määrab süsteemi võimalused. Süsteem puudub, kui andmed pole märgistatud.

Andmete märgistamise võimalusi piirab ainult teie loovus. Kõik toimingud, mille saate süsteemi kaardistada, korratakse värske teabega.

See tähendab, et süsteemile õpetatavate andmete tüüp, kogus ja mitmekesisus määrab selle intelligentsuse ja võimekuse.

Teine on see, et andmete märgistamise töö on enne andmeteaduslikku tööd. Seetõttu on andmete märgistamine andmeteaduse jaoks vajalik. Andmete märgistamise tõrked ja vead mõjutavad andmeteadust. Teise võimalusena võite kasutada toorasemat klišeed: "prügi sisse, prügi välja".

Kolmandaks tähistab andmete märgistamise kunst muutust selles, kuidas inimesed lähenevad tehisintellektisüsteemide arendamisele. Täiustame samaaegselt andmemärgistuse struktuuri, et see vastaks paremini meie eesmärkidele, mitte ainult püüaks täiustada matemaatilisi tehnikaid.

Sellel põhineb kaasaegne automatiseerimine ja see on praegu käimasoleva AI transformatsiooni keskpunkt. Teadmustöö mehhaniseeritakse rohkem kui kunagi varem.

Kuidas andmete märgistamine toimib?

Andmete märgistamise protseduuri ajal järgitakse järgmist kronoloogilist järjekorda.

Andmete kogumine

Andmed on iga masinõppe nurgakivi. Andmete märgistamise esialgne etapp seisneb sobiva koguse algandmete kogumises erinevates vormides.

Andmete kogumisel võib olla üks kahest vormist: see pärineb ettevõtte sisemistest allikatest või avalikult juurdepääsetavatest välistest allikatest.

Kuna need on töötlemata kujul, tuleb need andmed enne andmestiku siltide tegemist puhastada ja töödelda. Seejärel koolitatakse mudelit nende puhastatud ja eeltöödeldud andmete abil. Tulemused on seda täpsemad, mida suurem ja mitmekesisem on andmekogum.

Andmete märkimine

Pärast andmete puhastamist uurivad domeenieksperdid andmeid ja rakendavad silte, kasutades mitmeid andmesildistamise tehnikaid. Mudelil on tähendusrikas kontekst, mida saab kasutada põhitõena.

Need on muutujad, mida soovite mudelil ennustada, näiteks fotod.

Kvaliteedi tagamine

Andmete kvaliteet, mis peaks olema usaldusväärne, täpne ja järjekindel, on ML-mudeli koolituse õnnestumiseks ülioluline. Nende täpsete ja õigete andmete märgistamise tagamiseks tuleb läbi viia regulaarsed kvaliteedikontrolli testid.

Nende märkuste täpsust on võimalik hinnata, kasutades kvaliteedikontrolli meetodeid, nagu konsensus ja Cronbachi alfa-test. Tulemuste õigsust parandavad märkimisväärselt rutiinsed kvaliteedikontrolli kontrollid.

Koolitus- ja katsemudelid

Eelnimetatud protseduuridel on mõtet vaid siis, kui andmete õigsust kontrollitakse. Seda tehnikat testitakse, lisades struktureerimata andmekogumi, et kontrollida, kas see annab soovitud tulemusi.

Andmete märgistamise strateegiad

Andmete märgistamine on töömahukas protsess, mis nõuab tähelepanu detailidele. Andmete märkimiseks kasutatav meetod varieerub sõltuvalt probleemiavaldusest, märgistatavate andmete arvust, andmete keerukusest ja stiilist.

Vaatame läbi mõned võimalused, mis teie ettevõttel on, olenevalt ressurssidest ja saadaolevast ajast.

Andmete märgistamine ettevõttesisene

Nagu nimigi viitab, teevad ettevõttesisest andmete märgistamist ettevõtte eksperdid. Kui teil on piisavalt aega, personali ja rahalisi ressursse, on see parim valik, kuna see tagab kõige täpsema märgistuse. Siiski liigub see aeglaselt.

Outsourcing

Teine võimalus asjade tegemiseks on palgata andmesildistamise ülesanneteks vabakutselised, keda saab avastada erinevatel tööotsingutel ja vabakutselistel turgudel, nagu Upwork.

Allhange on kiire võimalus andmesilditeenuste saamiseks, kuid kvaliteet võib sarnaselt varasemale meetodile kannatada.

Crowdsourcing

Saate sisse logida taotlejana ja levitada erinevaid märgistamistöid saadaolevatele töövõtjatele spetsiaalsetel ühishankeplatvormidel, näiteks Amazon Mehaaniline Türk (MTurk).

Kuigi meetod on mõnevõrra kiire ja odav, ei saa see pakkuda kvaliteetseid kommenteeritud andmeid.

Andmete automaatne märgistamine.

Protseduurile võib lisaks käsitsi teostamisele kaasa aidata ka tarkvara. Aktiivõppe lähenemisviisi kasutades saab sildid automaatselt leida ja treeningandmekogumisse lisada.

Sisuliselt töötavad inimspetsialistid välja AI automaatse sildistamise mudeli märgistamata toorandmete märgistamiseks. Seejärel otsustavad nad, kas mudel kasutas märgistust õigesti. Inimesed parandavad vead pärast ebaõnnestumist ja õpetavad algoritmi ümber.

Sünteetiliste andmete arendamine.

Reaalmaailma andmete asemel sünteetilised andmed on märgistatud andmestik, mis on valmistatud kunstlikult. Seda toodavad algoritmid või arvutisimulatsioonid ja seda kasutatakse sageli koolitada masinõppe mudeleid.

Sünteetilised andmed on märgistamisprotseduuride kontekstis suurepärane vastus andmete nappuse ja mitmekesisuse küsimustele. Loomine sünteetilised andmed nullist pakub lahenduse.

3D-sätete loomine üksuste ja mudelit ümbritsevaga peab olema andmestiku arendajatel äratuntav. Sünteetilisi andmeid saab renderdada nii palju kui projekti jaoks on vaja.

Andmete märgistamise väljakutsed

Nõuab rohkem aega ja vaeva

Lisaks sellele, et suurte andmemahtude hankimine on keeruline (eriti kõrgelt spetsialiseerunud tööstusharudes, nagu tervishoid), on iga andmetüki käsitsi märgistamine nii töömahukas kui ka töömahukas, mistõttu on vaja inimmärgistajate abi.

Ligi 80% projektile kuluvast ajast kogu ML arendustsükli jooksul kulub andmete ettevalmistamisele, mis hõlmab ka märgistamist.

Ebajärjekindluse võimalus

Enamasti annab ristmärgistamine, mis juhtub siis, kui paljud inimesed märgistavad samu andmekogumeid, suuremat täpsust.

Kuna aga inimestel on mõnikord erinev pädevus, võivad märgistamisstandardid ja sildid ise olla vastuolulised, mis on teine probleem. Kahel või enamal annotaatoril võib mõne märgendi osas eriarvamused olla.

Näiteks võib üks ekspert hinnata hotelliarvustust soodsaks, teine aga pidada seda sarkastiliseks ja anda sellele madala hinnangu.

Domeeni tundmine

Te tunnete vajadust palgata mõne sektori jaoks spetsiaalsete tööstusalaste teadmistega märgistajad.

Näiteks annotaatoritel, kellel puuduvad vajalikud domeeniteadmised, on tervishoiusektori jaoks ML-rakenduse loomisel väga raske üksusi õigesti märgistada.

Kalduvus vigadele

Käsitsi märgistamisel võivad tekkida inimlikud vead, olenemata sellest, kui teadlikud ja hoolikad on teie märgistajad. Kuna annotaatorid töötavad sageli tohutute algandmete kogumitega, on see vältimatu.

Kujutage ette inimest, kes märgib 100,000 10 pilti kuni XNUMX erineva asjaga.

Levinud andmete märgistamise tüübid

Arvuti visioon

Treeninguandmestiku arendamiseks peate esmalt märgistama pildid, pikslid või võtmepunktid või looma digitaalset kujutist täielikult ümbritsev piir, mida nimetatakse piirdekastiks, kui ehitate arvutinägemissüsteemi.

Fotosid saab kategoriseerida mitmel viisil, sealhulgas sisu (mis tegelikult on pildil endal) ja kvaliteedi (nt toote vs elustiili pildid) järgi.

Pilte saab jagada ka pikslite tasemel segmentideks. Nende treeningandmete abil välja töötatud arvutinägemise mudelit saab hiljem kasutada piltide automaatseks klassifitseerimiseks, objektide asukoha määramiseks, pildi põhipiirkondade esiletõstmiseks ja kujutiste segmenteerimiseks.

Natural Language Processing

Enne loomuliku keele töötlemise koolituse andmestiku koostamist peate käsitsi valima asjakohased tekstifragmendid või klassifitseerima materjali määratud siltidega.

Näiteks võite soovida ära tunda kõnemustreid, liigitada pärisnimesid (nt kohad ja inimesed) ning tuvastada piltidel, PDF-failides või muus meedias olevat teksti. Võib-olla soovite määrata ka teksti hägususe tundeid või kavatsusi.

Selle saavutamiseks looge oma treeningandmete kogumi teksti ümber piirdekastid ja seejärel transkribeerige see käsitsi.

Märgi optiline tuvastamine, olemi nime tuvastamine ja sentimentanalüüs tehakse loomuliku keele töötlemise mudelite abil.

Audio töötlemine

Helitöötlus muudab igat tüüpi helid struktureeritud vormingusse, nii et neid saab kasutada masinõppes, sealhulgas kõne, loomade helid (haukumised, viled või piiksatused) ja ehitusmüra (klaasi purunemine, skaneerimine või sireenid).

Sageli peate enne heli käsitlemist selle käsitsi tekstiks teisendama. Pärast seda saate heli kategoriseerides ja sellele silte lisades selle kohta põhjalikumat teavet. Sinu koolituse andmestik kas see on salastatud heli.

Järeldus

Kokkuvõtteks võib öelda, et teie andmete tuvastamine on mis tahes tehisintellekti mudeli väljaõppe oluline osa. Kiire organisatsioon aga lihtsalt ei saa endale lubada aega kulutada käsitsi tehes, sest see on aeganõudev ja energiamahukas.

Lisaks on see protseduur, mis on altid ebatäpsustele ja ei tõota suurt täpsust. See ei pea olema nii raske, mis on suurepärane uudis.

Tänapäevased andmete märgistamise tehnoloogiad võimaldavad teha koostööd inimeste ja masinate vahel, et pakkuda täpseid ja kasulikke andmeid mitmesuguste masinõpperakenduste jaoks.

Andmete märgistamine on AI mudelite jaoks ülioluline

Andmete märgistamine – AI mudelite jaoks ülioluline

Niisiis, mis on andmete märgistamine?

Andmete märgistamine: miks see oluline on?