Efnisyfirlit[Fela][Sýna]
Margir sjá fyrir sér vélmenni eins og þau í vísindaskáldsögumyndum sem líkja eftir eða jafnvel fara fram úr mannlegri greind þegar þeir heyra hugtökin gervigreind, djúpnám og vélanám.
Aðrir halda að þessi tæki taki bara til sín upplýsingar og læri af þeim á eigin spýtur. Jæja... Það er svolítið blekkjandi. Gagnamerking er aðferðin sem notuð er til að þjálfa tölvur í að verða „snjallar“ þar sem þær hafa takmarkaða getu án mannlegrar kennslu.
Til að þjálfa tölvuna í að bregðast „snjöllum“ við setjum inn gögnin á ýmsan hátt og kennum henni ýmsar aðferðir með hjálp gagnamerkinga.
Gagnasöfn verða að vera með athugasemdum eða merkingum með fjölmörgum breytingum á sömu upplýsingum sem hluti af vísindum sem liggja til grundvallar gagnamerkingum.
Fyrirhöfnin og alúðin sem lögð er í lokaafurðina eru lofsverð, jafnvel þegar hún kemur á óvart og gerir daglegt líf okkar auðveldara.
Lærðu um gagnamerkingar í þessari grein til að læra hvað það er, hvernig það virkar, mismunandi tegundir gagnamerkinga, hindranir og margt fleira.
Svo, hvað er gagnamerking?
In vél nám, mælikvarði og eðli inntaksgagnanna ræður gæðum og eðli úttaksins. Nákvæmni gervigreindarlíkans þíns er aukin með gæðum gagnanna sem notuð eru til að þjálfa það.
Að öðru leyti er gagnamerking sú athöfn að merkja eða skrifa athugasemdir við mismunandi óskipulögð eða skipulögð gagnasöfn til að kenna tölvu að bera kennsl á mun og mynstur á milli þeirra.
Myndskreyting mun hjálpa þér að skilja þetta. Nauðsynlegt er að merkja hvert rautt ljós í ýmsum myndum til að tölvan læri að rautt ljós sé merki um að stöðva.
Á grundvelli þessa þróar gervigreind reiknirit sem í öllum aðstæðum mun túlka rautt ljós sem stöðvunarmerki. Önnur skýring er hæfileikinn til að flokka mismunandi gagnasöfn undir heitunum djass, popp, rokk, klassík og fleira til að aðgreina mismunandi tónlistarstefnur.
Í einföldu máli vísar gagnamerking í vélanámi til þess ferlis að greina ómerkt gögn (svo sem myndir, textaskrár, myndbönd o.s.frv.) og bæta við einu eða fleiri viðeigandi merkimiðum til að bjóða upp á samhengi svo vélnámslíkan geti lært af það.
Merkingar gætu til dæmis sagt hvort röntgenmynd sýnir æxli eða ekki, hvaða orð voru sögð í hljóðinnskoti eða hvort mynd af fugli eða bifreið.
Gagnamerkingar eru nauðsynlegar fyrir fjölda notkunartilvika, þar á meðal talgreiningu, tölva sýn, og náttúruleg málvinnsla.
Gagnamerkingar: Hvers vegna er það mikilvægt?
Í fyrsta lagi snýst fjórða iðnbyltingin um kunnáttu þjálfunarvéla. Fyrir vikið er það meðal mikilvægustu hugbúnaðarframfara samtímans.
Búa þarf til vélnámskerfið þitt, sem felur í sér merkingu gagna. Það staðfestir getu kerfisins. Það er ekkert kerfi ef gögn eru ekki merkt.
Möguleikarnir með gagnamerkingum eru aðeins takmarkaðir af sköpunargáfu þinni. Allar aðgerðir sem þú getur kortlagt inn í kerfið mun endurtaka með nýjum upplýsingum.
Sem þýðir að gerð, magn og fjölbreytni gagna sem þú getur kennt kerfinu mun ákvarða greind þess og getu.
Annað er að gagnamerkingarvinna kemur á undan gagnavísindavinnu. Í samræmi við það eru gagnamerkingar nauðsynlegar fyrir gagnavísindi. Bilanir og mistök í gagnamerkingum hafa áhrif á gagnafræði. Að öðrum kosti, til að nota grófari klisju, "rusla inn, rusl út."
Í þriðja lagi táknar The Art of Data Labeling breytingu á því hvernig fólk nálgast þróun gervigreindarkerfa. Við fínpússum samtímis uppbyggingu gagnamerkinganna til að ná betur markmiðum okkar frekar en að reyna aðeins að bæta stærðfræðitækni.
Nútíma sjálfvirkni byggir á þessu og hún er miðpunktur gervigreindar umbreytingar sem nú er í gangi. Nú en nokkru sinni fyrr er verið að vélvæða þekkingarstarf.
Hvernig virkar gagnamerking?
Eftirfarandi tímaröð er fylgt við gagnamerkingarferlið.
Gagnaöflun
Gögn eru hornsteinn hvers kyns vélanáms. Upphafsstigið í merkingu gagna felst í því að safna viðeigandi magni af hrágögnum á mismunandi formi.
Gagnasöfnun getur verið á annan hátt: Annaðhvort kemur hún frá innri heimildum sem fyrirtækið hefur notað, eða hún kemur frá almenningi aðgengilegum ytri aðilum.
Þar sem þau eru í hráu formi þarf að hreinsa þessi gögn og vinna úr þeim áður en gagnagrunnsmerkingar eru búnar til. Líkanið er síðan þjálfað með því að nota þessi hreinsuðu og forunnar gögn. Niðurstöðurnar verða nákvæmari eftir því sem gagnasafnið er stærra og fjölbreyttara.
Skýringar á gögnum
Eftir gagnahreinsun skoða lénssérfræðingar gögnin og setja á merkingar með því að nota ýmsar gagnamerkingaraðferðir. Líkanið hefur merkingarbært samhengi sem hægt er að nýta sem grunnsannleika.
Þetta eru breyturnar sem þú vilt að líkanið spái fyrir, eins og myndirnar.
Gæðatrygging
Gæði gagnanna, sem ættu að vera áreiðanleg, nákvæm og samkvæm, skipta sköpum fyrir velgengni ML líkanþjálfunar. Innleiða verður reglulega QA próf til að tryggja þessar nákvæmu og réttar gagnamerkingar.
Það er hægt að meta nákvæmni þessara athugasemda með því að nota QA tækni eins og Consensus og Cronbach's alfa prófið. Réttleiki niðurstaðna er verulega bættur með reglubundnum QA skoðunum.
Þjálfunar- og prófunarlíkön
Framangreindar verklagsreglur eru aðeins skynsamlegar ef gögnin eru sannprófuð. Tæknin verður prófuð með því að láta óskipulagða gagnasafnið fylgja með til að athuga hvort það skili tilætluðum árangri.
Gagnamerkingaraðferðir
Gagnamerking er flókið ferli sem krefst athygli á smáatriðum. Aðferðin sem notuð er til að skrifa athugasemdir við gögn er mismunandi eftir málefnayfirlýsingunni, hversu mikið af gögnum þarf að merkja, hversu flókin gögnin eru og stíl.
Við skulum fara í gegnum nokkra af þeim valmöguleikum sem fyrirtækið þitt hefur, eftir því hvaða úrræði það hefur og þeim tíma sem það hefur tiltækt.
Gagnamerking innanhúss
Eins og nafnið gefur til kynna er gagnamerking innanhúss unnin af sérfræðingum innan fyrirtækis. Þegar þú hefur nægan tíma, mannskap og fjármagn er það besti kosturinn þar sem hann tryggir nákvæmustu merkinguna. Það gengur þó hægt.
Útvistun
Annar valkostur til að koma hlutunum í verk er að ráða sjálfstætt starfandi einstaklinga í gagnamerkingarverkefni sem hægt er að uppgötva á ýmsum atvinnuleitar- og sjálfstæðum markaðsstöðum eins og Upwork.
Útvistun er fljótur valkostur til að fá gagnamerkingarþjónustu, þó gætu gæðin orðið fyrir skaða, svipað og fyrri aðferðin.
bing
Þú getur skráð þig inn sem umsækjandi og dreift ýmsum merkingarstörfum til tiltækra verktaka á sérhæfðum hópveitingapöllum eins og Amazon Mechanical Turk (MTurk).
Aðferðin, þó hún sé nokkuð fljótleg og ódýr, getur ekki veitt gæðaskýrt gögn.
Merking gagna sjálfkrafa.
Aðferðin gæti verið aðstoðuð með hugbúnaði auk þess að vera framkvæmd handvirkt. Með því að nota virka námsaðferðina er hægt að finna merki sjálfkrafa og bæta þeim við þjálfunargagnagrunninn.
Í meginatriðum þróa mannlegir sérfræðingar sjálfvirkt gervimerki líkan til að merkja ómerkt, hrá gögn. Síðan ákveða þeir hvort líkanið hafi notað merkinguna á viðeigandi hátt. Menn laga mistökin eftir bilun og endurþjálfa reikniritið.
Þróun gervigagna.
Í stað raunverulegra gagna, gervigögn er merkt gagnasafn sem var framleitt tilbúið. Það er framleitt með reikniritum eða tölvuhermum og er oft notað til þjálfa vélanámslíkön.
Tilbúin gögn eru frábært svar við vandamálum gagnaskorts og fjölbreytni í tengslum við merkingaraðferðir. Tilurð gervigögn frá grunni býður upp á lausn.
Gerð þrívíddarstillinga með hlutunum og í kringum líkanið verður að vera fær um að þekkja af gagnagrunnsframleiðendum. Hægt er að skila eins miklum tilbúnum gögnum og þarf fyrir verkefnið.
Áskoranir gagnamerkingar
Krefst meiri tíma og fyrirhafnar
Auk þess að vera krefjandi að fá mikið magn af gögnum (sérstaklega fyrir mjög sérhæfðar iðngreinar eins og heilsugæslu), er það bæði vinnufrek og erfið að merkja hvert gagnastykki handvirkt, og krefst aðstoðar mannamerkja.
Tæplega 80% af þeim tíma sem fer í verkefni á öllu ferli ML þróunar fer í gagnagerð, sem felur í sér merkingar.
Möguleiki á ósamræmi
Oftast leiðir krossmerking, sem á sér stað þegar margir merkja sömu gagnasett, í meiri nákvæmni.
Hins vegar, vegna þess að einstaklingar hafa stundum mismikla hæfni, geta merkingarstaðlar og merki sjálfir verið ósamræmi, sem er annað mál, það er mögulegt að tveir eða fleiri skýringaraðilar séu ósammála um sum merki.
Til dæmis gæti einn sérfræðingur metið hótelumsögn sem hagstæða á meðan annar myndi líta á hana sem kaldhæðni og gefa henni lága einkunn.
Lénsþekking
Þú munt finna fyrir nauðsyn þess að ráða merkingaraðila með sérhæfða iðnaðarþekkingu fyrir sumar geira.
Skýringaraðilar án nauðsynlegrar lénsþekkingar munu til dæmis eiga mjög erfitt með að merkja hlutina á viðeigandi hátt á meðan þeir búa til ML app fyrir heilbrigðisgeirann.
Tilhneiging til villna
Handvirkar merkingar eru háðar mannlegum mistökum, óháð því hversu fróðir og varkárir merkingaraðilarnir eru. Vegna þess að rithöfundar vinna oft með gríðarstór hrá gagnasöfn er þetta óhjákvæmilegt.
Ímyndaðu þér að einstaklingur skrifar athugasemdir við 100,000 myndir með allt að 10 mismunandi hlutum.
Algengar tegundir gagnamerkinga
Computer Vision
Til að þróa þjálfunargagnasafnið þitt verður þú fyrst að merkja myndir, pixla eða lykilpunkta, eða setja mörk sem umlykur stafræna mynd, þekkt sem afmarkandi kassi, þegar þú byggir tölvusjónkerfi.
Hægt er að flokka ljósmyndir á margvíslegan hátt, þar á meðal eftir innihaldi (það sem er í raun og veru á myndinni sjálfri) og gæðum (svo sem vöru vs. lífsstílsmyndum).
Einnig er hægt að skipta myndum í hluta á pixlastigi. Tölvusjónarlíkanið sem þróað er með þessum þjálfunargögnum er síðan hægt að nota til að flokka myndir sjálfkrafa, ákvarða staðsetningu hluta, auðkenna lykilsvæði í mynd og hluta myndir.
Natural Language Processing
Áður en þú framleiðir þjálfunargagnapakka fyrir náttúrulegt málvinnslu þarftu að velja handvirkt viðeigandi textabrot eða flokka efnið með tilgreindum merkimiðum.
Til dæmis gætirðu viljað þekkja talmynstur, flokka sérnöfn eins og staði og fólk og auðkenna texta í myndum, PDF-skjölum eða öðrum miðlum. Þú gætir líka viljað ákvarða viðhorf eða tilgang textaútskýringar.
Búðu til afmarkandi ramma utan um textann í þjálfunargagnasettinu þínu til að ná þessu og skrifaðu það síðan upp handvirkt.
Sjónræn persónugerð, auðkenning einingarnafna og tilfinningagreining eru öll framkvæmd með því að nota náttúruleg málvinnslulíkön.
Audio Processing
Hljóðvinnsla umbreytir öllum gerðum hljóða í skipulögð snið þannig að hægt sé að nýta þau í vélanámi, þar með talið tal, dýrahljóð (gelt, flaut eða típ) og byggingarhljóð (glerbrot, skönnun eða sírenur).
Oft, áður en þú getur séð hljóð, verður þú að umbreyta því handvirkt í texta. Eftir það, með því að flokka og bæta merkjum við hljóðið, geturðu lært ítarlegri upplýsingar um það. Þinn þjálfunargagnasett er þetta flokkað hljóð.
Niðurstaða
Að lokum, að bera kennsl á gögnin þín er afgerandi hluti af þjálfun hvers kyns gervigreindarlíköns. Hratt stofnun hefur hins vegar einfaldlega ekki efni á að eyða tíma í að gera það handvirkt vegna þess að það er tímafrekt og orkufrekt.
Að auki er það aðferð sem er viðkvæm fyrir ónákvæmni og lofar ekki mikilli nákvæmni. Það þarf ekki að vera svo erfitt, sem eru frábærar fréttir.
Gagnamerkingartækni nútímans gerir samvinnu milli manna og véla kleift að veita nákvæm og gagnleg gögn fyrir margs konar vélanámsforrit.
Skildu eftir skilaboð