Talaan ng nilalaman[Tago][Ipakita]
Marami ang nag-iisip ng mga robot tulad ng mga nasa science fiction na pelikula na ginagaya o nahihigitan pa nga ang talino ng tao kapag narinig nila ang mga terminong artificial intelligence, deep learning, at machine learning.
Iniisip ng iba na ang mga device na ito ay kumukuha lamang ng impormasyon at natututo mula dito nang mag-isa. Well... Medyo mapanlinlang. Ang pag-label ng data ay ang paraan na ginagamit upang sanayin ang mga computer na maging "matalino," dahil mayroon silang limitadong mga kakayahan nang walang pagtuturo ng tao.
Upang sanayin ang computer na kumilos nang "matalino," inilalagay namin ang data sa iba't ibang anyo at tinuturuan ito ng iba't ibang mga diskarte sa tulong ng pag-label ng data.
Ang mga dataset ay dapat na naka-annotate o may label na may maraming permutasyon ng parehong impormasyon bilang bahagi ng agham na pinagbabatayan ng pag-label ng data.
Ang pagsisikap at dedikasyon na inilagay sa huling produkto ay kapuri-puri, kahit na ito ay nakakagulat at nagpapadali sa ating pang-araw-araw na buhay.
Alamin ang tungkol sa pag-label ng data sa artikulong ito upang matutunan kung ano ito, kung paano ito gumagana, iba't ibang uri ng pag-label ng data, mga hadlang, at marami pang iba.
Kaya, ano ang Pag-label ng Data?
In machine learning, ang kalibre at katangian ng input data ang nagdidikta sa kalibre at katangian ng output. Ang katumpakan ng iyong modelo ng AI ay pinahusay ng kalibre ng data na ginamit upang sanayin ito.
Sa ibang mga termino, ang pag-label ng data ay ang pagkilos ng pag-label o pag-annotate ng iba't ibang hindi nakabalangkas o structured na set ng data upang turuan ang isang computer na tukuyin ang mga pagkakaiba at pattern sa pagitan ng mga ito.
Makakatulong sa iyo ang isang ilustrasyon na maunawaan ito. Kinakailangang i-tag ang bawat pulang ilaw sa iba't ibang larawan para malaman ng computer na ang pulang ilaw ay isang senyales na huminto.
Sa batayan nito, bubuo ang AI ng isang algorithm na, sa bawat sitwasyon, ay magbibigay-kahulugan sa pulang ilaw bilang indikasyon ng paghinto. Ang isa pang paglalarawan ay ang kakayahang ikategorya ang iba't ibang mga dataset sa ilalim ng mga heading ng jazz, pop, rock, classical, at higit pa upang paghiwalayin ang iba't ibang genre ng musika.
Sa madaling salita, ang pag-label ng data sa machine learning ay tumutukoy sa proseso ng pag-detect ng walang label na data (gaya ng mga larawan, text file, video, atbp.) at pagdaragdag ng isa o higit pang nauugnay na mga label upang mag-alok ng konteksto upang ang isang machine learning model ay matuto mula sa ito.
Maaaring sabihin ng mga label, halimbawa, kung ang isang x-ray ay nagpapakita ng isang tumor o hindi, kung aling mga salita ang sinabi sa isang audio clip, o kung isang larawan ng isang ibon o isang sasakyan.
Ang pag-label ng data ay mahalaga para sa ilang mga kaso ng paggamit, kabilang ang pagkilala sa pagsasalita, computer vision, at natural na pagproseso ng wika.
Pag-label ng data: Bakit ito Mahalaga?
Una, ang ikaapat na rebolusyong pang-industriya ay nakasentro sa kasanayan ng mga makina sa pagsasanay. Bilang resulta, ito ay nagra-rank sa mga pinakamahalagang pagsulong ng software sa kasalukuyan.
Kailangang gawin ang iyong machine learning system, na kinabibilangan ng pag-label ng data. Itinatag nito ang mga kakayahan ng system. Walang sistema kung walang label ang data.
Ang mga posibilidad sa pag-label ng data ay limitado lamang ng iyong pagkamalikhain. Ang anumang aksyon na maaari mong imapa sa system ay mauulit nang may bagong impormasyon.
Ibig sabihin, ang uri, dami, at pagkakaiba-iba ng data na maaari mong ituro sa system ang tutukuyin ang katalinuhan at kakayahan nito.
Ang pangalawa ay nauuna ang data labeling work bago ang data science work. Alinsunod dito, ang pag-label ng data ay kinakailangan para sa data science. Ang mga pagkabigo at pagkakamali sa pag-label ng data ay nakakaapekto sa data science. Bilang kahalili, gumamit ng isang mas cruder cliché, "trash in, rubbish out."
Pangatlo, Ang Sining ng Pag-label ng Data ay nagpapahiwatig ng pagbabago sa kung paano nilalapitan ng mga tao ang pagbuo ng mga AI system. Sabay-sabay naming pinipino ang istruktura ng pag-label ng data upang mas mahusay na matugunan ang aming mga layunin sa halip na subukan lamang na pahusayin ang mga diskarte sa matematika.
Nakabatay dito ang modernong automation, at ito ang sentro ng AI Transformation na kasalukuyang isinasagawa. Ngayon higit kailanman, ginagawang mekanisado ang gawaing kaalaman.
Paano gumagana ang pag-label ng data?
Ang sumusunod na chronological order ay sinusunod sa panahon ng data labeling procedure.
Pangangalap ng datos
Ang data ay ang pundasyon ng anumang pagsisikap sa pag-aaral ng makina. Ang unang yugto sa pag-label ng data ay binubuo ng pangangalap ng naaangkop na dami ng raw data sa iba't ibang anyo.
Ang pangangalap ng data ay maaaring tumagal ng isa sa dalawang anyo: maaaring nagmumula ito sa mga panloob na mapagkukunan na ginagamit ng negosyo, o nagmumula ito sa mga external na mapagkukunan na naa-access ng publiko.
Dahil nasa raw form ito, kailangang linisin at iproseso ang data na ito bago gawin ang mga label ng dataset. Pagkatapos ay sanayin ang modelo gamit ang nilinis at na-preprocess na data na ito. Ang mga natuklasan ay magiging mas tumpak kung mas malaki at mas iba-iba ang set ng data.
Nag-annotate ng data
Kasunod ng paglilinis ng data, sinusuri ng mga eksperto sa domain ang data at naglalapat ng mga label gamit ang ilang diskarte sa pag-label ng data. Ang modelo ay may makabuluhang konteksto na maaaring magamit bilang ground truth.
Ito ang mga variable na gusto mong hulaan ng modelo, gaya ng mga larawan.
Pagtitiyak ng kalidad
Ang kalidad ng data, na dapat ay mapagkakatiwalaan, tumpak, at pare-pareho, ay mahalaga sa tagumpay ng pagsasanay sa modelo ng ML. Dapat na ipatupad ang mga regular na pagsusulit sa QA upang magarantiya ang mga eksakto at tamang label ng data na ito.
Posibleng masuri ang katumpakan ng mga anotasyong ito sa pamamagitan ng paggamit ng mga diskarte sa QA tulad ng Consensus at alpha test ng Cronbach. Ang katumpakan ng mga resulta ay lubos na napabuti ng mga nakagawiang inspeksyon ng QA.
Mga modelo ng pagsasanay at pagsubok
Ang mga nabanggit na pamamaraan ay may katuturan lamang kung ang data ay susuriin para sa kawastuhan. Ang pamamaraan ay ilalagay sa pagsubok sa pamamagitan ng pagsasama ng hindi nakaayos na dataset upang suriin kung ito ay magbubunga ng ninanais na mga resulta.
Mga diskarte sa pag-label ng data
Ang pag-label ng data ay isang matrabahong proseso na nangangailangan ng pansin sa detalye. Ang paraan na ginamit upang i-annotate ang data ay mag-iiba depende sa pahayag ng isyu, kung gaano karaming data ang kailangang i-tag, kung gaano kakomplikado ang data, at ang istilo.
Suriin natin ang ilan sa mga opsyon na mayroon ang iyong negosyo, depende sa mga mapagkukunan na mayroon ito at ang oras na magagamit nito.
In-house na pag-label ng data
Gaya ng ipinahihiwatig ng pangalan, ang in-house na pag-label ng data ay ginagawa ng mga eksperto sa loob ng isang kumpanya. Kapag mayroon kang sapat na oras, tauhan, at mapagkukunang pinansyal, ito ang pinakamahusay na opsyon dahil tinitiyak nito ang pinakatumpak na pag-label. Gayunpaman, mabagal itong gumagalaw.
Outsourcing
Ang isa pang opsyon para magawa ang mga bagay ay ang pag-hire ng mga freelancer para sa mga gawain sa pag-label ng data na maaaring matuklasan sa iba't ibang mga marketplace na naghahanap ng trabaho at freelance tulad ng Upwork.
Ang outsourcing ay isang mabilis na opsyon upang makakuha ng mga serbisyo sa pag-label ng data, gayunpaman, ang kalidad ay maaaring magdusa, katulad ng naunang pamamaraan.
Crowdsourcing
Maaari kang mag-log in bilang isang humihiling at ipamahagi ang iba't ibang mga trabaho sa pag-label sa mga available na kontratista sa mga espesyal na platform ng crowdsourcing tulad ng Amazon Mechanical Turk (MTurk).
Ang pamamaraan, bagama't medyo mabilis at mura, ay hindi makakapagbigay ng mahusay na kalidad ng annotated na data.
Awtomatikong pag-label ng data.
Ang pamamaraan ay maaaring tulungan ng software bilang karagdagan sa manu-manong isinasagawa. Gamit ang aktibong diskarte sa pag-aaral, ang mga tag ay maaaring awtomatikong mahanap at maidagdag sa dataset ng pagsasanay.
Sa esensya, ang mga espesyalista ng tao ay bumuo ng isang AI Auto-label na modelo upang markahan ang walang label, hilaw na data. Pagkatapos ay magpapasya sila kung naaangkop na inilapat ng modelo ang pag-label. Inaayos ng mga tao ang mga pagkakamali pagkatapos ng kabiguan at muling sanayin ang algorithm.
Pag-unlad ng sintetikong data.
Sa halip na data sa totoong mundo, sintetikong data ay isang may label na dataset na ginawang artipisyal. Ito ay ginawa ng mga algorithm o computer simulation at kadalasang ginagamit sa tren machine learning models.
Ang sintetikong data ay isang mahusay na sagot sa mga isyu ng kakulangan at pagkakaiba-iba ng data sa konteksto ng mga pamamaraan ng pag-label. Ang paglikha ng sintetikong data mula sa simula ay nag-aalok ng solusyon.
Ang paggawa ng mga setting ng 3D kasama ang mga item at nakapalibot sa modelo ay dapat na makilala ng mga developer ng dataset. Kahit gaano karaming sintetikong data na kinakailangan para sa proyekto ang maaaring mai-render.
Mga Hamon ng Pag-label ng Data
Nangangailangan ng mas maraming oras at pagsisikap
Bilang karagdagan sa pagiging mapaghamong makakuha ng malaking halaga ng data (lalo na para sa mga highly specialized na industriya tulad ng pangangalagang pangkalusugan), ang paglalagay ng label sa bawat piraso ng data sa pamamagitan ng kamay ay parehong labor-intensive at matrabaho, na nangangailangan ng tulong ng mga human labeler.
Halos 80% ng oras na ginugol sa isang proyekto sa buong cycle ng pagbuo ng ML ay ginugugol sa paghahanda ng data, na kinabibilangan ng pag-label.
Posibilidad para sa hindi pagkakapare-pareho
Kadalasan, ang cross-labeling, na nangyayari kapag maraming tao ang naglalagay ng label sa parehong hanay ng data, ay nagreresulta sa higit na katumpakan.
Gayunpaman, dahil ang mga indibidwal minsan ay may iba't ibang antas ng kakayahan, ang mga pamantayan sa pag-label at mga label mismo ay maaaring hindi magkatugma, na isa pang isyu, Posible para sa dalawa o higit pang mga annotator na hindi sumang-ayon sa ilang mga tag.
Halimbawa, maaaring i-rate ng isang eksperto ang isang review ng hotel bilang pabor habang ang isa ay ituturing itong mapanukso at bibigyan ito ng mababang rating.
Kaalaman sa domain
Madarama mo ang pangangailangang kumuha ng mga label na may espesyal na kaalaman sa industriya para sa ilang sektor.
Ang mga annotator na walang kinakailangang kaalaman sa domain, halimbawa, ay mahihirapang i-tag ang mga item habang gumagawa ng ML app para sa sektor ng pangangalagang pangkalusugan.
Pagkahilig sa mga pagkakamali
Ang manu-manong pag-label ay napapailalim sa mga pagkakamali ng tao, gaano man kaalam at maingat ang iyong mga tagapag-label. Dahil sa ang katunayan na ang mga annotator ay madalas na gumagana sa napakalaking hilaw na set ng data, ito ay hindi maiiwasan.
Isipin ang isang tao na nag-annotate ng 100,000 mga larawan na may hanggang sa 10 iba't ibang mga bagay.
Mga karaniwang uri ng Pag-label ng Data
Computer Vision
Upang mabuo ang iyong dataset ng pagsasanay, dapat mo munang lagyan ng label ang mga larawan, pixel, o mga pangunahing spot, o magtatag ng hangganan na ganap na nakapaloob sa isang digital na larawan, na kilala bilang isang bounding box, kapag gumagawa ng isang computer vision system.
Maaaring ikategorya ang mga larawan sa iba't ibang paraan, kabilang ang ayon sa nilalaman (kung ano talaga ang nasa larawan mismo) at kalidad (tulad ng mga larawan ng produkto kumpara sa lifestyle).
Ang mga imahe ay maaari ding hatiin sa mga segment sa antas ng pixel. Ang modelo ng computer vision na binuo gamit ang mga data ng pagsasanay na ito ay maaaring magamit pagkatapos upang awtomatikong pag-uri-uriin ang mga imahe, tukuyin ang lokasyon ng mga bagay, i-highlight ang mga pangunahing lugar sa isang imahe, at i-segment ang mga larawan.
Natural Language Processing
Bago gawin ang iyong dataset ng pagsasanay sa pagpoproseso ng natural na wika, dapat mong manual na pumili ng mga nauugnay na textual na fragment o uriin ang materyal gamit ang mga tinukoy na label.
Halimbawa, maaaring gusto mong kilalanin ang mga pattern ng pagsasalita, pag-uri-uriin ang mga wastong pangngalan tulad ng mga lugar at tao, at tukuyin ang teksto sa mga larawan, PDF, o iba pang media. Maaari mo ring matukoy ang damdamin o layunin ng isang text blurb.
Gumawa ng mga bounding box sa paligid ng text sa iyong dataset ng pagsasanay upang magawa ito, at pagkatapos ay manu-manong i-transcribe ito.
Optical character recognition, pagkakakilanlan ng pangalan ng entity, at pagsusuri ng sentimento ay ginagawa lahat gamit ang mga natural na modelo ng pagproseso ng wika.
Audio Processing
Binabago ng pagpoproseso ng audio ang lahat ng uri ng tunog sa isang structured na format upang magamit ang mga ito sa machine learning, kabilang ang pagsasalita, mga ingay ng hayop (mga tahol, sipol, o huni), at mga ingay ng gusali (basag na salamin, pag-scan, o sirena).
Kadalasan, bago mo mahawakan ang audio, kailangan mong manu-manong i-convert ito sa text. Pagkatapos noon, sa pamamagitan ng pagkakategorya at pagdaragdag ng mga tag sa audio, maaari kang matuto ng higit pang malalim na impormasyon tungkol dito. Iyong dataset ng pagsasanay classified audio ba ito.
Konklusyon
Sa konklusyon, ang pagtukoy sa iyong data ay isang mahalagang bahagi ng pagsasanay sa anumang modelo ng AI. Ang isang mabilis na organisasyon, gayunpaman, ay hindi kayang gumugol ng oras sa paggawa nito nang manu-mano dahil ito ay nakakaubos ng oras at masinsinang enerhiya.
Bukod pa rito, ito ay isang pamamaraan na madaling kapitan ng hindi tumpak at hindi nangangako ng mahusay na katumpakan. Hindi ito kailangang maging napakahirap, na isang magandang balita.
Ang mga teknolohiya sa pag-label ng data ngayon ay nagbibigay-daan sa pakikipagtulungan sa pagitan ng mga tao at mga makina upang magbigay ng tumpak at kapaki-pakinabang na data para sa iba't ibang mga application ng machine learning.
Mag-iwan ng Sagot