Označevanje podatkov – ključno za modele AI

Mnogi si zamislijo robote, kot so tisti v znanstvenofantastičnih filmih, ki posnemajo ali celo presegajo človeški intelekt, ko slišijo izraze umetna inteligenca, globoko učenje in strojno učenje.

Drugi menijo, da te naprave samo sprejemajo informacije in se iz njih same učijo. No… Malo je varljivo. Označevanje podatkov je metoda, ki se uporablja za usposabljanje računalnikov, da postanejo »pametni«, saj imajo omejene zmogljivosti brez človeških navodil.

Da bi računalnik usposobili za »pametno« delovanje, vnašamo podatke v različnih oblikah in ga s pomočjo označevanja podatkov naučimo različnih strategij.

Podatkovni nizi morajo biti opombe ali označeni s številnimi permutacijami istih informacij kot del znanosti, na kateri temelji označevanje podatkov.

Trud in predanost, vložena v končni izdelek, sta hvalevredna, tudi ko preseneti in nam olajša vsakdanje življenje.

V tem članku preberite več o označevanju podatkov, če želite izvedeti, kaj je, kako deluje, različne vrste označevanja podatkov, ovire in še veliko več.

Torej, kaj je označevanje podatkov?

In strojno učenjekaliber in narava vhodnih podatkov narekujeta kaliber in naravo izhoda. Natančnost vašega modela AI je izboljšana s kalibrom podatkov, ki se uporabljajo za njegovo usposabljanje.

Z drugimi besedami, označevanje podatkov je dejanje označevanja ali označevanja različnih nestrukturiranih ali strukturiranih nizov podatkov, da se računalnik nauči prepoznati razlike in vzorce med njimi.

Ilustracija vam bo pomagala to razumeti. Vsako rdečo luč je treba označiti na različnih slikah, da se računalnik nauči, da je rdeča luč znak za ustavitev.

Na podlagi tega AI razvije algoritem, ki bo v vsaki situaciji interpretiral rdečo luč kot znak za ustavitev. Druga ponazoritev je zmožnost kategoriziranja različnih naborov podatkov pod naslovi jazz, pop, rock, klasika in več, da se ločijo različne glasbene zvrsti.

Preprosto povedano, označevanje podatkov v strojnem učenju se nanaša na postopek zaznavanja neoznačenih podatkov (kot so fotografije, besedilne datoteke, videoposnetki itd.) in dodajanje ene ali več ustreznih oznak, ki ponujajo kontekst, tako da se lahko model strojnega učenja uči iz to.

Oznake bi lahko na primer povedale, ali rentgenski posnetek kaže tumor ali ne, katere besede so bile izrečene v zvočnem posnetku ali če je slika ptice ali avtomobila.

Označevanje podatkov je bistveno za številne primere uporabe, vključno s prepoznavanjem govora, računalniški vidin obdelavo naravnega jezika.

Označevanje podatkov: zakaj je pomembno?

Prvič, četrta industrijska revolucija je osredotočena na spretnost učnih strojev. Posledično se uvršča med najpomembnejše programske napredke sedanjosti.

Ustvariti je treba vaš sistem strojnega učenja, ki vključuje označevanje podatkov. Določa zmogljivosti sistema. Ni sistema, če podatki niso označeni.

Možnosti označevanja podatkov so omejene le z vašo ustvarjalnostjo. Vsako dejanje, ki ga lahko preslikate v sistem, se bo ponovilo s svežimi informacijami.

To pomeni, da bo vrsta, količina in raznolikost podatkov, ki jih lahko naučite sistem, določila njegovo inteligenco in zmogljivost.

Drugi je, da je delo z označevanjem podatkov pred delom na področju podatkovne znanosti. V skladu s tem je označevanje podatkov potrebno za podatkovno znanost. Napake in napake pri označevanju podatkov vplivajo na podatkovno znanost. Druga možnost je, če uporabimo bolj grob kliše, "smeti noter, smeti ven."

Tretjič, umetnost označevanja podatkov pomeni spremembo v tem, kako ljudje pristopijo k razvoju sistemov umetne inteligence. Hkrati izboljšujemo strukturo označevanja podatkov, da bi bolje izpolnili svoje cilje, namesto da samo poskušamo izboljšati matematične tehnike.

Na tem temelji sodobna avtomatizacija in je središče transformacije AI, ki trenutno poteka. Zdaj bolj kot kdaj koli prej je delo znanja mehanizirano.

Kako deluje označevanje podatkov?

Med postopkom označevanja podatkov se upošteva naslednji kronološki vrstni red.

Zbiranje podatkov

Podatki so temelj vsakega strojnega učenja. Začetna faza označevanja podatkov je sestavljena iz zbiranja ustrezne količine neobdelanih podatkov v različnih oblikah.

Zbiranje podatkov je lahko v eni od dveh oblik: ali prihaja iz notranjih virov, ki jih podjetje uporablja, ali prihaja iz javno dostopnih zunanjih virov.

Ker so v neobdelani obliki, je treba te podatke očistiti in obdelati, preden se ustvarijo oznake nabora podatkov. Model se nato usposobi z uporabo teh očiščenih in predhodno obdelanih podatkov. Ugotovitve bodo natančnejše, čim večji in bolj raznolik bo nabor podatkov.

Komentiranje podatkov

Po čiščenju podatkov strokovnjaki za področje pregledajo podatke in uporabijo oznake z uporabo več tehnik označevanja podatkov. Model ima smiseln kontekst, ki ga je mogoče uporabiti kot osnovno resnico.

To so spremenljivke, za katere želite, da jih model predvidi, na primer fotografije.

Zagotavljanje kakovosti

Kakovost podatkov, ki morajo biti verodostojni, natančni in dosledni, je ključnega pomena za uspeh usposabljanja modela ML. Izvajati je treba redne teste zagotavljanja kakovosti, da se zagotovi točno in pravilno označevanje podatkov.

Natančnost teh opomb je mogoče oceniti z uporabo tehnik zagotavljanja kakovosti, kot sta Consensus in Cronbachov alfa test. Pravilnost rezultatov je bistveno izboljšana z rutinskimi pregledi QA.

Modeli za usposabljanje in testiranje

Omenjeni postopki so smiselni le, če je pravilnost podatkov preverjena. Tehnika bo preizkušena z vključitvijo nestrukturiranega nabora podatkov, da se preveri, ali daje želene rezultate.

Strategije označevanja podatkov

Označevanje podatkov je naporen proces, ki zahteva pozornost do podrobnosti. Metoda, uporabljena za označevanje podatkov, se bo razlikovala glede na izjavo o težavi, koliko podatkov je treba označiti, kako zapleteni so podatki in slog.

Oglejmo si nekaj možnosti, ki jih ima vaše podjetje, odvisno od virov, ki jih ima, in časa, ki ga ima na voljo.

Označevanje podatkov v podjetju

Kot pove že ime, interno označevanje podatkov izvajajo strokovnjaki v podjetju. Ko imate dovolj časa, osebja in finančnih sredstev, je to najboljša možnost, saj zagotavlja najbolj natančno označevanje. Vendar se premika počasi.

Outsourcing

Druga možnost za dokončanje stvari je najem samostojnih sodelavcev za naloge označevanja podatkov, ki jih je mogoče odkriti na različnih trgih za iskanje zaposlitve in samostojnih delavcev, kot je Upwork.

Zunanje izvajanje je hitra možnost za pridobitev storitev označevanja podatkov, vendar bi lahko bila kakovost prizadeta, podobno kot pri prejšnji metodi.

crowdsourcing

Lahko se prijavite kot prijavitelj in razdelite različna opravila označevanja razpoložljivim izvajalcem na specializiranih platformah za množično iskanje, kot je Amazon Mehanični Turk (MTurk).

Čeprav je metoda nekoliko hitra in poceni, ne more zagotoviti kakovostnih označenih podatkov.

Samodejno označevanje podatkov.

Poleg ročnega izvajanja postopka lahko pomaga programska oprema. Z uporabo pristopa aktivnega učenja je mogoče oznake samodejno najti in dodati v nabor podatkov o usposabljanju.

V bistvu strokovnjaki za ljudi razvijejo model samodejnega označevanja z umetno inteligenco za označevanje neoznačenih neobdelanih podatkov. Nato se odločijo, ali je model ustrezno nanesel oznako. Ljudje odpravijo napake po neuspehu in ponovno usposobijo algoritem.

Razvoj sintetičnih podatkov.

Namesto podatkov iz resničnega sveta, sintetični podatki je označen nabor podatkov, ki je bil umetno izdelan. Proizvajajo ga algoritmi ali računalniške simulacije in se pogosto uporabljajo usposobiti modele strojnega učenja.

Sintetični podatki so odličen odgovor na vprašanja pomanjkanja in raznolikosti podatkov v kontekstu postopkov označevanja. Nastanek sintetični podatki iz nič ponuja rešitev.

Razvijalci nabora podatkov morajo biti sposobni prepoznati ustvarjanje 3D nastavitev z elementi in okolico modela. Upodablja se lahko toliko sintetičnih podatkov, kot jih potrebuje projekt.

Izzivi označevanja podatkov

Zahteva več časa in truda

Poleg tega, da je pridobivanje velikih količin podatkov zahtevno (zlasti za visoko specializirane industrije, kot je zdravstvo), je ročno označevanje vsakega podatka delovno intenzivno in težavno, saj potrebuje pomoč človeških označevalcev.

Skoraj 80 % časa, porabljenega za projekt v celotnem ciklu razvoja ML, je porabljenega za pripravo podatkov, ki vključuje označevanje.

Možnost nedoslednosti

Večino časa navzkrižno označevanje, ki se zgodi, ko veliko ljudi označi iste nize podatkov, povzroči večjo natančnost.

Ker pa imajo posamezniki včasih različne stopnje usposobljenosti, so lahko standardi za označevanje in same oznake nedosledni, kar je druga težava. Lahko se zgodi, da se dva ali več označevalcev ne strinja glede nekaterih oznak.

Na primer, en strokovnjak bi oceno hotela ocenil kot ugodno, drugi pa bi jo ocenil kot sarkastično in ji dal nizko oceno.

Domensko znanje

Čutili boste potrebo, da najamete etiketirke s specializiranim industrijskim znanjem za nekatere sektorje.

Komentatorji brez potrebnega znanja o domeni bodo imeli na primer zelo težave pri ustreznem označevanju elementov med ustvarjanjem aplikacije ML za zdravstveni sektor.

Nagnjenost k napakam

Ročno označevanje je podvrženo človeškim napakam, ne glede na to, kako dobro usposobljeni in previdni so vaši označevalci. Zaradi dejstva, da anotatorji pogosto delajo z ogromnimi nizi neobdelanih podatkov, je to neizogibno.

Predstavljajte si, da oseba označuje 100,000 slik z do 10 različnimi stvarmi.

Pogoste vrste označevanja podatkov

Računalniška vizija

Če želite razviti svoj nabor podatkov o usposabljanju, morate pri gradnji sistema računalniškega vida najprej označiti slike, slikovne pike ali ključne točke ali vzpostaviti mejo, ki popolnoma zapre digitalno sliko, znano kot omejevalni okvir.

Fotografije je mogoče kategorizirati na različne načine, vključno z vsebino (kaj je dejansko na sami sliki) in kakovostjo (kot so posnetki izdelkov v primerjavi z življenjskim slogom).

Slike lahko razdelimo tudi na segmente na ravni slikovnih pik. Model računalniškega vida, razvit z uporabo teh podatkov za usposabljanje, se lahko pozneje uporabi za samodejno razvrščanje slik, določanje lokacije predmetov, poudarjanje ključnih področij na sliki in segmentiranje slik.

Obdelava Natural Language

Preden ustvarite nabor podatkov za usposabljanje za obdelavo naravnega jezika, morate ročno izbrati ustrezne besedilne fragmente ali razvrstiti gradivo z določenimi oznakami.

Na primer, morda želite prepoznati govorne vzorce, razvrstiti lastna imena, kot so kraji in ljudje, in prepoznati besedilo na slikah, PDF-jih ali drugih medijih. Morda boste želeli določiti tudi občutek ali namen besedilnega sporočila.

Ustvarite omejevalne okvire okoli besedila v svojem naboru podatkov za usposabljanje, da to dosežete, in ga nato ročno prepišite.

Optično prepoznavanje znakov, identifikacija imena entitete in analiza čustev se izvajajo z uporabo modelov obdelave naravnega jezika.

Audio Processing

Obdelava zvoka pretvori vse vrste zvokov v strukturirano obliko, tako da jih je mogoče uporabiti pri strojnem učenju, vključno z govorom, zvoki živali (lajanje, žvižganje ali žvrgolenje) in hrupom zgradb (razbito steklo, skeniranje ali sirene).

Pogosto, preden lahko upravljate z zvokom, ga morate ročno pretvoriti v besedilo. Potem lahko s kategoriziranjem in dodajanjem oznak zvoku izveste več poglobljenih informacij o njem. Vaš nabor podatkov za usposabljanje je to tajni zvok.

zaključek

Skratka, prepoznavanje vaših podatkov je ključni del usposabljanja katerega koli modela AI. Hitro razvijajoča se organizacija pa si preprosto ne more privoščiti ročnega dela, ker je zamudno in energetsko intenzivno.

Poleg tega gre za postopek, ki je nagnjen k netočnosti in ne obljublja velike natančnosti. Ni nujno, da je tako težko, kar je odlična novica.

Današnje tehnologije označevanja podatkov omogočajo sodelovanje med ljudmi in stroji za zagotavljanje natančnih in uporabnih podatkov za različne aplikacije strojnega učenja.

Označevanje podatkov ključno za modele AI

Označevanje podatkov – ključno za modele AI

Torej, kaj je označevanje podatkov?

Označevanje podatkov: zakaj je pomembno?