Označovanie údajov – Rozhodujúce pre modely AI

Mnohí si predstavujú roboty ako tie zo sci-fi filmov, ktoré napodobňujú alebo dokonca prevyšujú ľudský intelekt, keď počujú výrazy umelá inteligencia, hlboké učenie a strojové učenie.

Iní si myslia, že tieto zariadenia iba prijímajú informácie a učia sa z nich samé. No... Je to trochu klamlivé. Označovanie údajov je metóda, ktorá sa používa na trénovanie počítačov, aby sa stali „inteligentnými“, pretože majú obmedzené možnosti bez ľudského pokynu.

Aby sme počítač naučili konať „inteligentne“, zadávame údaje v rôznych formách a učíme ho rôzne stratégie pomocou označovania údajov.

Súbory údajov musia byť označené alebo označené mnohými permutáciami rovnakých informácií ako súčasť vedeckého označovania údajov.

Úsilie a odhodlanie vložené do konečného produktu sú chvályhodné, aj keď prekvapia a uľahčia nám každodenný život.

V tomto článku sa dozviete o označovaní údajov, kde sa dozviete, čo to je, ako funguje, rôzne typy označovania údajov, prekážky a oveľa viac.

Čo je teda označovanie údajov?

In strojové učenie, kaliber a povaha vstupných údajov určujú kaliber a povahu výstupu. Presnosť vášho modelu AI je zvýšená kalibrom údajov použitých na jeho trénovanie.

Inými slovami, označovanie údajov je akt označovania alebo anotácie rôznych neštruktúrovaných alebo štruktúrovaných súborov údajov s cieľom naučiť počítač identifikovať rozdiely a vzory medzi nimi.

Ilustrácia vám to pomôže pochopiť. Je potrebné označiť každé červené svetlo na rôznych obrázkoch, aby sa počítač naučil, že červené svetlo je signál na zastavenie.

Na základe toho AI vyvíja algoritmus, ktorý v každej situácii interpretuje červené svetlo ako indikáciu zastavenia. Ďalšou ilustráciou je schopnosť kategorizovať rôzne súbory údajov pod hlavičkami jazz, pop, rock, klasika a ďalšie na oddelenie rôznych hudobných žánrov.

Zjednodušene povedané, označovanie údajov v rámci strojového učenia sa týka procesu zisťovania neoznačených údajov (ako sú fotografie, textové súbory, videá atď.) a pridávania jedného alebo viacerých relevantných označení, ktoré ponúkajú kontext, aby sa model strojového učenia mohol učiť z to.

Štítky môžu napríklad povedať, či röntgen ukazuje nádor alebo nie, ktoré slová boli povedané v audio klipe, alebo či je obrázok vtáka alebo auta.

Označovanie údajov je nevyhnutné pre množstvo prípadov použitia vrátane rozpoznávania reči, počítačová víziaa spracovanie prirodzeného jazyka.

Označovanie údajov: Prečo je dôležité?

Po prvé, štvrtá priemyselná revolúcia sa sústreďuje na zručnosť cvičných strojov. Vďaka tomu sa radí medzi najvýznamnejšie softvérové pokroky súčasnosti.

Musí byť vytvorený váš systém strojového učenia, ktorý zahŕňa označovanie údajov. Stanovuje schopnosti systému. Neexistuje žiadny systém, ak údaje nie sú označené.

Možnosti označovania údajov sú obmedzené len vašou kreativitou. Akákoľvek akcia, ktorú môžete namapovať do systému, sa zopakuje s novými informáciami.

To znamená, že typ, množstvo a rozmanitosť údajov, ktoré môžete systém naučiť, určia jeho inteligenciu a schopnosti.

Druhým je, že práca na označovaní údajov má prednosť pred prácou v oblasti vedy o údajoch. Označovanie údajov je preto potrebné pre vedu o údajoch. Zlyhania a chyby v označovaní údajov ovplyvňujú vedu o údajoch. Prípadne použiť hrubšie klišé, „vyhoďte odpadky, vyhoďte“.

Po tretie, The Art of Data Labeling znamená zmenu v tom, ako ľudia pristupujú k vývoju systémov AI. Súčasne zdokonaľujeme štruktúru označovania údajov, aby sme lepšie splnili naše ciele, než sa len pokúšame vylepšiť matematické techniky.

Na tomto je založená moderná automatizácia a je centrom práve prebiehajúcej transformácie AI. Teraz sa viac ako kedykoľvek predtým mechanizuje práca so znalosťami.

Ako funguje označovanie údajov?

Počas postupu označovania údajov sa dodržiava nasledujúce chronologické poradie.

Zbieranie dát

Údaje sú základným kameňom každého strojového učenia. Počiatočná fáza označovania údajov pozostáva zo zberu primeraného množstva nespracovaných údajov v rôznych formách.

Zber údajov môže mať jednu z dvoch foriem: buď pochádza z interných zdrojov, ktoré podnik využíva, alebo pochádza z verejne dostupných externých zdrojov.

Keďže sú v surovej forme, tieto údaje je potrebné vyčistiť a spracovať pred vytvorením štítkov množiny údajov. Model je potom trénovaný pomocou týchto vyčistených a predspracovaných údajov. Zistenia budú presnejšie, čím väčší a rozmanitejší bude súbor údajov.

Poznámky k údajom

Po vyčistení údajov doménoví experti preskúmajú údaje a aplikujú štítky pomocou niekoľkých techník označovania údajov. Model má zmysluplný kontext, ktorý možno použiť ako základnú pravdu.

Toto sú premenné, ktoré chcete, aby model predpovedal, napríklad fotografie.

Zabezpečenie kvality

Kvalita údajov, ktoré by mali byť dôveryhodné, presné a konzistentné, je rozhodujúca pre úspech školenia modelu ML. Aby sa zaručilo presné a správne označovanie údajov, musia sa vykonávať pravidelné testy kvality.

Je možné posúdiť presnosť týchto anotácií pomocou techník QA, ako je Consensus a Cronbachov alfa test. Správnosť výsledkov sa výrazne zlepšuje rutinnými kontrolami kvality.

Školiace a testovacie modely

Vyššie uvedené postupy majú zmysel len vtedy, ak sa kontroluje správnosť údajov. Technika sa otestuje zahrnutím neštruktúrovaného súboru údajov, aby sa skontrolovalo, či prináša požadované výsledky.

Stratégie označovania údajov

Označovanie údajov je namáhavý proces, ktorý si vyžaduje pozornosť k detailom. Metóda použitá na anotáciu údajov sa bude líšiť v závislosti od vyhlásenia o probléme, množstva údajov, ktoré je potrebné označiť, komplikovanosti údajov a štýlu.

Pozrime sa na niektoré z možností, ktoré má vaša firma v závislosti od zdrojov, ktoré má, a času, ktorý má k dispozícii.

Označovanie údajov vo vlastnej réžii

Ako už názov napovedá, interné označovanie údajov vykonávajú odborníci v rámci spoločnosti. Ak máte dostatok času, personálu a finančných zdrojov, je to najlepšia voľba, pretože zaisťuje najpresnejšie označovanie. Pohybuje sa však pomaly.

outsourcing

Ďalšou možnosťou, ako niečo urobiť, je najať si nezávislých pracovníkov na úlohy označovania údajov, ktorých možno nájsť na rôznych trhoch hľadajúcich prácu a nezávislých trhoch, ako je Upwork.

Outsourcing je rýchla možnosť získania služieb označovania údajov, kvalita však môže utrpieť, podobne ako pri predchádzajúcej metóde.

crowdsourcing

Môžete sa prihlásiť ako žiadateľ a distribuovať rôzne úlohy označovania dostupným dodávateľom na špecializovaných platformách crowdsourcingu, ako je napr. Amazon Mechanical Turk (MTurk).

Táto metóda, hoci je trochu rýchla a lacná, nemôže poskytnúť kvalitné anotované údaje.

Automatické označovanie údajov.

Tento postup môže byť okrem manuálneho vykonávania podporovaný aj softvérom. Pomocou prístupu aktívneho učenia možno značky automaticky nájsť a pridať do množiny údajov o tréningu.

V podstate ľudskí špecialisti vyvíjajú model automatického označovania AI na označenie neoznačených nespracovaných údajov. Potom sa rozhodnú, či model správne použil označenie. Ľudia opravia chyby po zlyhaní a preškolia algoritmus.

Vývoj syntetických údajov.

Namiesto údajov z reálneho sveta syntetické údaje je označený súbor údajov, ktorý bol vyrobený umelo. Vyrába sa pomocou algoritmov alebo počítačových simulácií a často sa používa trénovať modely strojového učenia.

Syntetické údaje sú vynikajúcou odpoveďou na problémy s nedostatkom a rozmanitosťou údajov v kontexte postupov označovania. Vytvorenie syntetické údaje od začiatku ponúka riešenie.

Vytvorenie 3D nastavení s položkami a okolím modelu musia byť schopní rozpoznať vývojári dátových množín. Je možné vykresliť toľko syntetických údajov, koľko je potrebné pre projekt.

Výzvy označovania údajov

Vyžaduje viac času a úsilia

Okrem toho, že je náročné získať veľké množstvo údajov (najmä pre vysoko špecializované odvetvia, ako je zdravotníctvo), ručné označovanie každého kusu údajov je náročné na prácu a namáhavé, čo si vyžaduje pomoc ľudí, ktorí označujú štítky.

Takmer 80 % času stráveného na projekte počas celého cyklu vývoja ML sa venuje príprave dát, ktorá zahŕňa označovanie.

Možnosť nesúladu

Krížové označovanie, ku ktorému dochádza, keď mnohí ľudia označujú rovnaké súbory údajov, väčšinou vedie k väčšej presnosti.

Keďže však jednotlivci majú niekedy rôzne stupne kompetencií, normy označovania a samotné označenia môžu byť nekonzistentné, čo je ďalší problém. Je možné, že dvaja alebo viacerí anotátori sa na niektorých značkách nezhodnú.

Jeden odborník by napríklad mohol ohodnotiť recenziu hotela ako priaznivú, zatiaľ čo iný by ju považoval za sarkastickú a priradil by jej nízke hodnotenie.

Znalosť domény

Pre niektoré sektory budete cítiť potrebu najať si etiketovačov so špecializovanými znalosťami v tomto odvetví.

Napríklad anotátori bez potrebných doménových znalostí budú mať pri vytváraní aplikácie ML pre sektor zdravotníctva veľmi ťažké správne označovať položky.

Sklon k chybám

Manuálne označovanie podlieha ľudským chybám, bez ohľadu na to, ako dobre informovaní a opatrní sú vaši etiketovači. Vzhľadom na skutočnosť, že anotátori často pracujú s obrovskými súbormi nespracovaných údajov, je to nevyhnutné.

Predstavte si človeka, ktorý anotuje 100,000 10 obrázkov až XNUMX rôznymi vecami.

Bežné typy označovania údajov

Počítačové videnie

Ak chcete vytvoriť svoj tréningový súbor údajov, musíte najprv označiť obrázky, pixely alebo kľúčové body alebo vytvoriť hranicu, ktorá úplne obklopí digitálny obrázok, známy ako ohraničujúci box, pri budovaní systému počítačového videnia.

Fotografie je možné kategorizovať rôznymi spôsobmi, vrátane obsahu (čo je v skutočnosti na samotnom obrázku) a kvality (napríklad zábery produktov a životného štýlu).

Obrázky je možné rozdeliť aj na segmenty na úrovni pixelov. Model počítačového videnia vyvinutý pomocou týchto tréningových údajov sa môže následne použiť na automatickú klasifikáciu snímok, určenie polohy objektov, zvýraznenie kľúčových oblastí na snímke a segmentovanie snímok.

Spracovanie prirodzeného jazyka

Pred vytvorením tréningového súboru údajov na spracovanie prirodzeného jazyka musíte manuálne vybrať relevantné textové fragmenty alebo klasifikovať materiál pomocou špecifikovaných štítkov.

Môžete napríklad chcieť rozpoznávať rečové vzory, klasifikovať vlastné podstatné mená, ako sú miesta a ľudia, a identifikovať text v obrázkoch, súboroch PDF alebo iných médiách. Môžete tiež chcieť určiť náladu alebo zámer textovej reklamy.

Vytvorte ohraničovacie rámčeky okolo textu v množine tréningových údajov, aby ste to dosiahli, a potom ho ručne prepíšte.

Optické rozpoznávanie znakov, identifikácia názvu entity a analýza sentimentu sa vykonávajú pomocou modelov spracovania prirodzeného jazyka.

Spracovanie Audio

Spracovanie zvuku transformuje všetky typy zvukov do štruktúrovaného formátu tak, aby ich bolo možné využiť v strojovom učení, vrátane reči, zvieracích zvukov (štekot, pískanie alebo cvrlikanie) a zvukov budov (rozbité sklo, skenovanie alebo sirény).

Často, než budete môcť pracovať so zvukom, musíte ho manuálne previesť na text. Potom, kategorizáciou a pridaním značiek k zvuku, sa o ňom môžete dozvedieť podrobnejšie informácie. Váš tréningový súbor údajov je to klasifikovaný zvuk.

záver

Na záver, identifikácia vašich údajov je kľúčovou súčasťou tréningu akéhokoľvek modelu AI. Rýchla organizácia si však jednoducho nemôže dovoliť tráviť čas manuálnou prácou, pretože je to časovo a energeticky náročné.

Navyše je to postup, ktorý je náchylný na nepresnosti a nesľubuje veľkú presnosť. Nemusí to byť také ťažké, čo je výborná správa.

Dnešné technológie označovania údajov umožňujú spoluprácu medzi ľuďmi a strojmi s cieľom poskytnúť presné a užitočné údaje pre rôzne aplikácie strojového učenia.

Označovanie údajov je rozhodujúce pre modely AI

Označovanie údajov – rozhodujúce pre modely AI

Čo je teda označovanie údajov?

Označovanie údajov: Prečo je dôležité?