Етикетиране на данни - от решаващо значение за AI модели

Съдържание[Крия][Покажи]

И така, какво е етикетиране на данни?
Етикетиране на данни: Защо е важно?
Как функционира етикетирането на данни?+-
Стратегии за етикетиране на данни+-
Предизвикателства при етикетирането на данни+-
Често срещани типове етикетиране на данни+-
Заключение

Мнозина си представят роботи като тези от научнофантастичните филми, които имитират или дори надминават човешкия интелект, когато чуят термините изкуствен интелект, задълбочено обучение и машинно обучение.

Други смятат, че тези устройства просто приемат информация и се учат от нея сами. Е… Това е малко измамно. Етикетирането на данни е методът, използван за обучение на компютрите да станат „умни“, тъй като те имат ограничени възможности без човешка инструкция.

За да обучим компютъра да действа „умно“, ние въвеждаме данните в различни форми и го обучаваме на различни стратегии с помощта на етикетиране на данни.

Наборите от данни трябва да бъдат анотирани или етикетирани с множество пермутации на една и съща информация като част от науката, която е в основата на етикетирането на данни.

Усилието и отдадеността, вложени в крайния продукт, са похвални, дори когато изненадва и улеснява ежедневието ни.

Научете за етикетирането на данни в тази статия, за да научите какво представлява, как функционира, различни видове етикетиране на данни, препятствия и много повече.

И така, какво е етикетиране на данни?

In машинно обучение, калибърът и естеството на входните данни диктуват калибъра и естеството на изхода. Точността на вашия AI модел се подобрява от калибъра на данните, използвани за неговото обучение.

С други думи, етикетирането на данни е актът на етикетиране или анотиране на различни неструктурирани или структурирани набори от данни, за да се научи компютърът да идентифицира разликите и моделите между тях.

Една илюстрация ще ви помогне да разберете това. Необходимо е да се маркира всяка червена светлина в различни изображения, за да научи компютърът, че червената светлина е сигнал за спиране.

Въз основа на това AI разработва алгоритъм, който във всяка ситуация ще интерпретира червена светлина като индикация за спиране. Друга илюстрация е възможността за категоризиране на различни набори от данни под заглавията джаз, поп, рок, класика и други, за да се разделят различните музикални жанрове.

Казано по-просто, етикетирането на данни в машинното обучение се отнася до процеса на откриване на немаркирани данни (като снимки, текстови файлове, видеоклипове и т.н.) и добавяне на един или повече подходящи етикети, за да предложи контекст, така че моделът на машинно обучение да може да се учи от то.

Етикетите могат да казват например дали рентгеновата снимка показва тумор или не, кои думи са казани в аудио клип или дали снимка на птица или автомобил.

Етикетирането на данни е от съществено значение за редица случаи на употреба, включително разпознаване на реч, компютърно зрениеи обработка на естествен език.

Етикетиране на данни: Защо е важно?

Първо, четвъртата индустриална революция е съсредоточена върху уменията за обучение на машини. В резултат на това той се нарежда сред най-значимите софтуерни постижения на настоящето.

Вашата система за машинно обучение трябва да бъде създадена, което включва етикетиране на данни. Той установява възможностите на системата. Няма система, ако данните не са етикетирани.

Възможностите с етикетиране на данни са ограничени само от вашата креативност. Всяко действие, което можете да картографирате в системата, ще се повтори с нова информация.

Това означава, че типът, количеството и разнообразието от данни, които можете да научите на системата, ще определят нейния интелект и възможности.

Второто е, че работата по етикетирането на данни е преди работата по науката за данните. Съответно етикетирането на данни е необходимо за науката за данните. Неуспехи и грешки в етикетирането на данни засягат науката за данните. Като алтернатива, за да използваме по-грубо клише, „боклук навътре, боклук навън“.

Трето, Изкуството на етикетирането на данни означава промяна в начина, по който хората подхождат към разработването на AI системи. Едновременно с това усъвършенстваме структурата на етикетирането на данни, за да постигнем по-добре нашите цели, вместо само да се опитваме да подобрим математическите техники.

Съвременната автоматизация се основава на това и е центърът на трансформацията на ИИ, която в момента е в ход. Сега повече от всякога работата със знания се механизира.

Как функционира етикетирането на данни?

По време на процедурата за етикетиране на данните се следва следният хронологичен ред.

Събиране на данни

Данните са крайъгълният камък на всяко начинание за машинно обучение. Първоначалният етап в етикетирането на данни се състои от събиране на подходящо количество необработени данни в различни форми.

Събирането на данни може да приеме една от двете форми: или идва от вътрешни източници, които бизнесът използва, или идва от публично достъпни външни източници.

Тъй като са в необработена форма, тези данни трябва да бъдат почистени и обработени, преди да се направят етикетите на набора от данни. След това моделът се обучава с помощта на тези почистени и предварително обработени данни. Констатациите ще бъдат по-точни, колкото по-голям и по-разнообразен е наборът от данни.

Данни за анотиране

След почистването на данните експертите по домейна изследват данните и прилагат етикети, като използват няколко техники за етикетиране на данни. Моделът има смислен контекст, който може да се използва като основна истина.

Това са променливите, които искате моделът да предвиди, като например снимките.

Гаранция за качество

Качеството на данните, които трябва да бъдат надеждни, точни и последователни, е от решаващо значение за успеха на обучението по ML модели. Трябва да се прилагат редовни QA тестове, за да се гарантира това точно и правилно етикетиране на данните.

Възможно е да се оцени точността на тези анотации чрез използване на техники за осигуряване на качеството като консенсус и алфа тест на Кронбах. Коректността на резултатите се подобрява значително чрез рутинни проверки на качеството.

Модели за обучение и тестване

Гореспоменатите процедури имат смисъл само ако данните са проверени за коректност. Техниката ще бъде подложена на тест чрез включване на неструктурирания набор от данни, за да се провери дали дава желаните резултати.

Стратегии за етикетиране на данни

Етикетирането на данни е трудоемък процес, който изисква внимание към детайла. Методът, използван за анотиране на данни, ще варира в зависимост от изложението на проблема, колко данни трябва да бъдат маркирани, колко сложни са данните и стила.

Нека да разгледаме някои от опциите, с които разполага вашият бизнес, в зависимост от ресурсите, с които разполага, и времето, с което разполага.

Вътрешно етикетиране на данни

Както подсказва името, вътрешното етикетиране на данни се извършва от експерти в компанията. Когато имате достатъчно време, персонал и финансови ресурси, това е най-добрият вариант, тъй като осигурява най-точното етикетиране. Въпреки това се движи бавно.

Аутсорсинг

Друга възможност да свършите нещата е да наемете служители на свободна практика за задачи за етикетиране на данни, които могат да бъдат открити на различни пазари за търсене на работа и свободна практика като Upwork.

Аутсорсингът е бърз вариант за получаване на услуги за етикетиране на данни, но качеството може да пострада, подобно на предишния метод.

Crowdsourcing

Можете да влезете като подател на заявка и да разпределите различни задачи за етикетиране на налични изпълнители в специализирани платформи за краудсорсинг като Амазонски механичен турчин (MTurk).

Методът, макар и донякъде бърз и евтин, не може да осигури анотирани данни с добро качество.

Автоматично етикетиране на данни.

Процедурата може да бъде подпомогната от софтуер в допълнение към извършването ръчно. Използвайки подхода за активно обучение, етикетите могат да бъдат автоматично намерени и добавени към набора от данни за обучение.

По същество човешките специалисти разработват AI Auto-label модел за маркиране на немаркирани, необработени данни. След това решават дали моделът правилно е приложил етикета. Хората поправят грешките след провал и преобучават алгоритъма.

Разработване на синтетични данни.

Вместо данни от реалния свят, синтетични данни е етикетиран набор от данни, който е произведен изкуствено. Произвежда се чрез алгоритми или компютърни симулации и често се използва за обучете модели за машинно обучение.

Синтетичните данни са отличен отговор на проблемите с недостига и разнообразието на данни в контекста на процедурите за етикетиране. Създаването на синтетични данни от нулата предлага решение.

Създаването на 3D настройки с елементите и около модела трябва да може да се разпознае от разработчиците на набор от данни. Могат да бъдат изобразени толкова синтетични данни, колкото са необходими за проекта.

Предизвикателства при етикетирането на данни

Изисква повече време и усилия

Освен че е предизвикателство да се получат големи количества данни (особено за високоспециализирани индустрии като здравеопазване), ръчното етикетиране на всяка част от данните е както трудоемко, така и трудоемко, което налага помощта на хора, етикетиращи.

Почти 80% от времето, изразходвано за проект през целия цикъл на разработка на ML, се изразходва за подготовка на данни, което включва етикетиране.

Възможност за несъответствие

През повечето време кръстосаното етикетиране, което се случва, когато много хора етикетират едни и същи набори от данни, води до по-голяма точност.

Въпреки това, тъй като индивидите понякога имат различна степен на компетентност, стандартите за етикетиране и самите етикети могат да бъдат непоследователни, което е друг проблем. Възможно е двама или повече анотатори да не са съгласни по някои тагове.

Например, един експерт би могъл да оцени рецензията за хотел като благоприятна, докато друг би я сметнал за саркастична и би я оценил с ниска оценка.

Знания в областта

Ще почувствате необходимостта да наемете етикетьори със специализирани познания в индустрията за някои сектори.

Анотаторите без необходимите познания за домейна, например, ще имат много трудности при правилното маркиране на елементите, докато създават ML приложение за сектора на здравеопазването.

Склонност към грешки

Ръчното етикетиране е обект на човешки грешки, независимо от това колко компетентни и внимателни са вашите етикетиращи. Поради факта, че анотаторите често работят с огромни масиви от необработени данни, това е неизбежно.

Представете си човек, който анотира 100,000 10 изображения с до XNUMX различни неща.

Често срещани типове етикетиране на данни

Компютърно зрение

За да развиете своя набор от данни за обучение, първо трябва да маркирате картини, пиксели или ключови точки или да установите граница, която напълно затваря цифрово изображение, известно като ограничителна кутия, когато изграждате система за компютърно зрение.

Снимките могат да бъдат категоризирани по различни начини, включително по съдържание (какво всъщност е в самото изображение) и качество (като снимки на продукт спрямо начин на живот).

Изображенията също могат да бъдат разделени на сегменти на ниво пиксел. Моделът на компютърното зрение, разработен с помощта на тези данни за обучение, може впоследствие да се използва за автоматично класифициране на изображения, определяне на местоположението на обекти, подчертаване на ключови области в изображение и сегментиране на изображения.

Natural Language Processing

Преди да създадете набор от данни за обучение за обработка на естествен език, трябва ръчно да изберете подходящи текстови фрагменти или да класифицирате материала с определени етикети.

Например, бихте могли да искате да разпознавате речеви модели, да класифицирате собствени имена като места и хора и да идентифицирате текст в изображения, PDF файлове или други медии. Може също така да искате да определите настроението или намерението на текстово резюме.

Създайте ограничителни полета около текста във вашия набор от данни за обучение, за да постигнете това, и след това го транскрибирайте ръчно.

Оптично разпознаване на символи, идентификация на името на обекта и анализ на настроението се извършват с помощта на модели за обработка на естествен език.

Audio Processing

Аудио обработката трансформира всички типове звуци в структуриран формат, така че да могат да се използват в машинно обучение, включително говор, животински шум (лай, свирки или чуруликане) и шум от сгради (счупено стъкло, сканиране или сирени).

Често, преди да можете да обработвате аудио, трябва ръчно да го конвертирате в текст. След това, чрез категоризиране и добавяне на етикети към аудиото, можете да научите по-задълбочена информация за него. Вашият набор от данни за обучение това класифицирано аудио ли е.

Заключение

В заключение, идентифицирането на вашите данни е решаваща част от обучението на всеки AI модел. Една бързо развиваща се организация обаче просто не може да си позволи да прекарва време, правейки го ръчно, защото това отнема време и е енергоемко.

Освен това, това е процедура, която е склонна към неточности и не обещава голяма точност. Не е нужно да е толкова трудно, което е отлична новина.

Днешните технологии за етикетиране на данни позволяват сътрудничество между хора и машини за предоставяне на точни и полезни данни за различни приложения за машинно обучение.

Етикетирането на данни от решаващо значение за AI модели

Етикетиране на данни – Решаващо за AI модели

И така, какво е етикетиране на данни?

Етикетиране на данни: Защо е важно?