Маркіроўка даных - важная для мадэляў штучнага інтэлекту

Змест[Схаваць][Паказаць]

Такім чынам, што такое маркіроўка дадзеных?
Маркіроўка дадзеных: чаму гэта важна?
Як функцыя маркіроўкі даных?+-
Стратэгіі маркіроўкі даных+-
Праблемы маркіроўкі даных+-
Распаўсюджаныя тыпы маркіроўкі даных+-
заключэнне

Шмат хто ўяўляе сабе робатаў, падобных да тых, што ў навукова-фантастычных фільмах, якія імітуюць або нават пераўзыходзяць чалавечы інтэлект, калі чуюць тэрміны штучны інтэлект, глыбокае навучанне і машыннае навучанне.

Іншыя думаюць, што гэтыя прылады проста прымаюць інфармацыю і вучацца на ёй самастойна. Ну… Крыху падманліва. Маркіроўка даных - гэта метад, які выкарыстоўваецца для навучання кампутараў "разумнасці", паколькі яны маюць абмежаваныя магчымасці без інструкцый чалавека.

Каб навучыць кампутар дзейнічаць «разумна», мы ўводзім дадзеныя ў розных формах і навучаем яго розным стратэгіям з дапамогай маркіроўкі даных.

Наборы даных павінны быць анатаваны або пазначаны шматлікімі перастаноўкамі адной і той жа інфармацыі ў рамках навукі, якая ляжыць у аснове маркіроўкі даных.

Намаганні і самаадданасць, укладзеныя ў канчатковы прадукт, заслугоўваюць пахвалы, нават калі ён здзіўляе і палягчае наша паўсядзённае жыццё.

Даведайцеся аб маркіроўцы даных у гэтым артыкуле, каб даведацца, што гэта такое, як функцыянуе, розныя тыпы маркіроўкі даных, перашкоды і многае іншае.

Такім чынам, што такое маркіроўка дадзеных?

In навучанне з дапамогай машыны, калібр і характар уваходных даных дыктуюць калібр і характар выхаду. Дакладнасць вашай мадэлі штучнага інтэлекту павышаецца калібрам даных, якія выкарыстоўваюцца для яе навучання.

Іншымі словамі, маркіроўка даных - гэта акт пазначэння або анатавання розных неструктураваных або структураваных набораў даных, каб навучыць кампутар вызначаць адрозненні і заканамернасці паміж імі.

Ілюстрацыя дапаможа вам гэта зразумець. Неабходна пазначыць кожнае чырвонае святло на розных малюнках, каб кампутар даведаўся, што чырвонае святло з'яўляецца сігналам да прыпынку.

На аснове гэтага штучны інтэлект распрацоўвае алгарытм, які ў кожнай сітуацыі будзе інтэрпрэтаваць чырвонае святло як індыкатар прыпынку. Яшчэ адной ілюстрацыяй з'яўляецца магчымасць класіфікаваць розныя наборы даных па загалоўках джаз, поп, рок, класіка і многае іншае, каб падзяліць розныя музычныя жанры.

Прасцей кажучы, маркіроўка даных у машынным навучанні адносіцца да працэсу выяўлення немаркіраваных даных (такіх як фатаграфіі, тэкставыя файлы, відэа і г.д.) і дадання адной або некалькіх адпаведных метак, каб прапанаваць кантэкст, каб мадэль машыннага навучання магла вучыцца на іх гэта.

На этыкетках можа быць указана, напрыклад, калі рэнтген паказвае пухліну ці не, якія словы былі сказаны ў аўдыякліпе, ці выява птушкі ці аўтамабіля.

Маркіроўка даных вельмі важная для шэрагу варыянтаў выкарыстання, у тым ліку для распазнання маўлення, машыннае зрок, і апрацоўка натуральнай мовы.

Маркіроўка дадзеных: чаму гэта важна?

Па-першае, чацвёртая прамысловая рэвалюцыя сканцэнтравана на майстэрстве падрыхтоўкі машын. У выніку ён уваходзіць у лік самых значных праграмных дасягненняў сучаснасці.

Павінна быць створана ваша сістэма машыннага навучання, якая прадугледжвае маркіроўку даных. Ён вызначае магчымасці сістэмы. Няма сістэмы, калі даныя не пазначаны.

Магчымасці маркіроўкі даных абмежаваныя толькі вашай творчасцю. Любое дзеянне, якое вы можаце адлюстраваць у сістэме, будзе паўтарацца са свежай інфармацыяй.

Гэта азначае, што тып, колькасць і разнастайнасць даных, якім вы можаце навучыць сістэму, будуць вызначаць яе інтэлект і магчымасці.

Па-другое, праца па маркіроўцы даных ідзе раней за працу па навуцы даных. Адпаведна, маркіроўка дадзеных неабходная для навукі аб дадзеных. Няўдачы і памылкі ў маркіроўцы даных уплываюць на навуку аб даных. У якасці альтэрнатывы, калі выкарыстоўваць больш грубае клішэ, «смецце ў, смецце прэч».

Па-трэцяе, "Мастацтва маркіроўкі даных" азначае змяненне таго, як людзі падыходзяць да распрацоўкі сістэм штучнага інтэлекту. Адначасова мы ўдасканальваем структуру маркіроўкі даных, каб лепш адпавядаць нашым мэтам, а не проста спрабаваць палепшыць матэматычныя метады.

На гэтым заснавана сучасная аўтаматызацыя, і гэта цэнтр трансфармацыі штучнага інтэлекту, якая зараз праводзіцца. Зараз, як ніколі, механізуецца праца ведаў.

Як функцыя маркіроўкі даных?

Падчас працэдуры маркіроўкі дадзеных выконваецца наступны храналагічны парадак.

Збор даных

Дадзеныя з'яўляюцца краевугольным каменем любога машыннага навучання. Пачатковы этап маркіроўкі даных заключаецца ў зборы адпаведнай колькасці зыходных даных у розных формах.

Збор даных можа прымаць адну з дзвюх формаў: альбо з унутраных крыніц, якімі карыстаецца кампанія, альбо з агульнадаступных знешніх крыніц.

Паколькі гэтыя даныя знаходзяцца ў неапрацаваным выглядзе, іх неабходна ачысціць і апрацаваць перад стварэннем этыкетак набору даных. Затым мадэль навучаецца з дапамогай гэтых вычышчаных і папярэдне апрацаваных даных. Высновы будуць тым больш дакладнымі, чым большым і больш разнастайным будзе набор даных.

Анатавальныя даныя

Пасля ачысткі даных эксперты дамена вывучаюць даныя і наносяць пазнакі з выкарыстаннем некалькіх метадаў пазначэння даных. Мадэль мае значны кантэкст, які можа быць выкарыстаны ў якасці асноўнай праўды.

Гэта зменныя, якія вы хочаце, каб мадэль прадказала, напрыклад, фатаграфіі.

Гарантыя якасці

Якасць даных, якія павінны быць надзейнымі, дакладнымі і паслядоўнымі, мае вырашальнае значэнне для поспеху навучання мадэлі ML. Неабходна праводзіць рэгулярныя тэсты кантролю якасці, каб гарантаваць гэтыя дакладныя і правільныя маркіроўкі дадзеных.

Можна ацаніць дакладнасць гэтых анатацый, выкарыстоўваючы такія метады кантролю якасці, як кансенсус і альфа-тэст Кронбаха. Правільнасць вынікаў значна паляпшаецца шляхам планавых праверак якасці.

Мадэлі для навучання і тэсціравання

Вышэйзгаданыя працэдуры маюць сэнс толькі ў тым выпадку, калі дадзеныя правяраюцца на правільнасць. Тэхніка будзе правярацца шляхам уключэння неструктураванага набору даных, каб праверыць, ці дае яна жаданыя вынікі.

Стратэгіі маркіроўкі даных

Маркіроўка дадзеных - працаёмкі працэс, які патрабуе ўвагі да дэталяў. Метад, які выкарыстоўваецца для анатавання даных, будзе вар'іравацца ў залежнасці ад пастаноўкі праблемы, аб'ёму даных, які трэба пазначыць, наколькі складаных даных і стылю.

Давайце разгледзім некаторыя варыянты, якія ёсць у вашага бізнесу, у залежнасці ад наяўных у яго рэсурсаў і часу.

Уласная маркіроўка даных

Як вынікае з назвы, унутраная маркіроўка даных праводзіцца спецыялістамі кампаніі. Калі ў вас дастаткова часу, персаналу і фінансавых рэсурсаў, гэта лепшы варыянт, паколькі ён забяспечвае найбольш дакладную маркіроўку. Аднак рухаецца павольна.

Аўтсорсінг

Іншы варыянт выканання задач - наняць фрылансераў для выканання задач маркіроўкі даных, якіх можна знайсці на розных рынках пошуку працы і фрылансераў, такіх як Upwork.

Аўтсорсінг - гэта хуткі варыянт атрымання паслуг маркіроўкі даных, аднак якасць можа пагоршыцца, як і ў папярэднім метадзе.

Краудсорсінг

Вы можаце ўвайсці ў сістэму ў якасці запытальніка і распаўсюджваць розныя заданні па этыкетцы даступным падрадчыкам на спецыялізаваных платформах краўдсорсінгу, такіх як Amazon Mechanical Turk (МТурк).

Гэты метад, хоць і даволі хуткі і недарагі, не можа забяспечыць якасныя анатаваныя даныя.

Аўтаматычная маркіроўка даных.

У дадатак да выканання працэдуры ўручную можа дапамагчы праграмнае забеспячэнне. Выкарыстоўваючы падыход актыўнага навучання, тэгі могуць быць аўтаматычна знойдзены і дададзены ў навучальны набор дадзеных.

Па сутнасці, спецыялісты па людзях распрацоўваюць мадэль аўтаматычнай маркіроўкі штучным інтэлектам для маркіроўкі зыходных даных без маркіроўкі. Затым яны вырашаюць, ці правільна мадэль нанесла маркіроўку. Людзі выпраўляюць памылкі пасля няўдачы і перавучваюць алгарытм.

Распрацоўка сінтэтычных даных.

Замест рэальных даных, сінтэтычныя дадзеныя гэта пазначаны набор даных, выраблены штучна. Ён вырабляецца з дапамогай алгарытмаў або камп'ютэрнага мадэлявання і часта выкарыстоўваецца навучанне мадэлям машыннага навучання.

Сінтэтычныя даныя - выдатны адказ на праблемы дэфіцыту і разнастайнасці даных у кантэксце працэдур маркіроўкі. Стварэнне сінтэтычныя дадзеныя з нуля прапануе рашэнне.

Распрацоўшчыкі набору даных павінны ўмець распазнаваць стварэнне 3D-налад з элементамі і вакол мадэлі. Можа быць адлюстравана столькі сінтэтычных даных, колькі патрабуецца для праекта.

Праблемы маркіроўкі даных

Патрабуе больш часу і сіл

У дадатак да складанай задачы па атрыманні вялікіх аб'ёмаў даных (асабліва для вузкаспецыялізаваных галін, такіх як ахова здароўя), маркіроўка кожнай часткі даных уручную з'яўляецца працаёмкай і карпатлівай, што патрабуе дапамогі людзей, якія цэтлікуюць этыкеткі.

Амаль 80% часу, затрачанага на праект за ўвесь цыкл распрацоўкі ML, траціцца на падрыхтоўку даных, у тым ліку маркіроўку.

Магчымасць неадпаведнасці

Часцей за ўсё перакрыжаванае пазначэнне, якое адбываецца, калі многія людзі пазначаюць адны і тыя ж наборы даных, прыводзіць да большай дакладнасці.

Аднак, паколькі індывіды часам маюць розную ступень кампетэнтнасці, стандарты маркіроўкі і самі этыкеткі могуць быць супярэчлівымі, што з'яўляецца іншай праблемай. Магчыма, што два або больш анататараў не згодныя з некаторымі тэгамі.

Напрыклад, адзін эксперт можа ацаніць водгук аб гатэлі як спрыяльны, а іншы палічыць яго саркастычным і паставіць яму нізкую ацэнку.

Даменныя веды

Вы адчуеце неабходнасць наняць этыкетавальнікаў са спецыялізаванымі галіновымі ведамі для некаторых сектараў.

Напрыклад, анататарам без неабходных ведаў аб дамене будзе вельмі цяжка правільна пазначаць элементы падчас стварэння прыкладання ML для сектара аховы здароўя.

Схільнасць да памылак

Ручная маркіроўка схільная чалавечым памылкам, незалежна ад таго, наколькі дасведчанымі і ўважлівымі з'яўляюцца вашы этыкетавальнікі. З-за таго, што анататары часта працуюць з велізарнымі наборамі неапрацаваных даных, гэта непазбежна.

Уявіце сабе чалавека, які каментуе 100,000 10 малюнкаў да XNUMX розных рэчаў.

Распаўсюджаныя тыпы маркіроўкі даных

Computer Vision

Каб распрацаваць свой навучальны набор дадзеных, вы павінны спачатку пазначыць малюнкі, пікселі або ключавыя кропкі або ўсталяваць мяжу, якая цалкам ахоплівае лічбавы відарыс, вядомую як абмежавальная рамка, пры стварэнні сістэмы камп'ютэрнага зроку.

Фатаграфіі можна класіфікаваць рознымі спосабамі, у тым ліку па змесце (што на самой справе знаходзіцца на самой выяве) і якасці (напрыклад, здымкі прадукту супраць ладу жыцця).

Выявы таксама можна падзяліць на сегменты на ўзроўні пікселяў. Мадэль камп'ютэрнага зроку, распрацаваную з выкарыстаннем гэтых вучэбных даных, можа пасля выкарыстоўвацца для аўтаматычнай класіфікацыі малюнкаў, вызначэння месцазнаходжання аб'ектаў, вылучэння ключавых абласцей на малюнку і сегментацыі малюнкаў.

Апрацоўка натуральнай мовы

Перш чым ствараць навучальны набор даных апрацоўкі натуральнай мовы, вы павінны ўручную выбраць адпаведныя тэкставыя фрагменты або класіфікаваць матэрыял з указанымі цэтлікамі.

Напрыклад, вы можаце распазнаваць маўленчыя ўзоры, класіфікаваць назоўнікі ўласныя, такія як месцы і людзі, і ідэнтыфікаваць тэкст на малюнках, PDF-файлах або іншых носьбітах. Вы таксама можаце вызначыць пачуццё або намер тэкставай анонсы.

Каб дасягнуць гэтага, стварыце абмежавальныя рамкі вакол тэксту ў наборы навучальных даных, а затым зашыфруйце яго ўручную.

Аптычнае распазнаванне сімвалаў, ідэнтыфікацыя назвы аб'ектаў і аналіз пачуццяў выконваюцца з выкарыстаннем мадэляў апрацоўкі натуральнай мовы.

Апрацоўка аўдыё

Апрацоўка аўдыя пераўтварае ўсе тыпы гукаў у структураваны фармат, каб іх можна было выкарыстоўваць у машынным навучанні, у тым ліку маўленне, гукі жывёл (брэх, свіст або шчабятанне) і шум будынкаў (разбітае шкло, сканаванне або сірэны).

Часта, перш чым вы зможаце працаваць з аўдыя, вы павінны ўручную пераўтварыць яго ў тэкст. Пасля гэтага, класіфікуючы і дадаючы тэгі да аўдыя, вы зможаце даведацца пра яго больш глыбокую інфармацыю. Ваша навучальны набор даных гэта сакрэтнае аўдыя.

заключэнне

У заключэнне, ідэнтыфікацыя вашых даных з'яўляецца найважнейшай часткай навучання любой мадэлі штучнага інтэлекту. Аднак арганізацыя, якая хутка развіваецца, проста не можа дазволіць сабе марнаваць час на выкананне гэтага ўручную, таму што гэта патрабуе шмат часу і энергіі.

Акрамя таго, гэта працэдура, якая можа быць недакладнай і не абяцае высокай дакладнасці. Гэта не павінна быць так складана, і гэта выдатная навіна.

Сучасныя тэхналогіі маркіроўкі даных дазваляюць супрацоўнічаць паміж людзьмі і машынамі для атрымання дакладных і карысных даных для розных праграм машыннага навучання.

Маркіроўка даных мае вырашальнае значэнне для мадэляў штучнага інтэлекту

Маркіроўка даных - важная для мадэляў штучнага інтэлекту

Такім чынам, што такое маркіроўка дадзеных?

Маркіроўка дадзеных: чаму гэта важна?