Означување на податоци - клучно за моделите со вештачка интелигенција

Содржина[Крие][Прикажи]

Значи, што е означување на податоци?
Означување на податоци: Зошто е важно?
Како функционира означувањето на податоците?+-
Стратегии за означување на податоци+-
Предизвици на означувањето на податоците+-
Вообичаени типови на означување на податоци+-
Заклучок

Многумина замислуваат роботи како оние во научно-фантастичните филмови кои го имитираат или дури го надминуваат човечкиот интелект кога ќе ги слушнат термините вештачка интелигенција, длабоко учење и машинско учење.

Други мислат дека овие уреди само земаат информации и сами учат од нив. Па... Малку е измамен. Означувањето на податоците е методот што се користи за обука на компјутерите да станат „паметни“, бидејќи тие имаат ограничени способности без човечка инструкција.

За да го обучиме компјутерот да дејствува „паметно“, ги внесуваме податоците во различни форми и ги учиме на различни стратегии со помош на означување на податоците.

Збирките на податоци мора да бидат означени или означени со бројни пермутации на истите информации како дел од науката што лежи во основата на етикетирањето на податоците.

Напорот и посветеноста вложени во финалниот производ се за пофалба, дури и кога тој изненадува и го олеснува нашиот секојдневен живот.

Дознајте за етикетирањето на податоците во оваа статија за да дознаете што е тоа, како функционира, различни видови означување податоци, пречки и многу повеќе.

Значи, што е означување на податоци?

In машинско учење, калибарот и природата на влезните податоци го диктираат калибарот и природата на излезот. Прецизноста на вашиот модел со вештачка интелигенција е подобрена со калибарот на податоците што се користат за негово обучување.

Со други термини, означување на податоци е чин на означување или прибележување на различни неструктурирани или структурирани збирки на податоци со цел да се научи компјутерот да ги идентификува разликите и шемите меѓу нив.

Илустрација ќе ви помогне да го разберете ова. Неопходно е да се означи секое црвено светло на различни слики за компјутерот да научи дека црвеното светло е сигнал за прекин.

Врз основа на ова, вештачката интелигенција развива алгоритам кој во секоја ситуација ќе го толкува црвеното светло како индикација за запирање. Друга илустрација е способноста да се категоризираат различни збирки на податоци под насловите џез, поп, рок, класика и повеќе за да се одделат различни музички жанрови.

Едноставно кажано, етикетирањето на податоци во машинското учење се однесува на процесот на откривање необележани податоци (како што се фотографии, текстуални датотеки, видеа итн.) и додавање на една или повеќе релевантни етикети за да се понуди контекст, така што моделот за машинско учење може да научи од тоа.

Етикетите би можеле да кажат, на пример, дали рентген покажува тумор или не, кои зборови се кажани во аудио клип или ако слика на птица или автомобил.

Означувањето на податоците е од суштинско значење за голем број случаи на употреба, вклучително и препознавање говор, компјутерска визија, и обработка на природен јазик.

Означување на податоци: Зошто е важно?

Прво, четвртата индустриска револуција е фокусирана на вештината на машините за обука. Како резултат на тоа, се рангира меѓу најзначајните софтверски достигнувања на сегашноста.

Треба да се создаде вашиот систем за машинско учење, кој вклучува означување на податоците. Ги утврдува можностите на системот. Нема систем ако податоците не се означени.

Можностите за означување на податоците се ограничени само од вашата креативност. Секое дејство што можете да го мапирате во системот ќе се повтори со свежи информации.

Што значи дека видот, количината и разновидноста на податоците што можете да ги научите на системот ќе ја одредат неговата интелигенција и способност.

Втората е дека работата за етикетирање на податоци доаѓа пред работата на науката за податоци. Според тоа, етикетирањето на податоците е неопходно за науката за податоци. Неуспесите и грешките во етикетирањето на податоците влијаат на науката за податоците. Алтернативно, да се употреби погрубо клише, „ѓубре, ѓубре“.

Трето, Уметноста на означување на податоци означува промена во начинот на кој луѓето пристапуваат кон развојот на системи за вештачка интелигенција. Истовремено ја усовршуваме структурата на означувањето на податоците за подобро да ги исполниме нашите цели наместо само да се обидуваме да ги подобриме математичките техники.

На ова се заснова модерната автоматизација и таа е центарот на трансформацијата на вештачката интелигенција која моментално е во тек. Сега повеќе од кога било, работата на знаење се механизира.

Како функционира означувањето на податоците?

Следниот хронолошки редослед се следи во текот на постапката за означување на податоците.

Собирање податоци

Податоците се камен-темелник на секој напор за машинско учење. Почетната фаза во означувањето на податоците се состои од собирање на соодветна количина необработени податоци во различни форми.

Собирањето податоци може да има една од двете форми: или доаѓа од внатрешни извори кои бизнисот ги користел или доаѓа од јавно достапни надворешни извори.

Бидејќи се во необработена форма, овие податоци треба да се исчистат и обработат пред да се направат етикетите на податоци. Моделот потоа се тренира со користење на овие исчистени и претходно обработени податоци. Наодите ќе бидат попрецизни колку се поголеми и поразновидни сетот на податоци.

Прибелешки на податоци

По чистењето на податоците, експертите на доменот ги испитуваат податоците и применуваат етикети користејќи неколку техники за означување на податоци. Моделот има значаен контекст кој може да се искористи како основна вистина.

Ова се променливите што сакате моделот да ги предвиди, како што се фотографиите.

Гаранција за квалитет

Квалитетот на податоците, кои треба да бидат доверливи, точни и конзистентни, е клучен за успехот на обуката за ML модел. Мора да се спроведат редовни тестови за ОК за да се гарантира точното и точното означување на податоците.

Можно е да се процени точноста на овие прибелешки со користење на техники за ОК како што се Консензус и Кронбахов алфа тест. Исправноста на резултатите е значително подобрена со рутински инспекции за ОК.

Модели за обука и тестирање

Горенаведените постапки имаат смисла само доколку податоците се проверат за исправност. Техниката ќе биде ставена на тест со вклучување на неструктурирана база на податоци за да се провери дали ги дава посакуваните резултати.

Стратегии за означување на податоци

Означувањето на податоците е макотрпен процес кој бара внимание на деталите. Методот што се користи за прибелешка на податоците ќе се разликува во зависност од изјавата за проблемот, колку податоци треба да се означат, колку се комплицирани податоците и од стилот.

Ајде да погледнеме низ некои од опциите што ги има вашиот бизнис, во зависност од ресурсите што ги има и времето што го има на располагање.

Обележување податоци во куќата

Како што имплицира името, етикетирањето на податоците во куќата го прават експерти во една компанија. Кога имате доволно време, персонал и финансиски ресурси, тоа е најдобрата опција бидејќи обезбедува најпрецизно означување. Сепак, се движи бавно.

Outsourcing-от

Друга опција за завршување на работите е да ангажирате хонорарци за задачи за етикетирање податоци кои може да се откријат на различни пазари за барање работа и хонорарци како Upwork.

Аутсорсингот е брза опција за добивање услуги за етикетирање на податоци, меѓутоа, квалитетот може да настрада, слично на претходниот метод.

Водечки насоки

Можете да се најавите како барател и да дистрибуирате различни работни места за етикетирање на достапни изведувачи на специјализирани платформи за групно извори како Амазонски механички Турчин (МТурк).

Методот, иако е донекаде брз и ефтин, не може да обезбеди квалитетни бележени податоци.

Автоматско означување на податоците.

Постапката може да биде потпомогната од софтвер, покрај тоа што може да се спроведе рачно. Користејќи го пристапот за активно учење, ознаките може автоматски да се најдат и додадат во базата на податоци за обука.

Во суштина, специјалистите за луѓе развиваат модел за автоматска ознака со вештачка интелигенција за означување на необележани, необработени податоци. Потоа тие одлучуваат дали моделот соодветно го применил означувањето. Луѓето ги поправаат грешките по неуспех и повторно го обучуваат алгоритмот.

Развој на синтетички податоци.

На местото на податоците од реалниот свет, синтетички податоци е означена база на податоци што е произведена вештачки. Се произведува со алгоритми или компјутерски симулации и често се користи за обучуваат модели за машинско учење.

Синтетичките податоци се одличен одговор на прашањата за недостигот и разновидноста на податоците во контекст на процедурите за етикетирање. Создавањето на синтетички податоци од нула нуди решение.

Создавањето 3D поставки со ставките и опкружувањето на моделот мора да може да го препознаат развивачите на податоци. Може да се прикажат онолку синтетички податоци колку што се потребни за проектот.

Предизвици на означувањето на податоците

Бара повеќе време и труд

Покрај тоа што е предизвик да се добијат големи количини на податоци (особено за високо специјализирани индустрии како што е здравството), рачно етикетирањето на секој податок е и трудоинтензивно и макотрпно, поради што е потребна помош од етикетирани луѓе.

Речиси 80% од времето поминато на проект во текот на целиот циклус на развој на ML се троши на подготовка на податоци, што вклучува етикетирање.

Можност за недоследност

Поголемиот дел од времето, вкрстено етикетирање, што се случува кога многу луѓе етикетираат исти групи на податоци, резултира со поголема точност.

Меѓутоа, бидејќи поединците понекогаш имаат различни степени на компетентност, стандардите за етикетирање и самите етикети може да бидат неконзистентни, што е друго прашање, можно е двајца или повеќе прибележувачи да не се согласуваат за некои ознаки.

На пример, еден експерт би можел да ја оцени рецензијата за хотел како поволна, додека друг би ја сметал за саркастична и ќе му додели ниска оцена.

Знаење за доменот

Ќе почувствувате потреба да ангажирате етикети со специјализирано знаење од индустријата за некои сектори.

Прибележувачите без потребното знаење за доменот, на пример, ќе имаат многу тешко време соодветно да ги означат ставките додека создаваат апликација за ML за здравствениот сектор.

Склоност кон грешки

Рачното етикетирање е предмет на човечки грешки, без разлика колку се познавања и внимателни вашите етикетирани. Поради фактот што прибележувачите често работат со огромни збирки на необработени податоци, ова е неизбежно.

Замислете лице кое забележува 100,000 слики со најмногу 10 различни работи.

Вообичаени типови на означување на податоци

Компјутерска визија

За да ја развиете вашата база на податоци за обука, прво мора да ги означите сликите, пикселите или клучните точки или да воспоставите граница што целосно опфаќа дигитална слика, позната како гранична кутија, кога градите систем за компјутерска визија.

Фотографиите може да се категоризираат на различни начини, вклучително и според содржината (што е всушност на самата слика) и квалитетот (како што се снимки од производ наспроти начин на живот).

Сликите исто така може да се поделат на сегменти на ниво на пиксели. Моделот за компјутерска визија развиен со помош на овие податоци за обука може последователно да се користи за автоматска класификација на сликите, одредување на локацијата на објектите, истакнување на клучните области на сликата и сегментирање на сликите.

Обработка на природен јазик

Пред да ја создадете вашата база на податоци за обука за обработка на природен јазик, мора рачно да изберете релевантни текстуални фрагменти или да го класифицирате материјалот со одредени етикети.

На пример, може да сакате да препознавате говорни обрасци, да ги класифицирате соодветните именки како места и луѓе и да идентификувате текст во слики, PDF-датотеки или други медиуми. Можеби ќе сакате да го одредите чувството или намерата на замаглувањето на текстот.

Создадете гранични полиња околу текстот во вашата база на податоци за обука за да го постигнете ова, а потоа рачно препишете го.

Оптичко препознавање на карактерот, идентификацијата на името на ентитетот и анализата на сентиментот се вршат со употреба на модели за обработка на природен јазик.

Аудио обработка

Аудио обработката ги трансформира сите видови звуци во структуриран формат за да може да се користат во машинското учење, вклучително и говор, звуци од животинско потекло (лае, свирежи или чврчорење) и звуци од градење (скршено стакло, скенирање или сирени).

Често, пред да можете да ракувате со аудио, мора рачно да го конвертирате во текст. Потоа, со категоризација и додавање ознаки на аудиото, можете да дознаете повеќе детални информации за него. Вашиот база на податоци за обука дали е ова класифицирано аудио.

Заклучок

Како заклучок, идентификувањето на вашите податоци е клучен дел од обуката на кој било модел на вештачка интелигенција. Меѓутоа, една организација со брзо темпо едноставно не може да си дозволи да троши време за да го прави тоа рачно, бидејќи тоа одзема време и енергетско интензивно.

Дополнително, тоа е постапка која е склона кон неточност и не ветува голема точност. Не мора да биде толку тешко, што е одлична вест.

Денешните технологии за означување на податоци овозможуваат соработка помеѓу луѓето и машините за да се обезбедат прецизни и корисни податоци за различни апликации за машинско учење.

Означувањето на податоците е од клучно значење за моделите со вештачка интелигенција

Означување на податоци – клучно за моделите со вештачка интелигенција

Значи, што е означување на податоци?

Означување на податоци: Зошто е важно?