Мазмұны[Жасыру][Көрсету]
Көптеген роботтар жасанды интеллект, терең оқыту және машиналық оқыту терминдерін естігенде адам интеллектіне еліктейтін немесе одан да жоғары ғылыми фантастикалық фильмдердегі роботтарды елестетеді.
Басқалары бұл құрылғылар тек ақпаратты қабылдайды және одан өздігінен үйренеді деп ойлайды. Жарайды... Бұл аздап алдамшы. Деректерді таңбалау – компьютерлерді «ақылды» болуға үйрету үшін қолданылатын әдіс, өйткені олардың адамның нұсқауынсыз мүмкіндіктері шектеулі.
Компьютерді «ақылды» әрекет етуге үйрету үшін біз деректерді әртүрлі пішіндерге енгіземіз және деректерді таңбалаудың көмегімен әртүрлі стратегияларды үйретеміз.
Деректер жиындары аннотациялануы немесе деректер таңбалауының негізінде жатқан ғылым бөлігі ретінде бірдей ақпараттың көптеген ауыстыруларымен белгіленуі керек.
Соңғы өнімге жұмсалған күш-жігер мен берілгендік, тіпті таң қалдырып, күнделікті өмірімізді жеңілдетсе де мақтауға тұрарлық.
Оның не екенін, оның қалай жұмыс істейтінін, деректер таңбалауының әртүрлі түрлерін, кедергілерді және т.б. білу үшін осы мақалада деректерді таңбалау туралы біліңіз.
Сонымен, деректерді таңбалау дегеніміз не?
In машина оқыту, кіріс деректерінің калибрі мен сипаты шығыстың калибрі мен сипатын белгілейді. AI үлгісінің дәлдігі оны үйрету үшін пайдаланылатын деректердің калибрімен жақсарады.
Басқаша айтқанда, деректерді таңбалау - компьютерге олардың арасындағы айырмашылықтар мен үлгілерді анықтауға үйрету үшін әртүрлі құрылымдалмаған немесе құрылымдалған деректер жиынын таңбалау немесе аннотациялау әрекеті.
Мұны түсінуге иллюстрация көмектеседі. Қызыл жарықтың тоқтау сигналы екенін білу үшін компьютерге әр түрлі кескіндердегі әрбір қызыл шамды белгілеу қажет.
Осының негізінде AI кез келген жағдайда қызыл шамды тоқтау белгісі ретінде түсіндіретін алгоритмді әзірлейді. Тағы бір иллюстрация - әртүрлі музыкалық жанрларды бөлу үшін джаз, поп, рок, классикалық және т.б. тақырыптар бойынша әртүрлі деректер жиынтығын санаттау мүмкіндігі.
Қарапайым тілмен айтқанда, машиналық оқытудағы деректерді таңбалау таңбаланбаған деректерді (мысалы, фотосуреттер, мәтіндік файлдар, бейнелер және т.б.) анықтау және машиналық оқыту үлгісі үйренуі үшін контекст ұсыну үшін бір немесе бірнеше сәйкес белгілерді қосу процесін білдіреді. ол.
Жапсырмалар, мысалы, рентгенде ісік бар ма, жоқ па, аудиоклипте қандай сөздер айтылғанын немесе құстың немесе көліктің суреті бар-жоғын айта алады.
Деректерді таңбалау бірқатар пайдалану жағдайлары үшін маңызды, соның ішінде сөйлеуді тану, компьютерлік көру, және табиғи тілді өңдеу.
Деректерді таңбалау: бұл неліктен маңызды?
Біріншіден, төртінші өнеркәсіптік революция жаттығу машиналарының шеберлігіне негізделген. Нәтижесінде, ол қазіргі заманғы бағдарламалық қамтамасыз етудің ең маңызды жетістіктерінің бірі болып табылады.
Деректерді таңбалауды қамтитын машиналық оқыту жүйесін жасау керек. Ол жүйенің мүмкіндіктерін белгілейді. Деректер белгіленбесе, жүйе жоқ.
Деректерді таңбалау мүмкіндіктері тек сіздің шығармашылығыңызбен шектеледі. Жүйеге салыстыруға болатын кез келген әрекет жаңа ақпаратпен қайталанады.
Бұл жүйені үйретуге болатын деректердің түрі, саны және әртүрлілігі оның интеллектісі мен мүмкіндігін анықтайды.
Екіншісі, деректерді таңбалау жұмысы деректер ғылымының жұмысынан бұрын келеді. Тиісінше, деректерді таңбалау деректер ғылымы үшін қажет. Деректерді таңбалаудағы қателер мен қателер деректер ғылымына әсер етеді. Немесе, «қоқыс тастау, қоқыс шығару» деген дөрекі клише қолдану үшін.
Үшіншіден, деректерді таңбалау өнері адамдардың AI жүйелерін дамытуға көзқарасының өзгеруін білдіреді. Біз бір уақытта тек математикалық әдістерді жақсартуға тырыспай, мақсаттарымызға жақсырақ жету үшін деректер таңбалау құрылымын нақтылаймыз.
Заманауи автоматтандыру осыған негізделген және ол қазіргі уақытта жүргізіліп жатқан AI трансформациясының орталығы болып табылады. Қазір білім жұмыстары бұрынғыдан да механикаландырылуда.
Деректерді таңбалау қалай жұмыс істейді?
Деректерді таңбалау процедурасы кезінде келесі хронологиялық тәртіп орындалады.
Мәліметтерді жинау
Деректер кез келген машинаны оқыту әрекетінің негізі болып табылады. Деректерді таңбалаудың бастапқы кезеңі әртүрлі пішіндегі бастапқы деректердің тиісті көлемін жинаудан тұрады.
Деректерді жинау екі нысанның бірін қабылдауы мүмкін: ол бизнес пайдаланатын ішкі көздерден алынады немесе ол жалпыға қолжетімді сыртқы көздерден алынады.
Ол өңделмеген пішінде болғандықтан, деректер жиыны белгілерін жасамас бұрын бұл деректерді тазалау және өңдеу қажет. Содан кейін үлгі осы тазартылған және алдын ала өңделген деректер арқылы оқытылады. Деректер жиынтығы неғұрлым үлкен және әртүрлі болса, нәтижелер дәлірек болады.
Аннотация деректері
Деректерді тазалаудан кейін домен сарапшылары деректерді зерттейді және бірнеше деректерді таңбалау әдістерін пайдаланып белгілерді қолданады. Модельде негізгі шындық ретінде пайдалануға болатын мағыналы контекст бар.
Бұл фотосуреттер сияқты үлгінің болжауын қалайтын айнымалылар.
Сапаны қамтамасыз ету
Сенімді, дәл және дәйекті болуы керек деректердің сапасы ML моделін оқытудың сәттілігі үшін өте маңызды. Дәл және дұрыс деректер таңбалануын қамтамасыз ету үшін тұрақты QA сынақтары жүзеге асырылуы керек.
Консенсус және Кронбахтың альфа сынағы сияқты QA әдістерін қолдану арқылы бұл аннотациялардың дәлдігін бағалауға болады. Нәтижелердің дұрыстығы әдеттегі QA тексерулері арқылы айтарлықтай жақсарады.
Оқыту және тестілеу үлгілері
Жоғарыда аталған процедуралар деректердің дұрыстығы тексерілгенде ғана мағыналы болады. Техника қажетті нәтижелерді беретінін тексеру үшін құрылымдалмаған деректер жиынтығын қосу арқылы сынақтан өткізіледі.
Деректерді таңбалау стратегиялары
Деректерді таңбалау - егжей-тегжейге назар аударуды талап ететін еңбекті қажет ететін процесс. Деректерді аннотациялау үшін қолданылатын әдіс мәселе мәлімдемесіне, қанша деректерді тегтеу керек екеніне, деректердің қаншалықты күрделі екеніне және стильге байланысты өзгереді.
Сіздің бизнесіңізде бар ресурстарға және қол жетімді уақытқа байланысты кейбір опцияларды қарастырайық.
Деректерді ішкі таңбалау
Атауынан көрініп тұрғандай, ішкі деректерді таңбалауды компанияның сарапшылары жасайды. Уақытыңыз, персоналыңыз және қаржылық ресурстарыңыз жеткілікті болғанда, бұл ең жақсы нұсқа, өйткені ол ең дәл таңбалауды қамтамасыз етеді. Дегенмен, ол баяу қозғалады.
аутсорсинг
Жұмысты аяқтаудың тағы бір нұсқасы - Upwork сияқты әртүрлі жұмыс іздеушілер мен штаттан тыс нарықтарда табуға болатын деректерді таңбалау тапсырмалары үшін фрилансерлерді жалдау.
Аутсорсинг - деректерді таңбалау қызметтерін алудың жылдам нұсқасы, дегенмен алдыңғы әдіске ұқсас сапа нашарлауы мүмкін.
Топтастыру
Сұраныс беруші ретінде жүйеге кіріп, мамандандырылған краудсорсинг платформаларында қол жетімді мердігерлерге әртүрлі таңбалау жұмыстарын тарата аласыз. Амазон механикалық түрк (MTurk).
Әдіс біршама жылдам және арзан болғанымен, жақсы сапалы аннотацияланған деректерді қамтамасыз ете алмайды.
Деректерді автоматты түрде таңбалау.
Процедура қолмен орындалудан басқа бағдарламалық құралмен де көмектесуі мүмкін. Белсенді оқыту тәсілін пайдалана отырып, тегтерді автоматты түрде табуға және оқу деректер жинағына қосуға болады.
Негізінде, адам мамандары таңбаланбаған, өңделмеген деректерді белгілеу үшін AI Auto-label моделін әзірлейді. Содан кейін олар үлгінің таңбалауды дұрыс қолданғанын шешеді. Адамдар сәтсіздіктен кейін қателерді түзетеді және алгоритмді қайта үйретеді.
Синтетикалық мәліметтерді өңдеу.
Нақты дүние деректерінің орнына, синтетикалық деректер жасанды түрде жасалған таңбаланған деректер жинағы болып табылады. Ол алгоритмдер немесе компьютерлік модельдеу арқылы жасалады және жиі пайдаланылады машиналық оқыту үлгілерін үйрету.
Синтетикалық деректер таңбалау процедуралары контекстіндегі деректердің тапшылығы мен әртүрлілігі мәселелеріне тамаша жауап болып табылады. құрылуы синтетикалық деректер нөлден бастап шешімін ұсынады.
Элементтермен және модельді қоршаған 3D параметрлерін жасау деректер жиынын әзірлеушілерімен танылуы керек. Жобаға қанша қажет болса, сонша синтетикалық деректерді көрсетуге болады.
Деректерді таңбалаудың қиындықтары
Көбірек уақыт пен күш қажет
Деректердің үлкен көлемін (әсіресе денсаулық сақтау сияқты жоғары мамандандырылған салалар үшін) алу қиынға соғумен қатар, әрбір деректер бөлігін қолмен таңбалау еңбекті көп қажет етеді және адам таңбалаушылардың көмегін қажет етеді.
ML әзірлеудің бүкіл циклі бойынша жобаға жұмсалған уақыттың 80% дерлік таңбалауды қамтитын деректерді дайындауға жұмсалады.
Сәйкессіздік мүмкіндігі
Көбінесе, көптеген адамдар бірдей деректер жиынын белгілегенде орын алатын айқас таңбалау дәлдіктің жоғарылауына әкеледі.
Дегенмен, жеке адамдардың кейде құзіреттілік деңгейі әртүрлі болғандықтан, таңбалау стандарттары мен белгілердің өзі сәйкес келмеуі мүмкін, бұл басқа мәселе, екі немесе одан да көп аннотаторлардың кейбір тегтер бойынша келіспеушілігі болуы мүмкін.
Мысалы, бір сарапшы қонақ үй шолуын қолайлы деп бағаласа, екіншісі оны мысқыл деп санап, төмен баға береді.
Домендік білім
Кейбір секторлар үшін арнайы салалық білімі бар таңбалауыштарды жалдау қажеттілігін сезінесіз.
Қажетті домен білімі жоқ аннотаторлар, мысалы, денсаулық сақтау секторы үшін ML қолданбасын жасау кезінде элементтерді тиісті түрде белгілеу өте қиын болады.
Қателерге бейімділік
Қолмен таңбалау сіздің жапсырмаларыңыздың қаншалықты білімді және мұқият болғанына қарамастан, адам қателеріне ұшырайды. Аннотаторлар үлкен өңделмеген деректер жиынтығымен жиі жұмыс істейтіндіктен, бұл сөзсіз.
100,000-ға дейін әртүрлі заттармен 10 XNUMX суретке түсініктеме беретін адамды елестетіп көріңіз.
Мәліметтерді таңбалаудың жалпы түрлері
Computer Vision
Жаттығу деректер жинағын әзірлеу үшін алдымен суреттерді, пикселдерді немесе негізгі нүктелерді белгілеу керек немесе компьютерлік көру жүйесін құру кезінде шектеуші қорап ретінде белгілі сандық кескінді толығымен жабатын шекараны орнату керек.
Фотосуреттерді әртүрлі жолдармен, соның ішінде мазмұны (суреттің өзінде не бар) және сапасы (мысалы, өнім және өмір салты суреттері) бойынша санаттарға бөлуге болады.
Суреттерді пиксель деңгейінде сегменттерге де бөлуге болады. Осы оқу деректерін пайдаланып әзірленген компьютерлік көру үлгісі кейіннен кескіндерді автоматты түрде жіктеу, нысандардың орнын анықтау, кескіндегі негізгі аймақтарды бөлектеу және кескіндерді сегменттеу үшін пайдаланылуы мүмкін.
Табиғи тілдерді өңдеу
Табиғи тілді өңдеуге арналған оқу деректер жинағын жасамас бұрын, сәйкес мәтіндік фрагменттерді қолмен таңдауыңыз немесе материалды көрсетілген белгілермен жіктеуіңіз керек.
Мысалы, сөйлеу үлгілерін тануға, орындар мен адамдар сияқты жалқы есімдерді жіктеуге және суреттердегі, PDF файлдарындағы немесе басқа медиадағы мәтінді анықтауға болады. Сондай-ақ, сіз мәтіндік қосымшаның көңіл-күйін немесе ниетін анықтағыңыз келуі мүмкін.
Мұны орындау үшін оқу деректер жинағындағы мәтіннің айналасында шектейтін ұяшықтарды жасаңыз, содан кейін оны қолмен транскрипциялаңыз.
Таңбаларды оптикалық тану, нысан атауын анықтау және сезімді талдау барлығы табиғи тілді өңдеу үлгілері арқылы орындалады.
Аудио өңдеу
Дыбысты өңдеу дыбыстардың барлық түрлерін құрылымдық пішімге түрлендіреді, осылайша оларды машиналық оқытуда, соның ішінде сөйлеуді, жануарлардың шуларын (үру, ысқырықтар немесе сықырлар) және құрылыс шуларын (сынған әйнек, сканерлеу немесе сирена) пайдалануға болады.
Көбінесе дыбысты өңдеуден бұрын оны мәтінге қолмен түрлендіру керек. Осыдан кейін, санаттау және дыбысқа тегтерді қосу арқылы сіз ол туралы тереңірек ақпаратты біле аласыз. Сіздің оқыту деректер жинағы бұл жасырын аудио.
қорытынды
Қорытындылай келе, деректеріңізді анықтау кез келген AI моделін оқытудың маңызды бөлігі болып табылады. Жылдам жұмыс істейтін ұйым оны қолмен жасауға уақыт жұмсай алмайды, өйткені бұл көп уақытты және энергияны қажет етеді.
Бұған қоса, бұл дәлсіздікке бейім және үлкен дәлдікке уәде бермейтін процедура. Бұл соншалықты қиын болмауы керек, бұл тамаша жаңалық.
Бүгінгі деректерді таңбалау технологиялары әртүрлі машиналық оқыту қолданбалары үшін нақты және пайдалы деректерді қамтамасыз ету үшін адамдар мен машиналар арасындағы ынтымақтастыққа мүмкіндік береді.
пікір қалдыру