Гарчиг[Нуух][Үзүүлэх]
Хиймэл оюун ухаан, гүнзгий суралцах, машин суралцах гэсэн нэр томъёог сонсохдоо хүний оюун ухааныг дуурайдаг эсвэл бүр давж гардаг шинжлэх ухааны уран зөгнөлт кинонууд шиг роботуудыг олон хүн төсөөлдөг.
Бусад нь эдгээр төхөөрөмжүүд нь зөвхөн мэдээлэл авч, өөрсдөө суралцдаг гэж боддог. За ... Энэ нь бага зэрэг хуурмаг юм. Мэдээллийн шошголол нь хүний зааваргүйгээр компьютерийн чадамж хязгаарлагдмал байдаг тул "ухаалаг" болгоход ашигладаг арга юм.
Компьютерийг "ухаалаг" ажиллахад сургахын тулд бид өгөгдлийг янз бүрийн хэлбэрээр оруулж, мэдээллийн шошгоны тусламжтайгаар янз бүрийн стратегийг заадаг.
Өгөгдлийн багц нь өгөгдлийн шошгоны шинжлэх ухааны нэг хэсэг болох ижил мэдээллийн олон тооны орлуулалт бүхий тайлбар эсвэл шошготой байх ёстой.
Бидний өдөр тутмын амьдралыг гайхшруулж, хөнгөвчлөхөд хүртэл эцсийн бүтээгдэхүүн гаргахад зарцуулсан хүчин чармайлт, хичээл зүтгэл нь магтууштай.
Өгөгдлийн шошгололт гэж юу болох, хэрхэн ажилладаг, өөр өөр төрлийн өгөгдлийн шошго, саад тотгорууд болон бусад зүйлсийг мэдэхийн тулд энэ нийтлэлээс мэдээлэл аваарай.
Тэгэхээр Data Labeling гэж юу вэ?
In машин суралцах, оролтын өгөгдлийн калибрын болон шинж чанар нь гаралтын калибрын болон шинж чанарыг тодорхойлдог. Таны хиймэл оюун ухааны загварын нарийвчлал нь түүнийг сургахад ашигласан өгөгдлийн калибраар нэмэгддэг.
Өөрөөр хэлбэл, өгөгдлийн шошголол нь компьютерт тэдгээрийн хоорондын ялгаа, хэв маягийг тодорхойлохыг заах зорилгоор өөр өөр бүтэцгүй эсвэл бүтэцлэгдсэн өгөгдлийн багцыг шошголох, тэмдэглэх үйлдэл юм.
Үүнийг ойлгоход зураглал тусална. Улаан гэрэл бол зогсох дохио гэдгийг мэдэхийн тулд компьютерт зориулж янз бүрийн зураг дээр улаан гэрэл бүрийг тэмдэглэх шаардлагатай.
Үүний үндсэн дээр хиймэл оюун ухаан нь ямар ч нөхцөлд улаан гэрлийг зогсоох дохио гэж тайлбарлах алгоритмыг боловсруулдаг. Өөр нэг жишээ бол жазз, поп, рок, сонгодог гэх мэт өөр өөр төрлийн хөгжмийн төрлүүдийг ялгахын тулд янз бүрийн мэдээллийн багцыг ангилах чадвар юм.
Энгийнээр тайлбарлавал, машин сургалтын өгөгдлийн шошголол гэдэг нь шошгогүй өгөгдлийг (зураг, текст файл, видео гэх мэт) илрүүлж, нэг буюу хэд хэдэн холбогдох шошгыг нэмж контекстийг санал болгож, машин сургалтын загвараас суралцах үйл явцыг хэлнэ. тэр.
Шошгон дээр жишээлбэл, рентген зурагт хавдар илэрсэн эсэх, аудио клипэнд ямар үгс хэлсэн, шувуу эсвэл автомашины зураг байгаа эсэхийг хэлж болно.
Өгөгдлийн шошго нь яриа таних, гэх мэт хэд хэдэн хэрэглээний тохиолдолд зайлшгүй шаардлагатай. компьютерийн алсын хараа, мөн байгалийн хэлний боловсруулалт.
Өгөгдлийн шошго: Энэ яагаад чухал вэ?
Нэгдүгээрт, аж үйлдвэрийн дөрөв дэх хувьсгал нь сургалтын машинуудын ур чадвар дээр төвлөрдөг. Үүний үр дүнд энэ нь орчин үеийн програм хангамжийн хамгийн чухал дэвшилтүүдийн нэг юм.
Таны машин сургалтын системийг бий болгох шаардлагатай бөгөөд үүнд өгөгдөл шошго орно. Энэ нь системийн чадавхийг тогтоодог. Хэрэв өгөгдөл шошгогүй бол систем байхгүй.
Өгөгдлийн шошго бүхий боломжууд нь зөвхөн таны бүтээлч чадвараар хязгаарлагддаг. Таны системд оруулах аливаа үйлдлийг шинэ мэдээллээр давтах болно.
Системд зааж чадах өгөгдлийн төрөл, тоо хэмжээ, олон янз байдал нь түүний оюун ухаан, чадварыг тодорхойлно гэсэн үг юм.
Хоёр дахь нь мэдээллийн шошгололт нь мэдээллийн шинжлэх ухааны ажил эхлэхээс өмнө ирдэг. Үүний дагуу мэдээллийн шинжлэх ухаанд мэдээллийн шошго шаардлагатай. Өгөгдлийн шошгоны алдаа, алдаа нь мэдээллийн шинжлэх ухаанд нөлөөлдөг. Өөрөөр хэлбэл, "хог хаягдлаа, хогоо хая" гэсэн бүдүүлэг үг хэллэг хэрэглэх.
Гуравдугаарт, Өгөгдлийн шошгололтын урлаг нь AI системийг хөгжүүлэхэд хүмүүсийн хандах хандлага өөрчлөгдсөнийг илэрхийлдэг. Бид зөвхөн математикийн арга техникийг сайжруулах гэж оролдохоос илүүтэйгээр зорилгодоо хүрэхийн тулд мэдээллийн шошгоны бүтцийг нэгэн зэрэг сайжруулдаг.
Орчин үеийн автоматжуулалт нь үүн дээр суурилдаг бөгөөд энэ нь одоо хийгдэж буй хиймэл оюун ухааны өөрчлөлтийн төв юм. Одоо мэдлэгийн ажлыг урьд урьдынхаас илүүтэйгээр механикжуулж байна.
Өгөгдлийн шошго хэрхэн ажилладаг вэ?
Өгөгдлийн шошгололтын явцад дараах он цагийн дарааллыг баримтална.
Мэдээлэл цуглуулах
Мэдээлэл бол аливаа машин сурах үйл ажиллагааны тулгын чулуу юм. Өгөгдлийн шошгололтын эхний үе шат нь зохих хэмжээний түүхий өгөгдлийг янз бүрийн хэлбэрээр цуглуулахаас бүрдэнэ.
Мэдээлэл цуглуулах нь бизнесийн ашиглаж байсан дотоод эх сурвалжаас, эсвэл олон нийтэд нээлттэй гадаад эх сурвалжаас ирдэг гэсэн хоёр хэлбэрийн аль нэгийг авч болно.
Энэ нь түүхий хэлбэрээр байгаа тул өгөгдлийн багц шошгыг хийхээс өмнө энэ өгөгдлийг цэвэрлэж, боловсруулах шаардлагатай. Дараа нь энэхүү цэвэрлэж, урьдчилан боловсруулсан өгөгдлийг ашиглан загварыг сургадаг. Өгөгдлийн багц том, олон янз байх тусам үр дүн нь илүү үнэн зөв байх болно.
Өгөгдлийн тайлбар
Мэдээллийг цэвэрлэсний дараа домэйн мэргэжилтнүүд өгөгдлийг шалгаж, хэд хэдэн өгөгдлийн шошгололтын техникийг ашиглан шошго хэрэглэдэг. Энэхүү загвар нь үндсэн үнэн болгон ашиглаж болох утга учиртай контексттэй.
Эдгээр нь зураг гэх мэт загвараас таамаглахыг хүсч буй хувьсагчууд юм.
Чанарын баталгаа
Найдвартай, үнэн зөв, тууштай байх ёстой өгөгдлийн чанар нь ML загварын сургалтын амжилтанд маш чухал юм. Эдгээр нарийн бөгөөд зөв мэдээллийн шошгыг баталгаажуулахын тулд тогтмол QA шалгалтыг хийх ёстой.
Consensus болон Cronbach's alpha test зэрэг QA аргачлалыг ашиглан эдгээр тэмдэглэгээний үнэн зөвийг үнэлэх боломжтой. Чанарын хяналт шалгалтын үр дүнгийн үнэн зөв байдал мэдэгдэхүйц сайжирдаг.
Сургалт ба туршилтын загварууд
Дээр дурдсан процедур нь зөвхөн өгөгдөл зөв эсэхийг шалгасан тохиолдолд л утга учиртай болно. Хүссэн үр дүнг өгч байгаа эсэхийг шалгахын тулд бүтэцгүй өгөгдлийн багцыг оруулах замаар техникийг турших болно.
Өгөгдлийн шошгололтын стратеги
Өгөгдлийн шошгололт нь нарийн ширийн зүйлийг анхаарч үзэхийг шаарддаг хөдөлмөр их шаарддаг процесс юм. Өгөгдлийн тайлбарыг оруулах арга нь асуудлын мэдэгдэл, хэр их өгөгдлийг шошголох, өгөгдөл хэр төвөгтэй, хэв маягаас хамаарч өөр өөр байх болно.
Танай бизнест байгаа нөөц, боломжит цаг хугацаа зэргээс шалтгаалан зарим сонголтуудыг авч үзье.
Дотооддоо өгөгдөл шошголох
Нэрнээс нь харахад дотоод мэдээллийн шошгыг компанийн мэргэжилтнүүд хийдэг. Хэрэв танд хангалттай цаг хугацаа, боловсон хүчин, санхүүгийн эх үүсвэр байгаа бол энэ нь хамгийн зөв шошгыг баталгаажуулдаг тул хамгийн сайн сонголт юм. Гэсэн хэдий ч энэ нь аажмаар хөдөлдөг.
аутсорсинг
Ажлаа хийх өөр нэг сонголт бол Upwork гэх мэт янз бүрийн ажил хайж байгаа болон чөлөөт зах зээл дээр олж болох өгөгдөл шошголох ажилд бие даасан ажилчдыг хөлслөх явдал юм.
Аутсорсинг нь өгөгдлийн шошгоны үйлчилгээ авах хурдан сонголт боловч өмнөх аргатай адил чанар муудаж магадгүй юм.
Crowdsourcing
Та хүсэлт гаргагчаар нэвтэрч, төрөл бүрийн шошготой ажлуудыг боломжтой гэрээлэгч нарт хуваарилах боломжтой. Амазон Механик Турк (МТурк).
Энэ арга нь бага зэрэг хурдан бөгөөд хямд боловч сайн чанарын тайлбартай өгөгдлийг өгөх боломжгүй юм.
Өгөгдлийг автоматаар шошголох.
Уг процедурыг гараар хийхээс гадна програм хангамжийн тусламжтайгаар хийж болно. Идэвхтэй сургалтын аргыг ашигласнаар шошгуудыг автоматаар олж, сургалтын мэдээллийн санд нэмж болно.
Үндсэндээ хүний мэргэжилтнүүд шошгогүй, түүхий өгөгдлийг тэмдэглэхийн тулд AI Auto-label загварыг боловсруулдаг. Дараа нь загвар нь шошгыг зохих ёсоор ашигласан эсэхийг шийддэг. Хүн бүтэлгүйтлийн дараа алдаагаа засч, алгоритмыг дахин сургадаг.
Синтетик өгөгдөл боловсруулах.
Бодит мэдээллийн оронд, синтетик өгөгдөл зохиомлоор үйлдвэрлэсэн шошготой өгөгдлийн багц юм. Энэ нь алгоритм эсвэл компьютерийн загварчлалаар бүтээгдсэн бөгөөд үүнийг ихэвчлэн ашигладаг машин сургалтын загваруудыг сургах.
Синтетик өгөгдөл нь шошгоны журмын хүрээнд мэдээллийн хомсдол, төрөл бүрийн асуудалд маш сайн хариулт юм. -ийн бүтээл синтетик өгөгдөл эхнээс нь шийдлийг санал болгож байна.
Загварыг тойрсон зүйлс болон 3D тохиргоог бий болгох нь өгөгдлийн багц хөгжүүлэгчид таних чадвартай байх ёстой. Төсөлд шаардагдах хэмжээний синтетик өгөгдлийг гаргаж болно.
Өгөгдлийн шошгоны сорилтууд
Илүү их цаг хугацаа, хүчин чармайлт шаарддаг
Их хэмжээний өгөгдөл (ялангуяа эрүүл мэндийн салбар зэрэг өндөр мэргэшсэн салбаруудад) олж авахад хэцүү байхаас гадна өгөгдөл бүрийг гараар шошголох нь маш их хөдөлмөр, хөдөлмөр шаарддаг тул хүний шошгологчдын тусламжийг шаарддаг.
ML хөгжүүлэлтийн бүх мөчлөгийн туршид төсөлд зарцуулсан цаг хугацааны бараг 80% нь шошгололтыг багтаасан өгөгдөл бэлтгэхэд зарцуулагддаг.
Тохиромжгүй байх магадлал
Ихэнх тохиолдолд олон хүмүүс ижил багц өгөгдлийг шошголох үед тохиолддог хөндлөн шошго нь илүү нарийвчлалтай болгодог.
Гэсэн хэдий ч хувь хүмүүс заримдаа янз бүрийн түвшний чадамжтай байдаг тул шошгоны стандарт болон шошго нь хоорондоо зөрчилддөг бөгөөд энэ нь өөр нэг асуудал бөгөөд зарим шошгон дээр хоёр ба түүнээс дээш аннотатор санал нийлэхгүй байж болно.
Жишээлбэл, нэг шинжээч зочид буудлын тоймыг эерэг гэж дүгнэж байхад нөгөө шинжээч үүнийг элэг доогтой гэж үзэж, бага үнэлгээ өгдөг.
Домэйн мэдлэг
Та зарим салбарт тусгай салбарын мэдлэгтэй шошгочин хөлслөх зайлшгүй шаардлагатайг мэдрэх болно.
Жишээлбэл, шаардлагатай домэйны мэдлэггүй аннотаторууд эрүүл мэндийн салбарт зориулсан ML програмыг бий болгохын тулд зүйлсийг зохих ёсоор тэмдэглэхэд маш хэцүү байх болно.
Алдаа гаргах хандлага
Гарын авлагын шошго нь таны шошгочид хэр мэдлэгтэй, болгоомжтой байхаас үл хамааран хүний алдаанаас шалтгаална. Аннотаторууд асар их түүхий мэдээллийн багцтай байнга ажилладаг тул энэ нь зайлшгүй юм.
100,000 зургийг 10 хүртэлх өөр зүйлээр тэмдэглэсэн хүнийг төсөөлөөд үз дээ.
Өгөгдлийн шошгололтын нийтлэг төрлүүд
Компьютерийн зөн
Сургалтын өгөгдлийн багцаа хөгжүүлэхийн тулд та эхлээд зураг, пиксел эсвэл гол цэгүүдийг шошголох эсвэл компьютерийн харааны системийг бий болгохдоо хязгаарлах хайрцаг гэгддэг дижитал дүрсийг бүрэн хаах хил хязгаарыг тогтоох ёстой.
Гэрэл зургийг агуулга (зураг дээр байгаа зүйл) болон чанар (бүтээгдэхүүн, амьдралын хэв маягийн зураг гэх мэт) зэрэг олон янзаар ангилж болно.
Зургийг пикселийн түвшинд сегмент болгон хувааж болно. Эдгээр сургалтын өгөгдлүүдийг ашиглан боловсруулсан компьютерийн харааны загварыг дараа нь зургийг автоматаар ангилах, объектын байршлыг тодорхойлох, зургийн гол хэсгүүдийг тодруулах, дүрсийг сегмент болгоход ашиглаж болно.
Байгалийн хэлний боловсруулалт
Байгалийн хэлийг боловсруулах сургалтын өгөгдлийн багцыг гаргахын өмнө та холбогдох текстийн хэсгүүдийг гараар сонгох эсвэл заасан шошготой материалыг ангилах ёстой.
Жишээлбэл, та ярианы хэв маягийг таних, газар, хүмүүс гэх мэт зөв нэрүүдийг ангилах, зураг, PDF эсвэл бусад медиа дээрх текстийг тодорхойлохыг хүсч болно. Та мөн текстийн бүдэг бадагны санаа эсвэл зорилгыг тодорхойлохыг хүсч болно.
Үүнийг хийхийн тулд сургалтын өгөгдлийн багц дахь текстийн эргэн тойронд хязгаарлах хайрцаг үүсгэж, дараа нь гараар сийрүүлээрэй.
Оптик тэмдэгт таних, аж ахуйн нэгжийн нэрийг тодорхойлох, мэдрэмжийн шинжилгээг бүгдийг нь байгалийн хэлээр боловсруулах загвар ашиглан гүйцэтгэдэг.
Аудио боловсруулалт
Аудио боловсруулалт нь бүх төрлийн дуу чимээг бүтэцтэй формат болгон хувиргадаг бөгөөд ингэснээр хэл яриа, амьтдын дуу чимээ (хуцах, шүгэл эсвэл жиргээ), барилгын чимээ (хагарсан шил, сканнердах эсвэл дуут дохио) зэрэг машин сурахад ашиглах боломжтой.
Ихэнхдээ, та дууг зохицуулахын өмнө гараар текст болгон хөрвүүлэх хэрэгтэй. Үүний дараа аудиог ангилж, шошго нэмснээр та энэ талаар илүү дэлгэрэнгүй мэдээлэл авах боломжтой. Таны сургалтын мэдээллийн багц Энэ нь ангилагдсан аудио юм.
Дүгнэлт
Эцэст нь хэлэхэд таны өгөгдлийг тодорхойлох нь аливаа хиймэл оюун ухааны загварыг сургах чухал хэсэг юм. Гэсэн хэдий ч хурдацтай хөгжиж буй байгууллага үүнийг гараар хийхэд цаг зарцуулах боломжгүй, учир нь энэ нь цаг хугацаа, эрчим хүч их шаарддаг.
Нэмж дурдахад энэ нь алдаа гаргахад өртөмтгий бөгөөд өндөр нарийвчлалыг амладаггүй процедур юм. Энэ нь тийм ч хэцүү байх албагүй, энэ нь маш сайн мэдээ юм.
Өнөөгийн өгөгдөл шошголох технологи нь машин сургалтын төрөл бүрийн хэрэглээнд нарийн бөгөөд хэрэгцээтэй өгөгдөл өгөхийн тулд хүн болон машин хоорондын хамтын ажиллагааг идэвхжүүлдэг.
хариу үлдээх