Гарчиг[Нуух][Үзүүлэх]
Аливаа компанийн үйл ажиллагааны үндсэн шалгууруудын нэг бол мэдээллийг үр дүнтэй ашиглах явдал юм. Зарим үед үүсгэсэн өгөгдлийн хэмжээ нь үндсэн боловсруулалтын хүчин чадлаас хэтэрдэг.
Энд л машин сургалтын алгоритмууд гарч ирдэг. Гэсэн хэдий ч эдгээрийн аль нэг нь тохиолдохоос өмнө мэдээллийг судалж, тайлбарлах ёстой. Товчхондоо энэ бол хяналтгүй машин сургалтыг ашигладаг зүйл юм.
Энэ нийтлэлд бид хяналтгүй машин сургалт, түүний алгоритм, ашиглалтын тохиолдол болон бусад олон зүйлийг нарийвчлан судлах болно.
Хяналтгүй машин сургалт гэж юу вэ?
Хяналтгүй машин сургалтын алгоритмууд нь мэдэгдэж байгаа эсвэл шошгологдсон үр дагаваргүй өгөгдлийн багц дахь хэв маягийг тодорхойлдог. Хяналттай машин сурах алгоритм шошготой гаралттай байна.
Энэ ялгааг мэдэх нь гаралтын өгөгдлийн үнэ цэнэ/хариулт нь ямар байхыг мэдэхгүй тул регресс эсвэл ангиллын асуудлыг шийдвэрлэхэд хяналтгүй машин сургалтын аргыг яагаад ашиглаж болохгүйг ойлгоход тусална. Хэрэв та утга/хариултыг мэдэхгүй бол алгоритмыг сургаж чадахгүй.
Түүнчлэн хяналтгүй сургалтыг өгөгдлийн үндсэн бүтцийг тодорхойлоход ашиглаж болно. Эдгээр алгоритмууд нь хүний харилцан үйлчлэлгүйгээр далд хэв маяг эсвэл өгөгдлийн бүлэглэлийг илрүүлдэг.
Мэдээллийн ижил төстэй байдал, ялгаатай байдлыг илрүүлэх чадвар нь үүнийг хайгуулын өгөгдөлд дүн шинжилгээ хийх, хөндлөн зарах арга техник, хэрэглэгчийн сегментчилэл, зургийг тодорхойлоход маш сайн сонголт болгодог.
Дараах хувилбарыг авч үзье: та хүнсний дэлгүүрт очоод урьд өмнө хэзээ ч харж байгаагүй үл мэдэгдэх жимс харав. Та түүний хэлбэр, хэмжээ, өнгө зэргийг ажигласнаар үл мэдэгдэх жимсийг бусад жимснээс амархан ялгаж чадна.
Хяналтгүй машин сургалтын алгоритмууд
Классив
Хяналтгүй сургалтын хамгийн өргөн хэрэглэгддэг арга бол кластер хийх нь эргэлзээгүй. Энэ арга нь холбогдох өгөгдлийн зүйлсийг санамсаргүй байдлаар үүсгэсэн кластерт оруулдаг.
ML загвар нь өөрөө ангилагдаагүй өгөгдлийн бүтцээс ямар нэгэн хэв маяг, ижил төстэй байдал ба/эсвэл ялгааг олж илрүүлдэг. Загвар нь өгөгдлийн аливаа байгалийн бүлэг, ангиллыг олж илрүүлэх боломжтой болно.
төрөл
Ашиглаж болох кластерын хэд хэдэн хэлбэр байдаг. Эхлээд хамгийн чухал зүйлийг авч үзье.
- Онцгой кластер, заримдаа "хатуу" кластер гэж нэрлэдэг бөгөөд нэг хэсэг өгөгдөл нь зөвхөн нэг кластерт хамаарах бүлэглэлийн төрөл юм.
- Ихэнхдээ "зөөлөн" кластер гэж нэрлэгддэг давхардсан кластер нь өгөгдлийн объектуудыг янз бүрийн хэмжээгээр нэгээс илүү кластерт хамааруулах боломжийг олгодог. Цаашилбал, магадлалын кластерчлалыг "зөөлөн" кластер эсвэл нягтралын тооцооллын асуудлыг шийдвэрлэх, түүнчлэн тодорхой кластерт хамаарах өгөгдлийн цэгүүдийн магадлал эсвэл магадлалыг үнэлэхэд ашиглаж болно.
- Бүлэглэсэн өгөгдлийн зүйлсийн шатлалыг бий болгох нь нэрнээс нь харахад шаталсан кластерын зорилго юм. Кластер үүсгэхийн тулд өгөгдлийн зүйлсийг шатлалд үндэслэн задалж эсвэл нэгтгэдэг.
Хэрэглэл ашиглана уу:
- Аномали илрүүлэх:
Өгөгдөл дэх аливаа төрлийн хэт утгыг кластерчлалын тусламжтайгаар илрүүлж болно. Жишээлбэл, тээвэр, логистикийн компаниуд логистикийн саад тотгорыг илрүүлэх эсвэл эвдэрсэн механик эд ангиудыг илрүүлэхийн тулд гажиг илрүүлэх аргыг ашиглаж болно (урьдчилан таамаглах засвар үйлчилгээ).
Санхүүгийн байгууллагууд энэхүү технологийг ашиглан луйврын гүйлгээг илрүүлж, хурдан хариу арга хэмжээ авч, их хэмжээний мөнгө хэмнэх боломжтой. Манай видеог үзээд хэвийн бус байдал, залилангийн талаар илүү ихийг мэдэж аваарай.
- Үйлчлүүлэгчид болон зах зээлийн сегментчилэл:
Кластерийн алгоритмууд нь ижил төстэй шинж чанартай хүмүүсийг бүлэглэж, илүү үр дүнтэй маркетинг, зорилтот санаачлагыг бий болгоход туслах болно.
K- гэсэн үг
K-means нь хуваалт эсвэл сегментчилэл гэж нэрлэгддэг кластерын арга юм. Энэ нь өгөгдлийн цэгүүдийг K гэж нэрлэгддэг урьдчилан тодорхойлсон тооны кластеруудад хуваадаг.
K-means аргын хувьд K нь өгөгдлөөсөө хэдэн кластер тодорхойлохыг компьютерт хэлснээс хойш оролт юм. Өгөгдлийн зүйл бүрийг дараа нь центроид (зураг дээрх хар цэгүүд) гэж нэрлэгддэг хамгийн ойрын кластерийн төвд хуваарилдаг.
Сүүлийнх нь өгөгдөл хадгалах зай болж үйлчилдэг. Кластеруудыг сайтар тодорхойлох хүртэл кластер хийх аргыг хэд хэдэн удаа хийж болно.
Fuzzy K- гэсэн үг
Fuzzy K-means нь K-means аргын өргөтгөл бөгөөд энэ нь давхцаж буй кластер үүсгэхэд хэрэглэгддэг. K-means техникээс ялгаатай нь бүдэг K-тэдгээр нь өгөгдлийн цэгүүд нь тус бүрдээ өөр өөр зэрэгтэй ойрхон олон кластерт харьяалагддаг болохыг харуулж байна.
Өгөгдлийн цэгүүд болон кластерын центроид хоорондын зай нь ойролцоо байдлыг тооцоолоход ашиглагддаг. Үүний үр дүнд янз бүрийн кластерууд давхцах тохиолдол гардаг.
Гауссын хольцын загварууд
Гауссын хольцын загварууд (GMMs) нь магадлалын кластерт хэрэглэгддэг арга юм. Дундаж ба дисперс нь тодорхойгүй тул загварууд нь тодорхой тооны Gauss тархалттай гэж үздэг бөгөөд тус бүр нь тодорхой кластерыг төлөөлдөг.
Тодорхой өгөгдлийн цэг аль кластерт хамаарахыг тодорхойлохын тулд уг аргыг үндсэндээ ашигладаг.
Шаталсан кластер
Шаталсан кластерын стратеги нь өөр кластерт хуваарилагдсан өгөгдлийн цэг бүрээс эхэлж болно. Бие биедээ хамгийн ойр байгаа хоёр кластерыг дараа нь нэг кластерт нэгтгэнэ. Давталтын нэгдэл нь дээд талд нь зөвхөн нэг кластер үлдэх хүртэл үргэлжилнэ.
Энэ аргыг доороос дээш эсвэл бөөгнөрөл гэж нэрлэдэг. Хэрэв та бүх өгөгдлийн зүйлийг нэг кластерт холбож, дараа нь өгөгдлийн зүйл бүрийг тусдаа кластер болгон хуваарилах хүртэл хуваах юм бол энэ аргыг дээрээс доош эсвэл хуваах шаталсан кластер гэж нэрлэдэг.
Априори алгоритм
Зах зээлийн сагсны шинжилгээ нь априори алгоритмуудыг алдаршуулж, хөгжмийн платформ болон онлайн дэлгүүрүүдэд янз бүрийн зөвлөмж өгөх хөдөлгүүрүүдийг бий болгосон.
Тэдгээрийг гүйлгээний өгөгдлийн багцад ашигладаг бөгөөд нэг бүтээгдэхүүнийг нөгөө бүтээгдэхүүний хэрэглээнд тулгуурлан хэрэглэх магадлалыг урьдчилан таамаглах зорилгоор байнга тохиолддог зүйлсийн багц буюу бүлгүүдийг олоход ашигладаг.
Жишээлбэл, хэрэв би OneRepublic-ийн радиог Spotify дээр "Одод тоолох" дуугаар тоглуулж эхэлбэл энэ сувгийн бусад дуунуудын нэг нь "Муу худалч" гэх мэт Imagine Dragon дуу байх нь гарцаагүй.
Энэ нь миний өмнөх сонсох дадал, бусдын сонсох хэв маяг дээр үндэслэсэн. Априори аргууд нь хэш модыг ашиглан өгөгдлийн багцын өргөнийг эхлээд дайран тоолдог.
Хэмжээжилтийг бууруулах
Хэмжээг багасгах гэдэг нь өгөгдлийн багц дахь шинж чанарууд эсвэл хэмжээсүүдийн тоог багасгахын тулд стратегийн цуглуулгыг ашигладаг нэг төрлийн хяналтгүй сургалт юм. Бидэнд тодруулахыг зөвшөөрнө үү.
Таныг үүсгэхдээ аль болох их өгөгдлийг оруулах нь сонирхолтой байж магадгүй юм машин сургалтын мэдээллийн багц. Биднийг битгий буруугаар ойлгоорой: илүү их өгөгдөл нь илүү үнэн зөв дүгнэлт гаргадаг тул энэ стратеги сайн ажилладаг.
Өгөгдөл нь N хэмжээст орон зайд хадгалагдаж, онцлог бүр нь өөр хэмжигдэхүүнийг илэрхийлдэг гэж бодъё. Хэрэв маш их өгөгдөл байгаа бол хэдэн зуун хэмжээс байж болно.
Багана нь шинж чанарыг, мөр нь өгөгдлийн зүйлийг илэрхийлдэг Excel хүснэгтийг авч үзье. Хэт олон хэмжээстэй үед ML алгоритмууд муу ажиллаж магадгүй мэдээллийн дүрслэл хэцүү болж болно.
Тиймээс энэ нь шинж чанар эсвэл хэмжээсийг хязгаарлаж, зөвхөн холбогдох мэдээллийг дамжуулах нь логик юм. Хэмжээг багасгах нь яг л ийм юм. Энэ нь өгөгдлийн багцын бүрэн бүтэн байдлыг алдагдуулахгүйгээр удирдах боломжтой тоо хэмжээний өгөгдөл оруулах боломжийг олгодог.
Үндсэн бүрэлдэхүүн хэсгийн шинжилгээ (PCA)
Үндсэн бүрэлдэхүүн хэсгийн шинжилгээ нь хэмжээст байдлыг багасгах арга юм. Энэ нь асар том өгөгдлийн багц дахь функцүүдийн тоог багасгахад ашиглагддаг бөгөөд ингэснээр нарийвчлалыг алдагдуулахгүйгээр өгөгдлийг илүү хялбар болгодог.
Өгөгдлийн багц шахалтыг онцлог задлах гэж нэрлэдэг аргаар гүйцэтгэдэг. Энэ нь анхны багцын элементүүдийг шинэ, жижиг болгон нэгтгэж байгааг харуулж байна. Эдгээр шинэ шинж чанаруудыг үндсэн бүрэлдэхүүн хэсгүүд гэж нэрлэдэг.
Мэдээжийн хэрэг, таны хяналтгүй сургалтын програмуудад ашиглаж болох нэмэлт алгоритмууд байдаг. Дээр дурдсан зүйлүүд нь зөвхөн хамгийн түгээмэл байдаг тул тэдгээрийг илүү нарийвчлан авч үзэх болно.
Хяналтгүй сургалтын хэрэглээ
- Хяналтгүй сургалтын аргуудыг объектыг таних гэх мэт харааны мэдрэхүйд ашигладаг.
- Хяналтгүй машин сургалт нь өвчтөнийг хурдан бөгөөд найдвартай оношлохын тулд рентген болон эмгэг судлалд ашигладаг дүрсийг тодорхойлох, ангилах, сегментлэх зэрэг эмнэлгийн дүрслэлийн системд чухал ач холбогдолтой зүйлсийг өгдөг.
- Хяналтгүй суралцах нь хэрэглэгчийн зан төлөвийн талаарх өмнөх өгөгдлийг ашиглан илүү үр дүнтэй хөндлөн борлуулалтын стратегийг бий болгоход ашиглаж болох мэдээллийн чиг хандлагыг тодорхойлоход тусална. Тооцоо хийх явцад үүнийг онлайн бизнесүүд үйлчлүүлэгчдэд зөв нэмэлтүүдийг санал болгоход ашигладаг.
- Хяналтгүй сургалтын аргууд нь асар их хэмжээний өгөгдлийг шүүж, гажуудлыг олох боломжтой. Эдгээр хэвийн бус байдал нь тоног төхөөрөмжийн эвдрэл, хүний алдаа эсвэл аюулгүй байдлын зөрчлийн мэдэгдлийг нэмэгдүүлж болзошгүй.
Хяналтгүй суралцахтай холбоотой асуудлууд
Хяналтгүй суралцах нь чухал ойлголтыг олох боломжоос эхлээд янз бүрийн арга замаар сонирхолтой байдаг өндөр өртөгтэй мэдээллийн шошгололтоос зайлсхийхийн тулд өгөгдөл үйл ажиллагаа. Гэсэн хэдий ч, энэ стратегийг сургахад ашиглах нь хэд хэдэн сул талуудтай машин сургалтын загварууд гэдгийг та мэдэх ёстой. Зарим жишээг энд оруулав.
- Оролтын өгөгдөлд хариултын түлхүүр болох шошго байхгүй тул хяналтгүй сургалтын загваруудын үр дүн бага нарийвчлалтай байж болно.
- Хяналтгүй сургалт нь ихэвчлэн асар их өгөгдлийн багцтай ажилладаг бөгөөд энэ нь тооцооллын нарийн төвөгтэй байдлыг нэмэгдүүлдэг.
- Энэхүү арга барил нь судалгааны сэдэв дэх дотоод болон гадаад мэргэжилтнүүдийн үр дүнг баталгаажуулахыг шаарддаг.
- Алгоритмууд нь сургалтын үе шатанд боломжит хувилбар бүрийг шалгаж, тооцоолох ёстой бөгөөд үүнд хэсэг хугацаа шаардагдана.
Дүгнэлт
Өгөгдлийг үр дүнтэй ашиглах нь тодорхой зах зээлд өрсөлдөх давуу талыг бий болгох түлхүүр юм.
Та зорилтот үзэгчдийнхээ сонголтыг шалгах эсвэл тодорхой халдвар нь тодорхой эмчилгээнд хэрхэн хариу үйлдэл үзүүлэхийг тодорхойлохын тулд хяналтгүй машин сургалтын алгоритмуудыг ашиглан өгөгдлийг сегментчилж болно.
Хэд хэдэн практик хэрэглээ байдаг, мөн мэдээллийн эрдэмтэд, инженер, архитекторууд зорилгоо тодорхойлох, компанийхаа өвөрмөц ML шийдлүүдийг боловсруулахад тань туслах болно.
хариу үлдээх