Мазмұны[Жасыру][Көрсету]
Корпоративтік қызметтің кез келген түрінің негізгі критерийлерінің бірі ақпаратты тиімді пайдалану болып табылады. Белгілі бір сәтте жасалған деректердің көлемі негізгі өңдеу мүмкіндігінен асып түседі.
Міне, машиналық оқыту алгоритмдері ойнайды. Дегенмен, мұның кез келгені орын алмас бұрын, ақпаратты зерттеп, түсіндіру керек. Бір сөзбен айтқанда, бұл бақыланбайтын машиналық оқыту үшін пайдаланылады.
Бұл мақалада біз бақылаусыз машиналық оқытуды, оның ішінде оның алгоритмдерін, пайдалану жағдайларын және т.б. қарастырамыз.
Бақыланбайтын машиналық оқыту дегеніміз не?
Бақыланбайтын машиналық оқыту алгоритмдері деректер жиынындағы белгілі немесе белгіленген салдары жоқ үлгілерді анықтайды. Бақыланады машинаны оқыту алгоритмдері таңбаланған шығысы бар.
Бұл айырмашылықты білу регрессия немесе жіктеу мәселелерін шешу үшін бақыланбайтын машиналық оқыту әдістерінің неге пайдаланылмайтынын түсінуге көмектеседі, себебі шығыс деректерінің мәні/жауабы қандай болуы мүмкін екенін білмейсіз. Мәнді/жауапты білмесеңіз, алгоритмді әдетте жаттықтыра алмайсыз.
Сонымен қатар, бақылаусыз оқытуды деректердің негізгі құрылымын анықтау үшін пайдалануға болады. Бұл алгоритмдер адамның өзара әрекеттесуінсіз жасырын үлгілерді немесе деректер топтамасын анықтайды.
Ақпараттағы ұқсастықтар мен қарама-қайшылықтарды анықтау қабілеті оны деректерді зерттеу, кросс-сату әдістері, тұтынушыларды сегменттеу және суретті сәйкестендіру үшін тамаша таңдау жасайды.
Келесі сценарийді қарастырыңыз: сіз азық-түлік дүкеніндесіз және бұрын ешқашан көрмеген белгісіз жемісті көресіз. Сіз оның пішініне, өлшеміне немесе түсіне бақылауларыңыздың негізінде айналасындағы басқа жемістерден белгісіз жемісті оңай ажырата аласыз.
Бақыланбайтын машиналық оқыту алгоритмдері
Кластерлеу
Кластерлік бақылаусыз оқытудың ең көп қолданылатын әдісі екені сөзсіз. Бұл тәсіл қатысты деректер элементтерін кездейсоқ құрылған кластерлерге орналастырады.
Өздігінен ML моделі санатталмаған деректер құрылымындағы кез келген үлгілерді, ұқсастықтарды және/немесе айырмашылықтарды табады. Модель деректердегі кез келген табиғи топтамаларды немесе сыныптарды таба алады.
түрлері
Қолданылуы мүмкін кластерлеудің бірнеше түрлері бар. Алдымен ең маңыздыларын қарастырайық.
- Эксклюзивті кластерлеу, кейде «қатты» кластерлеу ретінде белгілі, деректердің бір бөлігі тек бір кластерге жататын топтастыру түрі болып табылады.
- Жиі «жұмсақ» кластерлеу ретінде белгілі қабаттасатын кластерлеу деректер нысандарына әртүрлі дәрежеде бірнеше кластерге тиесілі болуға мүмкіндік береді. Бұдан басқа, ықтималдық кластерлеу «жұмсақ» кластерлеу немесе тығыздықты бағалау мәселелерін шешу үшін, сондай-ақ белгілі бір кластерлерге жататын деректер нүктелерінің ықтималдығын немесе ықтималдығын бағалау үшін пайдаланылуы мүмкін.
- Топтастырылған деректер элементтерінің иерархиясын жасау атау көрсеткендей иерархиялық кластерлеудің мақсаты болып табылады. Деректер элементтері кластерлерді жасау үшін иерархия негізінде деконструкцияланады немесе біріктіріледі.
Қолдану:
- Аномалияны анықтау:
Деректердегі шектен шығудың кез келген түрін кластерлеу арқылы анықтауға болады. Тасымалдау және логистика саласындағы компаниялар, мысалы, логистикалық кедергілерді анықтау немесе зақымдалған механикалық бөлшектерді ашу (болжамдық қызмет көрсету) үшін аномалияны анықтауды пайдалана алады.
Қаржы институттары алаяқтық транзакцияларды анықтау және жылдам әрекет ету үшін технологияны пайдалана алады, бұл әлеуетті көп ақшаны үнемдей алады. Бейнені көру арқылы ауытқуларды және алаяқтықты анықтау туралы көбірек біліңіз.
- Тұтынушылар мен нарықтарды сегменттеу:
Кластерлеу алгоритмдері ұқсас сипаттамалары бар адамдарды топтастыруға және тиімдірек маркетинг пен мақсатты бастамалар үшін тұтынушы тұлғаларын жасауға көмектеседі.
K- білдіреді
K-means - бөлу немесе сегменттеу ретінде белгілі кластерлеу әдісі. Ол деректер нүктелерін K деп аталатын кластерлердің алдын ала анықталған санына бөледі.
K-means әдісінде K - кіріс, өйткені сіз компьютерге деректеріңізде қанша кластерді анықтағыңыз келетінін айтасыз. Әрбір деректер элементі кейіннен центроид (суреттегі қара нүктелер) ретінде белгілі ең жақын кластер орталығына тағайындалады.
Соңғысы деректерді сақтау орны ретінде қызмет етеді. Кластерлеу әдісін кластерлер жақсы анықталғанша бірнеше рет жасауға болады.
Бұлыңғыр K-мағыналары
Бұлыңғыр К-орталары - қабаттасатын кластерлерді жасау үшін қолданылатын K-орталары техникасының кеңейтімі. K-орталары техникасынан айырмашылығы, анық емес K-орталар деректер нүктелерінің әрқайсысына әртүрлі дәрежедегі жақындықтағы көптеген кластерлерге тиесілі болуы мүмкін екенін көрсетеді.
Деректер нүктелері мен кластердің центроидтары арасындағы қашықтық жақындықты есептеу үшін пайдаланылады. Нәтижесінде әртүрлі кластерлер бір-біріне сәйкес келетін жағдайлар болуы мүмкін.
Гаусс қоспасының үлгілері
Гаусс қоспасының үлгілері (GMM) ықтималдық кластерлеуде қолданылатын әдіс болып табылады. Орташа және дисперсия белгісіз болғандықтан, модельдер әрқайсысы нақты кластерді білдіретін Гаусс таралымдарының тіркелген саны бар деп есептейді.
Нақты деректер нүктесі қай кластерге жататынын анықтау үшін әдіс негізінен пайдаланылады.
Иерархиялық кластерлеу
Иерархиялық кластерлеу стратегиясы басқа кластерге тағайындалған әрбір деректер нүктесінен басталуы мүмкін. Бір-біріне ең жақын екі кластер бір кластерге біріктіріледі. Итеративті біріктіру жоғарғы жағында тек бір кластер қалғанша жалғасады.
Бұл әдіс төменнен жоғарыға немесе агломеративті деп аталады. Бір кластерге байланыстырылған барлық деректер элементтерінен бастасаңыз, содан кейін әрбір деректер элементі жеке кластер ретінде тағайындалғанға дейін бөлулерді жүргізсеңіз, әдіс жоғарыдан төмен немесе бөлетін иерархиялық кластерлеу ретінде белгілі.
Априори алгоритмі
Нарық себетін талдау априори алгоритмдерін танымал етті, нәтижесінде музыкалық платформалар мен интернет-дүкендер үшін әртүрлі ұсыныстар қозғалтқыштары пайда болды.
Олар басқа өнімді тұтыну негізінде бір өнімді тұтыну ықтималдығын болжау үшін жиі элементтер жиынын немесе элементтер топтамасын табу үшін транзакциялық деректер жиындарында пайдаланылады.
Мысалы, мен OneRepublic радиосын Spotify-те «Жұлдызды санау» арқылы ойната бастасам, осы арнадағы басқа әндердің бірі «Жаман өтірікші» сияқты Imagine Dragon әні болатыны сөзсіз.
Бұл менің бұрынғы тыңдау әдеттеріме және басқалардың тыңдау үлгілеріне негізделген. Априори әдістері элементтер жиынын хэш ағашын пайдаланып санайды, деректер жиынының енінен бірінші болып өтеді.
Өлшемділікті азайту
Өлшемді азайту – деректер жиынындағы мүмкіндіктердің немесе өлшемдердің санын азайту үшін стратегиялар жинағын пайдаланатын бақылаусыз оқытудың бір түрі. Бізге нақтылауға рұқсат етіңіз.
Өзіңізді жасау кезінде мүмкіндігінше көп деректерді қосу қызықты болуы мүмкін машиналық оқытуға арналған деректер жинағы. Бізді қате түсінбеңіз: бұл стратегия жақсы жұмыс істейді, өйткені көбірек деректер әдетте дәлірек нәтижелер береді.
Деректер N-өлшемді кеңістікте сақталады, әр мүмкіндік басқа өлшемді білдіреді делік. Деректер көп болса, жүздеген өлшемдер болуы мүмкін.
Сипаттамаларды көрсететін бағандар және деректер элементтерін көрсететін жолдар бар Excel электрондық кестелерін қарастырыңыз. Өлшемдер тым көп болғанда, ML алгоритмдері нашар жұмыс істеуі мүмкін және деректерді визуализациялау қиынға соғуы мүмкін.
Сондықтан сипаттамаларды немесе өлшемдерді шектеуді және тек сәйкес ақпаратты беруді қисынды етеді. Өлшемді азайту - дәл осы. Ол деректер жиынының тұтастығын бұзбай, басқарылатын деректер енгізу санына мүмкіндік береді.
Негізгі компоненттерді талдау (PCA)
Негізгі құрамдас талдау өлшемді азайту тәсілі болып табылады. Ол үлкен деректер жинақтарындағы мүмкіндіктер санын азайту үшін пайдаланылады, нәтижесінде дәлдікті жоғалтпай деректердің қарапайымдылығы жоғарылайды.
Деректер жиынын қысу мүмкіндіктерді шығару деп аталатын әдіс арқылы орындалады. Бұл бастапқы жиынтық элементтердің жаңа, кішірекке біріктірілгенін көрсетеді. Бұл жаңа белгілер негізгі компоненттер ретінде белгілі.
Әрине, бақылаусыз оқу қолданбаларында пайдалануға болатын қосымша алгоритмдер бар. Жоғарыда аталғандар ең кең таралған, сондықтан олар толығырақ талқыланады.
Бақылаусыз оқытуды қолдану
- Бақыланбайтын оқыту әдістері объектіні тану сияқты көрнекі қабылдау тапсырмалары үшін қолданылады.
- Бақыланбайтын машиналық оқыту пациенттерді жылдам және сенімді диагностикалау үшін радиология мен патологияда қолданылатын кескінді сәйкестендіру, жіктеу және сегменттеу сияқты медициналық бейнелеу жүйелеріне маңызды аспектілерді береді.
- Бақылаусыз оқыту тұтынушылардың мінез-құлқы туралы бұрынғы деректерді пайдалана отырып, тиімдірек кросс-сату стратегияларын жасау үшін пайдаланылуы мүмкін деректер үрдістерін анықтауға көмектеседі. Төлем процесінде мұны онлайн-кәсіпорындар клиенттерге дұрыс қондырмаларды ұсыну үшін пайдаланады.
- Бақыланбайтын оқыту әдістері ауытқуларды табу үшін үлкен көлемдегі деректерді електен өткізе алады. Бұл ауытқулар жабдықтың дұрыс жұмыс істемеуі, адам қатесі немесе қауіпсіздіктің бұзылуы туралы ескертуді тудыруы мүмкін.
Бақылаусыз оқыту мәселелері
Бақылаусыз оқыту әртүрлі жолдармен қызықтырады, маңызды түсініктерді табу мүмкіндігінен бастап деректерді қымбат таңбалауды болдырмау үшін деректер операциялар. Дегенмен, бұл стратегияны оқыту үшін қолданудың бірнеше кемшіліктері бар машиналық оқыту модельдері сіз білуіңіз керек. Міне, кейбір мысалдар.
- Енгізілген деректерде жауап кілттері ретінде қызмет ететін белгілер жоқ болғандықтан, бақылаусыз оқыту үлгілерінің нәтижелері дәлірек болуы мүмкін.
- Бақыланбайтын оқыту көбінесе есептеу күрделілігін арттыратын ауқымды деректер жиынымен жұмыс істейді.
- Тәсіл сұрау нысанасы бойынша ішкі немесе сыртқы мамандардың адамдардың қорытынды растауын қажет етеді.
- Алгоритмдер белгілі бір уақытты алатын оқу кезеңінде барлық мүмкін сценарийді қарастырып, есептеуі керек.
қорытынды
Деректерді тиімді пайдалану белгілі бір нарықта бәсекеге қабілеттілікті орнатудың кілті болып табылады.
Мақсатты аудиторияңыздың қалауын тексеру немесе белгілі бір инфекцияның белгілі бір емге қалай жауап беретінін анықтау үшін бақыланбайтын машиналық оқыту алгоритмдерін пайдаланып деректерді сегменттеуге болады.
Бірнеше практикалық қосымшалар бар және деректер ғалымдары, инженерлер мен сәулетшілер мақсаттарыңызды анықтауға және компанияңыз үшін бірегей ML шешімдерін әзірлеуге көмектесе алады.
пікір қалдыру