სარჩევი[დამალვა][ჩვენება]
ნებისმიერი ტიპის კორპორატიული საქმიანობის ერთ-ერთი მთავარი კრიტერიუმი ინფორმაციის ეფექტური გამოყენებაა. რაღაც მომენტში, შექმნილი მონაცემთა მოცულობა აღემატება ძირითადი დამუშავების შესაძლებლობებს.
სწორედ აქ მოქმედებს მანქანათმცოდნეობის ალგორითმები. თუმცა, სანამ რაიმე ეს მოხდება, ინფორმაცია უნდა იყოს შესწავლილი და ინტერპრეტირებული. მოკლედ, ეს არის ის, რისთვისაც გამოიყენება უკონტროლო მანქანური სწავლება.
ამ სტატიაში ჩვენ განვიხილავთ სიღრმისეულ უკონტროლო მანქანურ სწავლებას, მათ შორის მის ალგორითმებს, გამოყენების შემთხვევებს და ბევრ სხვას.
რა არის უკონტროლო მანქანათმცოდნეობა?
უკონტროლო მანქანათმცოდნეობის ალგორითმები იდენტიფიცირებენ ნიმუშებს მონაცემთა ნაკრებში, რომლებსაც არ აქვთ ცნობილი ან ეტიკეტირებული შედეგი. მეთვალყურეობის ქვეშ მანქანა სწავლების ალგორითმები აქვს ეტიკეტირებული გამომავალი.
ამ განსხვავების ცოდნა გეხმარებათ გაიგოთ, რატომ არ შეიძლება გამოყენებულ იქნას უკონტროლო მანქანათმცოდნეობის მეთოდები რეგრესიის ან კლასიფიკაციის საკითხების გადასაჭრელად, რადგან არ იცით რა მნიშვნელობა/პასუხი შეიძლება იყოს გამომავალი მონაცემებისთვის. თქვენ არ შეგიძლიათ ალგორითმის ნორმალურად მომზადება, თუ არ იცით მნიშვნელობა/პასუხი.
უფრო მეტიც, უკონტროლო სწავლება შეიძლება გამოყენებულ იქნას მონაცემთა ფუნდამენტური სტრუქტურის დასადგენად. ეს ალგორითმები აღმოაჩენენ ფარულ შაბლონებს ან მონაცემთა დაჯგუფებას ადამიანური ურთიერთქმედების საჭიროების გარეშე.
მისი უნარი აღმოაჩინოს მსგავსება და კონტრასტი ინფორმაციაში, ხდის მას შესანიშნავ არჩევანს საძიებო მონაცემების ანალიზისთვის, ჯვარედინი გაყიდვების ტექნიკისთვის, მომხმარებელთა სეგმენტაციისა და სურათების იდენტიფიკაციისთვის.
განიხილეთ შემდეგი სცენარი: თქვენ ხართ სასურსათო მაღაზიაში და ხედავთ ამოუცნობ ხილს, რომელიც აქამდე არასოდეს გინახავთ. თქვენ შეგიძლიათ მარტივად განასხვავოთ უცნობი ხილი, რომელიც განსხვავდება სხვა ხილისგან, მისი ფორმის, ზომის ან ფერის დაკვირვების საფუძველზე.
უკონტროლო მანქანათმცოდნეობის ალგორითმები
კლასტერული
კლასტერირება უდავოდ არის ყველაზე ფართოდ გამოყენებული უკონტროლო სწავლის მიდგომა. ეს მიდგომა ათავსებს დაკავშირებულ მონაცემთა ელემენტებს შემთხვევით გენერირებულ კლასტერებში.
თავისთავად, ML მოდელი აღმოაჩენს ნებისმიერ შაბლონს, მსგავსებას და/ან განსხვავებას მონაცემთა არაკატეგორიულ სტრუქტურაში. მოდელს შეუძლია აღმოაჩინოს ნებისმიერი ბუნებრივი დაჯგუფება ან კლასები მონაცემებში.
სახეები
არსებობს კლასტერიზაციის რამდენიმე ფორმა, რომელიც შეიძლება გამოყენებულ იქნას. მოდით, პირველ რიგში განვიხილოთ ყველაზე მნიშვნელოვანი.
- ექსკლუზიური კლასტერირება, რომელიც ზოგჯერ ცნობილია როგორც "მყარი" კლასტერირება, არის დაჯგუფების ტიპი, რომელშიც მონაცემთა ერთი ნაწილი ეკუთვნის მხოლოდ ერთ კლასტერს.
- გადახურვის კლასტერირება, რომელიც ხშირად ცნობილია როგორც „რბილი“ კლასტერირება, საშუალებას აძლევს მონაცემთა ობიექტებს მიეკუთვნებოდეს ერთზე მეტ კლასტერს სხვადასხვა ხარისხით. გარდა ამისა, ალბათური კლასტერირება შეიძლება გამოყენებულ იქნას „რბილი“ კლასტერინგის ან სიმკვრივის შეფასების პრობლემების მოსაგვარებლად, ასევე გარკვეული კლასტერების კუთვნილი მონაცემთა წერტილების ალბათობის ან ალბათობის შესაფასებლად.
- დაჯგუფებული მონაცემების იერარქიის შექმნა არის იერარქიული კლასტერიზაციის მიზანი, როგორც ეს სახელი მიუთითებს. მონაცემთა ელემენტების დეკონსტრუქცია ან გაერთიანება ხდება იერარქიის საფუძველზე კლასტერების შესაქმნელად.
გამოიყენეთ შემთხვევები:
- ანომალიის გამოვლენა:
კლასტერინგის გამოყენებით შესაძლებელია ნებისმიერი ტიპის ამონაწერის აღმოჩენა. მაგალითად, სატრანსპორტო და ლოჯისტიკის კომპანიებს შეუძლიათ გამოიყენონ ანომალიის გამოვლენა ლოგისტიკური შეფერხებების აღმოსაჩენად ან დაზიანებული მექანიკური ნაწილების გასამჟღავნებლად (პროგნოზირებადი მოვლა).
საფინანსო ინსტიტუტებს შეუძლიათ გამოიყენონ ტექნოლოგია თაღლითური ტრანზაქციების აღმოსაჩენად და სწრაფად უპასუხონ, რაც პოტენციურად დაზოგავს დიდ ფულს. შეიტყვეთ მეტი პათოლოგიებისა და თაღლითობის შესახებ ჩვენი ვიდეოს ყურებით.
- მომხმარებელთა და ბაზრების სეგმენტაცია:
კლასტერიზაციის ალგორითმები შეიძლება დაეხმაროს ადამიანების დაჯგუფებას, რომლებსაც აქვთ მსგავსი მახასიათებლები და შექმნან მომხმარებელთა პერსონა უფრო ეფექტური მარკეტინგისა და მიზანმიმართული ინიციატივებისთვის.
კ- ნიშნავს
K-means არის კლასტერიზაციის მეთოდი, რომელიც ასევე ცნობილია როგორც დანაყოფი ან სეგმენტაცია. ის ყოფს მონაცემთა წერტილებს კლასტერების წინასწარ განსაზღვრულ რაოდენობად, რომლებიც ცნობილია როგორც K.
K-means მეთოდში, K არის შეყვანა, რადგან თქვენ უთხარით კომპიუტერს რამდენი კლასტერის იდენტიფიცირება გსურთ თქვენს მონაცემებში. თითოეული მონაცემთა ელემენტი შემდგომში მინიჭებულია უახლოეს კლასტერულ ცენტრს, რომელიც ცნობილია როგორც ცენტროიდი (შავი წერტილები სურათზე).
ეს უკანასკნელი ემსახურება როგორც მონაცემთა შენახვის სივრცეს. კლასტერიზაციის ტექნიკა შეიძლება ბევრჯერ განხორციელდეს, სანამ კლასტერები კარგად არ არის განსაზღვრული.
Fuzzy K- ნიშნავს
Fuzzy K-means არის K-means ტექნიკის გაფართოება, რომელიც გამოიყენება გადახურვის კლასტერიზაციისთვის. K-საშუალების ტექნიკისგან განსხვავებით, ბუნდოვანი K-საშუალებები მიუთითებს, რომ მონაცემთა წერტილები შეიძლება ეკუთვნოდეს მრავალ კლასტერს, თითოეულთან სიახლოვის სხვადასხვა ხარისხით.
მანძილი მონაცემთა წერტილებსა და კლასტერის ცენტროიდს შორის გამოიყენება სიახლოვის გამოსათვლელად. შედეგად, შეიძლება იყოს შემთხვევები, როდესაც სხვადასხვა მტევანი ერთმანეთს ემთხვევა.
გაუსის ნარევების მოდელები
Gaussian Mixture Models (GMM) არის მეთოდი, რომელიც გამოიყენება ალბათურ კლასტერირებაში. იმის გამო, რომ საშუალო და სხვაობა უცნობია, მოდელები ვარაუდობენ, რომ არსებობს გაუსის განაწილების ფიქსირებული რაოდენობა, თითოეული წარმოადგენს განსხვავებულ კლასტერს.
იმის დასადგენად, თუ რომელ კლასტერს ეკუთვნის კონკრეტული მონაცემთა წერტილი, მეთოდი ძირითადად გამოიყენება.
იერარქიული კლასტერირება
იერარქიული კლასტერიზაციის სტრატეგია შეიძლება დაიწყოს ყოველი მონაცემთა წერტილით, რომელიც მინიჭებულია სხვადასხვა კლასტერზე. ორი მტევანი, რომლებიც ერთმანეთთან ყველაზე ახლოს არიან, შემდეგ ერწყმის ერთ მტევანს. განმეორებითი შერწყმა გრძელდება მანამ, სანამ მხოლოდ ერთი კლასტერი დარჩება ზევით.
ეს მეთოდი ცნობილია როგორც ქვემოდან ზემოთ ან აგლომერაციული. თუ დაიწყებთ ყველა მონაცემის ერთეულს მიბმული ერთსა და იმავე კლასტერზე და შემდეგ ატარებთ გაყოფას, სანამ თითოეული მონაცემთა ელემენტი არ იქნება მინიჭებული ცალკე კლასტერად, მეთოდი ცნობილია როგორც ზემოდან ქვევით ან გამყოფი იერარქიული კლასტერირება.
აპრიორის ალგორითმი
ბაზრის კალათის ანალიზმა პოპულარიზაცია მოახდინა apriori ალგორითმებს, რის შედეგადაც შეიქმნა სხვადასხვა სარეკომენდაციო ძრავები მუსიკალური პლატფორმებისთვის და ონლაინ მაღაზიებისთვის.
ისინი გამოიყენება ტრანზაქციულ მონაცემთა ნაკრებებში ხშირი ერთეულების, ან ერთეულების დაჯგუფების საპოვნელად, რათა წინასწარ განსაზღვრონ ერთი პროდუქტის მოხმარების ალბათობა მეორის მოხმარების საფუძველზე.
მაგალითად, თუ დავიწყებ OneRepublic-ის რადიოს დაკვრას Spotify-ზე „Counting Stars“-ით, ამ არხის ერთ-ერთი სხვა სიმღერა ნამდვილად იქნება Imagine Dragon-ის სიმღერა, როგორიცაა „Bad Liar“.
ეს ეფუძნება ჩემს წინა მოსმენის ჩვევებს, ისევე როგორც სხვების მოსმენის ნიმუშებს. Apriori მეთოდები ითვლიან ერთეულების სიმრავლეს ჰეშის ხის გამოყენებით, პირველ რიგში მონაცემთა სიგანის გავლას.
განზომილების შემცირება
განზომილების შემცირება არის ერთგვარი უკონტროლო სწავლება, რომელიც იყენებს სტრატეგიების კრებულს მონაცემთა ნაკრებში ფუნქციების – ან განზომილებების – რაოდენობის შესამცირებლად. ნება მოგვეცით განვმარტოთ.
შეიძლება მაცდური იყოს რაც შეიძლება მეტი მონაცემების ჩართვა თქვენი შექმნისას მონაცემთა ნაკრები მანქანათმცოდნეობისთვის. არასწორად ნუ გაგვაგებინებთ: ეს სტრატეგია კარგად მუშაობს, რადგან მეტი მონაცემი ჩვეულებრივ უფრო ზუსტ დასკვნებს იძლევა.
დავუშვათ, რომ მონაცემები ინახება N-განზომილებიან სივრცეში, თითოეული მახასიათებელი წარმოადგენს განსხვავებულ განზომილებას. შეიძლება იყოს ასობით განზომილება, თუ ბევრი მონაცემია.
განვიხილოთ Excel-ის ცხრილები, სვეტებით, რომლებიც წარმოადგენს მახასიათებლებს და სტრიქონებს, რომლებიც წარმოადგენს მონაცემთა ელემენტებს. როდესაც ძალიან ბევრი განზომილებაა, ML ალგორითმები შეიძლება ცუდად მუშაობდეს და მონაცემთა ვიზუალიზაცია შეიძლება რთული გახდეს.
ასე რომ, ლოგიკურია მახასიათებლების ან ზომების შეზღუდვა და მხოლოდ შესაბამისი ინფორმაციის გადაცემა. განზომილების შემცირება სწორედ ეს არის. ის იძლევა მონაცემთა შეყვანის მართვადი რაოდენობის საშუალებას მონაცემთა ნაკრების მთლიანობის შელახვის გარეშე.
ძირითადი კომპონენტის ანალიზი (PCA)
ძირითადი კომპონენტის ანალიზი არის განზომილების შემცირების მიდგომა. იგი გამოიყენება უზარმაზარ მონაცემთა ნაკრებებში ფუნქციების რაოდენობის შესამცირებლად, რაც იწვევს მონაცემთა უფრო დიდ სიმარტივეს სიზუსტის შეწირვის გარეშე.
მონაცემთა ნაკრების შეკუმშვა ხორციელდება მეთოდით, რომელიც ცნობილია როგორც ფუნქციების ამოღება. ეს მიუთითებს, რომ ელემენტები ორიგინალური ნაკრებიდან არის შერწყმული ახალ, პატარაში. ეს ახალი თვისებები ცნობილია, როგორც პირველადი კომპონენტები.
რა თქმა უნდა, არსებობს დამატებითი ალგორითმები, რომლებიც შეგიძლიათ გამოიყენოთ თქვენს უკონტროლო სასწავლო აპლიკაციებში. ზემოთ ჩამოთვლილი მხოლოდ ყველაზე გავრცელებულია, რის გამოც ისინი უფრო დეტალურად განიხილება.
უკონტროლო სწავლის გამოყენება
- უკონტროლო სწავლის მეთოდები გამოიყენება ვიზუალური აღქმის ამოცანებისთვის, როგორიცაა ობიექტების ამოცნობა.
- უკონტროლო მანქანური სწავლება კრიტიკულ ასპექტებს აძლევს სამედიცინო ვიზუალიზაციის სისტემებს, როგორიცაა გამოსახულების იდენტიფიკაცია, კლასიფიკაცია და სეგმენტაცია, რომლებიც გამოიყენება რადიოლოგიასა და პათოლოგიაში პაციენტების სწრაფად და საიმედოდ დიაგნოსტირებისთვის.
- ზედამხედველობის გარეშე სწავლა შეიძლება დაეხმაროს მონაცემთა ტენდენციების იდენტიფიცირებას, რომლებიც შეიძლება გამოყენებულ იქნას ჯვარედინი გაყიდვების უფრო ეფექტური სტრატეგიების შესაქმნელად, მომხმარებლის ქცევის წარსული მონაცემების გამოყენებით. შეკვეთის პროცესის დროს, ამას იყენებენ ონლაინ ბიზნესები, რათა შესთავაზონ კლიენტებს სწორი დანამატები.
- სწავლის უკონტროლო მეთოდებს შეუძლიათ უზარმაზარი მოცულობის მონაცემების გასინჯვა, რათა აღმოაჩინონ სხვაობა. ამ გადახრებმა შეიძლება გამოიწვიოს აღჭურვილობის გაუმართაობა, ადამიანის შეცდომა ან უსაფრთხოების დარღვევა.
უკონტროლო სწავლის საკითხები
ზედამხედველობის გარეშე სწავლა მიმზიდველია სხვადასხვა კუთხით, დაწყებული პოტენციალის პოტენციალით, რომ იპოვოთ მნიშვნელოვანი ინფორმაცია მონაცემები ძვირადღირებული მონაცემების მარკირების თავიდან ასაცილებლად ოპერაციები. თუმცა, ამ სტრატეგიის გამოყენებას ვარჯიშისთვის რამდენიმე ნაკლი აქვს მანქანათმცოდნეობის მოდელები რომ უნდა იცოდე. Აი ზოგიერთი მაგალითი.
- იმის გამო, რომ შეყვანის მონაცემებს აკლია ეტიკეტები, რომლებიც პასუხის გასაღებად გვევლინება, სწავლის უკონტროლო მოდელების შედეგები შეიძლება ნაკლებად ზუსტი იყოს.
- ზედამხედველობის გარეშე სწავლა ხშირად მუშაობს მონაცემთა მასიური ნაკრებით, რამაც შეიძლება გაზარდოს გამოთვლითი სირთულე.
- მიდგომა საჭიროებს შედეგების დადასტურებას ადამიანის მიერ, როგორც შიდა, ისე გარე სპეციალისტების მიერ გამოძიების საგანში.
- ალგორითმებმა უნდა გამოიკვლიონ და გამოთვალონ ყველა შესაძლო სცენარი ტრენინგის ფაზის განმავლობაში, რასაც გარკვეული დრო სჭირდება.
დასკვნა
მონაცემთა ეფექტური გამოყენება არის გასაღები კონკურენტული უპირატესობის დამყარებისთვის კონკრეტულ ბაზარზე.
თქვენ შეგიძლიათ მონაცემების სეგმენტირება უკონტროლო მანქანური სწავლების ალგორითმების გამოყენებით, რათა შეამოწმოთ თქვენი სამიზნე აუდიტორიის პრეფერენციები ან დაადგინოთ, როგორ რეაგირებს გარკვეული ინფექცია კონკრეტულ მკურნალობაზე.
არსებობს რამდენიმე პრაქტიკული პროგრამა და მონაცემთა მეცნიერები, ინჟინრები და არქიტექტორები დაგეხმარებიან თქვენი მიზნების განსაზღვრაში და თქვენი კომპანიისთვის უნიკალური ML გადაწყვეტილებების შემუშავებაში.
დატოვე პასუხი