ტოპ 40+ მანქანათმცოდნეობის ინტერვიუს კითხვები (2024)

სარჩევი[დამალვა][ჩვენება]

1. ახსენით განსხვავებები მანქანათმცოდნეობას, ხელოვნურ ინტელექტსა და ღრმა სწავლებას შორის.
2. გთხოვთ, აღწეროთ მანქანური სწავლების სხვადასხვა ტიპები.
3. რა არის მიკერძოება დისპერსიის წინააღმდეგ?
4. მანქანათმცოდნეობის ალგორითმები მნიშვნელოვნად განვითარდა დროთა განმავლობაში. როგორ ავირჩიოთ სწორი ალგორითმი მონაცემთა ნაკრების გამოსაყენებლად?
5. რით განსხვავდება კოვარიანსი და კორელაცია?
6. მანქანათმცოდნეობაში რას ნიშნავს კლასტერირება?
7. რომელია თქვენთვის სასურველი მანქანათმცოდნეობის ალგორითმი?
8. ხაზოვანი რეგრესია მანქანათმცოდნეობაში: რა არის ეს?
9. აღწერეთ განსხვავება KNN-სა და k-საშუალებების კლასტერირებას შორის.
10. რას ნიშნავს თქვენთვის „შერჩევის მიკერძოება“?
11. კონკრეტულად რა არის ბეიზის თეორემა?
12. მანქანური სწავლების მოდელში რა არის „სავარჯიშო ნაკრები“ და „ტესტის ნაკრები“?
13. რა არის ჰიპოთეზა მანქანათმცოდნეობაში?
14. რას ნიშნავს მანქანური სწავლების გადაჭარბება და როგორ შეიძლება მისი პრევენცია?
15. კონკრეტულად რა არის Naive Bayes კლასიფიკატორები?
16. რას ნიშნავს ღირებულების ფუნქციები და ზარალის ფუნქციები?
17. რა განასხვავებს გენერაციულ მოდელს დისკრიმინაციული მოდელისგან?
18. აღწერეთ ვარიაციები I და II ტიპის შეცდომებს შორის.
19. მანქანათმცოდნეობაში რა არის ანსამბლის სწავლის ტექნიკა?
20. კონკრეტულად რა არის პარამეტრული მოდელები? მიეცი მაგალითი.
21. აღწერეთ ერთობლივი ფილტრაცია. ასევე კონტენტზე დაფუძნებული ფილტრაცია?
22. კონკრეტულად რას გულისხმობთ დროის სერიებში?
23. აღწერეთ ვარიაციები Gradient Boosting და Random Forest ალგორითმებს შორის.
24. რატომ გჭირდებათ დაბნეულობის მატრიცა? Რა არის ეს?
25. კონკრეტულად რა არის პრინციპული კომპონენტის ანალიზი?
26. რატომ არის კომპონენტის როტაცია ასე გადამწყვეტი PCA-სთვის (ძირითადი კომპონენტის ანალიზი)?
27. როგორ განსხვავდება რეგულაცია და ნორმალიზაცია ერთმანეთისგან?
28. რით განსხვავდება ერთმანეთისგან ნორმალიზაცია და სტანდარტიზაცია?
29. კონკრეტულად რას ნიშნავს „ვარიანტული ინფლაციის ფაქტორი“?
30. სასწავლო ნაკრების ზომიდან გამომდინარე, როგორ არჩევთ კლასიფიკატორს?
31. მანქანათმცოდნეობაში რომელ ალგორითმს მოიხსენიებენ, როგორც „ზარმაც მოსწავლეს“ და რატომ?
32. რა არის ROC Curve და AUC?
33. რა არის ჰიპერპარამეტრები? რა ხდის მათ უნიკალურს მოდელის პარამეტრებიდან?
34. რას ნიშნავს F1 ქულა, გახსენება და სიზუსტე?
35. კონკრეტულად რა არის ჯვარედინი ვალიდაცია?
36. ვთქვათ თქვენ აღმოაჩინეთ, რომ თქვენს მოდელს აქვს მნიშვნელოვანი განსხვავება. თქვენი აზრით, რომელი ალგორითმია ყველაზე შესაფერისი ამ სიტუაციის მოსაგვარებლად?
37. რა განასხვავებს რიჯის რეგრესიას ლასო რეგრესიისგან?
38. რომელია უფრო მნიშვნელოვანი: მოდელის შესრულება თუ მოდელის სიზუსტე? რომელს და რატომ დაუჭერთ მხარს?
39. როგორ მართავდით მონაცემთა ბაზას უტოლობებით?
40. როგორ განვასხვავოთ ბოსტინგი და ბაგინგი?
41. ახსენით განსხვავებები ინდუქციურ და დედუქციურ სწავლებას შორის.
დასკვნა

ბიზნესი იყენებს უახლესი ტექნოლოგიების, როგორიცაა ხელოვნური ინტელექტი (AI) და მანქანათმცოდნეობა, რათა გაზარდოს ინფორმაციისა და სერვისების ხელმისაწვდომობა ინდივიდებისთვის.

ეს ტექნოლოგიები გამოიყენება სხვადასხვა ინდუსტრიის მიერ, მათ შორის საბანკო, ფინანსები, საცალო ვაჭრობა, წარმოება და ჯანდაცვა.

ერთ-ერთი ყველაზე მოთხოვნადი ორგანიზაციული როლი, რომელიც იყენებს AI-ს, არის მონაცემთა მეცნიერებისთვის, ხელოვნური ინტელექტის ინჟინრებისთვის, მანქანათმცოდნეობის ინჟინრებისთვის და მონაცემთა ანალიტიკოსებისთვის.

ეს პოსტი გაგაცნობთ მრავალფეროვნებას მანქანა სწავლის ინტერვიუს კითხვები, ძირითადიდან რთულამდე, რათა დაგეხმაროთ მოემზადოთ ნებისმიერი კითხვისთვის, რომელიც შეიძლება დაგისვათ თქვენი იდეალური სამუშაოს ძიებისას.

1. ახსენით განსხვავებები მანქანათმცოდნეობას, ხელოვნურ ინტელექტსა და ღრმა სწავლებას შორის.

ხელოვნური ინტელექტი იყენებს მანქანური სწავლისა და ღრმა სწავლის მრავალფეროვან მიდგომებს, რომლებიც საშუალებას აძლევს კომპიუტერულ სისტემებს შეასრულონ ამოცანები ადამიანის მსგავსი ინტელექტის გამოყენებით ლოგიკით და წესებით.

მანქანური სწავლება იყენებს მრავალფეროვან სტატისტიკას და ღრმა სწავლის მიდგომებს, რათა მანქანებმა შეძლონ ისწავლონ თავიანთი წინა სამუშაოდან და გახდნენ უფრო კომპეტენტური გარკვეული ამოცანების შესრულებაში დამოუკიდებლად, ადამიანის ზედამხედველობის გარეშე.

Deep Learning არის ალგორითმების კოლექცია, რომელიც საშუალებას აძლევს პროგრამულ უზრუნველყოფას ისწავლოს საკუთარი თავისგან და განახორციელოს სხვადასხვა კომერციული ფუნქცია, როგორიცაა ხმის და სურათის ამოცნობა.

სისტემები, რომლებიც ამჟღავნებენ მათ მრავალ ფენას ნეირონული ქსელები სწავლისთვის დიდი რაოდენობით მონაცემებს შეუძლიათ ღრმა სწავლის გაკეთება.

2. გთხოვთ, აღწეროთ მანქანური სწავლების სხვადასხვა ტიპები.

მანქანური სწავლება ფართოდ არსებობს სამ სხვადასხვა ტიპად:

ზედამხედველობითი სწავლება: მოდელი ქმნის პროგნოზებს ან განსჯას ეტიკეტირებული ან ისტორიული მონაცემების გამოყენებით ზედამხედველობითი მანქანური სწავლების დროს. მონაცემთა ნაკრები, რომელიც მონიშნულია ან ეტიკეტირებულია მათი მნიშვნელობის გაზრდის მიზნით, მოიხსენიება, როგორც ეტიკეტირებული მონაცემები.
ზედამხედველობის გარეშე სწავლა: ჩვენ არ გვაქვს ეტიკეტირებული მონაცემები უკონტროლო სწავლისთვის. შემოსულ მონაცემებში მოდელს შეუძლია მოძებნოს შაბლონები, უცნაურობები და კორელაციები.
განმტკიცების სწავლა: მოდელს შეუძლია ისწავლეთ გამაგრების გამოყენებით სწავლა და ჯილდო, რომელიც მან მიიღო წინა ქცევისთვის.

3. რა არის მიკერძოება დისპერსიის წინააღმდეგ?

ზედმეტად მორგება არის მიკერძოების შედეგი, რაც არის მოდელის მორგებული მონაცემების ხარისხი. მიკერძოება გამოწვეულია თქვენი არასწორი ან ძალიან მარტივი ვარაუდებით მანქანათმშენებლობის ალგორითმი.

ვარიაცია გულისხმობს შეცდომებს, რომლებიც გამოწვეულია სირთულით თქვენს ML ალგორითმში, რაც აწარმოებს მგრძნობელობას ტრენინგის მონაცემებში დისპერსიის დიდ ხარისხზე და გადაჭარბებაზე.

ვარიაცია არის ის, თუ რამდენად განსხვავდება მოდელი შეყვანის მიხედვით.

სხვა სიტყვებით რომ ვთქვათ, ძირითადი მოდელები უკიდურესად მიკერძოებული, მაგრამ სტაბილურია (დაბალი დისპერსიული). ზედმეტი მორგება რთული მოდელების პრობლემაა, თუმცა ისინი მაინც ასახავს მოდელის რეალობას (დაბალი მიკერძოება).

როგორც მაღალი ცვალებადობის, ისე მაღალი მიკერძოების თავიდან ასაცილებლად, მიკერძოებასა და დისპერსიას შორის აუცილებელია შეცდომის საუკეთესო შემცირებისთვის.

4. მანქანათმცოდნეობის ალგორითმები მნიშვნელოვნად განვითარდა დროთა განმავლობაში. როგორ ავირჩიოთ სწორი ალგორითმი მონაცემთა ნაკრების გამოსაყენებლად?

მანქანათმცოდნეობის ტექნიკა, რომელიც უნდა იქნას გამოყენებული, დამოკიდებულია მხოლოდ მონაცემთა ტიპზე კონკრეტულ მონაცემთა ბაზაში.

როდესაც მონაცემები წრფივია, გამოიყენება ხაზოვანი რეგრესია. ჩანთების მეთოდი უკეთესი იქნება, თუ მონაცემები მიუთითებს არაწრფივობაზე. ჩვენ შეგვიძლია გამოვიყენოთ გადაწყვეტილების ხეები ან SVM, თუ მონაცემები უნდა იყოს შეფასებული ან ინტერპრეტირებული კომერციული მიზნებისთვის.

ნერვული ქსელები შეიძლება სასარგებლო იყოს ზუსტი პასუხის მისაღებად, თუ მონაცემთა ნაკრები მოიცავს ფოტოებს, ვიდეოებს და აუდიოს.

ალგორითმის არჩევა კონკრეტული გარემოებისთვის ან მონაცემთა შეგროვებისთვის არ შეიძლება გაკეთდეს მხოლოდ ერთი საზომით.

საუკეთესო მორგების მეთოდის შემუშავების მიზნით, ჩვენ ჯერ უნდა გამოვიკვლიოთ მონაცემები საძიებო მონაცემთა ანალიზის (EDA) გამოყენებით და გავიგოთ მონაცემთა ნაკრების გამოყენების მიზანი.

5. რით განსხვავდება კოვარიანსი და კორელაცია?

კოვარიანსი აფასებს, თუ როგორ არის დაკავშირებული ორი ცვლადი ერთმანეთთან და როგორ შეიძლება შეიცვალოს ერთი მეორეში ცვლილებების საპასუხოდ.

თუ შედეგი დადებითია, ეს მიუთითებს, რომ არსებობს პირდაპირი კავშირი ცვლადებს შორის და რომ ერთი გაიზრდება ან შემცირდება საბაზისო ცვლადის გაზრდით ან შემცირებით, თუ ვივარაუდებთ, რომ ყველა სხვა პირობა დარჩება მუდმივი.

კორელაცია ზომავს კავშირს ორ შემთხვევით ცვლადს შორის და აქვს მხოლოდ სამი განსხვავებული მნიშვნელობა: 1, 0 და -1.

6. მანქანათმცოდნეობაში რას ნიშნავს კლასტერირება?

სწავლის უკონტროლო მეთოდებს, რომლებიც აჯგუფებენ მონაცემთა წერტილებს, ეწოდება კლასტერირება. მონაცემთა ქულების შეგროვებით, კლასტერიზაციის ტექნიკის გამოყენება შესაძლებელია.

ამ სტრატეგიის გამოყენებით შეგიძლიათ დაჯგუფოთ ყველა მონაცემთა წერტილი მათი ფუნქციების მიხედვით.

მონაცემთა წერტილების თვისებები და თვისებები, რომლებიც ერთსა და იმავე კატეგორიას მიეკუთვნება, მსგავსია, ხოლო მონაცემთა წერტილების, რომლებიც ცალკეულ დაჯგუფებად ხვდება, განსხვავებულია.

ეს მიდგომა შეიძლება გამოყენებულ იქნას სტატისტიკური მონაცემების გასაანალიზებლად.

7. რომელია თქვენთვის სასურველი მანქანათმცოდნეობის ალგორითმი?

თქვენ გაქვთ შესაძლებლობა აჩვენოთ თქვენი პრეფერენციები და უნიკალური ნიჭი ამ საკითხში, ისევე როგორც თქვენი ყოვლისმომცველი ცოდნა მანქანური სწავლების მრავალი ტექნიკის შესახებ.

აქ არის რამოდენიმე ტიპიური მანქანათმცოდნეობის ალგორითმი, რომელზეც უნდა იფიქროთ:

ხაზოვანი რეგრესია
ლოგისტიკური რეგრესია
გულუბრყვილო ბეიზი
გადაწყვეტილება ხეები
K ნიშნავს
შემთხვევითი ტყის ალგორითმი
K- უახლოესი მეზობელი (KNN)

8. ხაზოვანი რეგრესია მანქანათმცოდნეობაში: რა არის ეს?

ზედამხედველობითი მანქანური სწავლის ალგორითმი არის წრფივი რეგრესია.

იგი გამოიყენება პროგნოზირებულ ანალიზში დამოკიდებულ და დამოუკიდებელ ცვლადებს შორის წრფივი კავშირის დასადგენად.

ხაზოვანი რეგრესიის განტოლება ასეთია:

Y = A + BX

სადაც:

შეყვანის ან დამოუკიდებელ ცვლადს ეწოდება X.
დამოკიდებული ან გამომავალი ცვლადი არის Y.
X-ის კოეფიციენტი არის b და მისი კვეთა არის a.

9. აღწერეთ განსხვავება KNN-სა და k-საშუალებების კლასტერირებას შორის.

პირველადი განსხვავება ისაა, რომ KNN-ს (კლასიფიკაციის მეთოდს, ზედამხედველობით სწავლებას) სჭირდება ეტიკეტირებული წერტილები, ხოლო k-საშუალებებს არა (კლასტერიზაციის ალგორითმი, უკონტროლო სწავლება).

თქვენ შეგიძლიათ ეტიკეტირებული მონაცემების კლასიფიკაცია არალეიბლიან წერტილად K- უახლოესი მეზობლების გამოყენებით. K-means კლასტერირება იყენებს საშუალო მანძილს წერტილებს შორის, რათა ისწავლოს როგორ დააჯგუფოს არალეიბლიანი წერტილები.

10. რას ნიშნავს თქვენთვის „შერჩევის მიკერძოება“?

მიკერძოება ექსპერიმენტის შერჩევის ფაზაში გამოწვეულია სტატისტიკური უზუსტობით.

ერთი სანიმუშო ჯგუფი ირჩევა უფრო ხშირად, ვიდრე სხვა ჯგუფები ექსპერიმენტში უზუსტობის შედეგად.

თუ შერჩევის მიკერძოება არ არის აღიარებული, ეს შეიძლება გამოიწვიოს არასწორი დასკვნა.

11. კონკრეტულად რა არის ბეიზის თეორემა?

როდესაც ჩვენ ვიცით სხვა ალბათობები, ჩვენ შეგვიძლია განვსაზღვროთ ალბათობა ბეიზის თეორემის გამოყენებით. სხვა სიტყვებით რომ ვთქვათ, ის გვთავაზობს შემთხვევის უკანონო ალბათობას წინასწარი ინფორმაციის საფუძველზე.

პირობითი ალბათობების შეფასების ხმის მეთოდი მოცემულია ამ თეორემით.

კლასიფიკაციის პროგნოზირებადი მოდელირების პრობლემების შემუშავებისას და მოდელის ტრენინგზე მორგებისას მონაცემთა ნაკრები მანქანათმცოდნეობაში, გამოიყენება ბეიზის თეორემა (ე.ი. გულუბრყვილო ბეიესი, ბეიესის ოპტიმალური კლასიფიკატორი).

12. მანქანური სწავლების მოდელში რა არის „სავარჯიშო ნაკრები“ და „ტესტის ნაკრები“?

სავარჯიშო ნაკრები:

ტრენინგის ნაკრები შედგება ინსტანციებისგან, რომლებიც ეგზავნება მოდელს ანალიზისა და სწავლისთვის.
ეს არის მარკირებული მონაცემები, რომლებიც გამოყენებული იქნება მოდელის მოსამზადებლად.
როგორც წესი, მთლიანი მონაცემების 70% გამოიყენება როგორც სასწავლო მონაცემთა ბაზა.

ტესტის ნაკრები:

ტესტის ნაკრები გამოიყენება მოდელის ჰიპოთეზის წარმოქმნის სიზუსტის შესაფასებლად.
ჩვენ ვამოწმებთ ეტიკეტირებული მონაცემების გარეშე და შემდეგ ვიყენებთ ეტიკეტებს შედეგების დასადასტურებლად.
დარჩენილი 30% გამოიყენება როგორც სატესტო მონაცემთა ბაზა.

13. რა არის ჰიპოთეზა მანქანათმცოდნეობაში?

მანქანათმცოდნეობა იძლევა არსებული მონაცემთა ნაკრების გამოყენებას მოცემული ფუნქციის უკეთ გასაგებად, რომელიც აკავშირებს შეყვანას გამომავალთან. ეს ცნობილია როგორც ფუნქციის დაახლოება.

ამ შემთხვევაში, მიახლოება უნდა იქნას გამოყენებული უცნობი სამიზნე ფუნქციისთვის, რათა მოცემულ სიტუაციაზე დაფუძნებული ყველა სავარაუდო დაკვირვება მაქსიმალურად მაქსიმალურად გადაიტანოს.

მანქანათმცოდნეობაში ჰიპოთეზა არის მოდელი, რომელიც ხელს უწყობს სამიზნე ფუნქციის შეფასებას და შესაბამისი შეყვანიდან გამომავალ რუკების დასრულებას.

ალგორითმების შერჩევა და დიზაინი იძლევა შესაძლო ჰიპოთეზების სივრცის განსაზღვრის საშუალებას, რომელიც შეიძლება წარმოდგენილი იყოს მოდელით.

ერთი ჰიპოთეზისთვის გამოიყენება მცირე h (h), მაგრამ დიდი h (H) გამოიყენება მთელი ჰიპოთეზის სივრცისთვის, რომელიც იძებნება. ჩვენ მოკლედ განვიხილავთ ამ აღნიშვნებს:

ჰიპოთეზა (თ) არის კონკრეტული მოდელი, რომელიც აადვილებს შეყვანის გამოსავალზე შედარებას, რომელიც შემდგომში შეიძლება გამოყენებულ იქნას შეფასებისა და პროგნოზირებისთვის.
ჰიპოთეზების კომპლექტი (H) არის ჰიპოთეზების საძიებო სივრცე, რომელიც შეიძლება გამოყენებულ იქნას შეყვანის გამოსავალზე შესატანად. საკითხის ჩარჩო, მოდელი და მოდელის კონფიგურაცია ზოგადი შეზღუდვების რამდენიმე მაგალითია.

14. რას ნიშნავს მანქანური სწავლების გადაჭარბება და როგორ შეიძლება მისი პრევენცია?

როდესაც მანქანა ცდილობს ისწავლოს არასაკმარისი მონაცემთა ნაკრებიდან, ხდება გადაჭარბებული მორგება.

შედეგად, გადაჭარბება საპირისპირო კორელაციაშია მონაცემთა მოცულობასთან. ჯვარედინი ვალიდაციის მიდგომა საშუალებას იძლევა თავიდან იქნას აცილებული ზედმეტად მორგება მცირე მონაცემთა ნაკრებისთვის. მონაცემთა ნაკრები იყოფა ორ ნაწილად ამ მეთოდით.

ტესტირებისა და ტრენინგის მონაცემთა ნაკრები შედგება ამ ორი ნაწილისგან. სასწავლო მონაცემთა ნაკრები გამოიყენება მოდელის შესაქმნელად, ხოლო ტესტირების მონაცემთა ნაკრები გამოიყენება მოდელის შესაფასებლად სხვადასხვა შეყვანის გამოყენებით.

აი, როგორ ავიცილოთ თავიდან ზედმეტად მორგება.

15. კონკრეტულად რა არის Naive Bayes კლასიფიკატორები?

სხვადასხვა კლასიფიკაციის მეთოდები ქმნიან Naive Bayes კლასიფიკატორებს. ამ კლასიფიკატორების სახელით ცნობილი ალგორითმების ნაკრები მუშაობს ერთსა და იმავე ფუნდამენტურ იდეაზე.

ბეიზის გულუბრყვილო კლასიფიკატორების მიერ გაკეთებული ვარაუდი არის ის, რომ ერთი მახასიათებლის არსებობა ან არარსებობა არ ახდენს გავლენას სხვა მახასიათებლის არსებობაზე ან არარსებობაზე.

სხვა სიტყვებით რომ ვთქვათ, ეს არის ის, რასაც ჩვენ ვუწოდებთ, როგორც "გულუბრყვილო", რადგან ის იძლევა ვარაუდს, რომ მონაცემთა თითოეული ატრიბუტი თანაბრად მნიშვნელოვანი და დამოუკიდებელია.

კლასიფიკაცია კეთდება გულუბრყვილო Bayes კლასიფიკატორების გამოყენებით. ისინი მარტივი გამოსაყენებელია და უკეთეს შედეგს იძლევა, ვიდრე უფრო რთული პროგნოზები, როდესაც დამოუკიდებლობის წინაპირობა მართალია.

ისინი გამოიყენება ტექსტის ანალიზში, სპამის ფილტრაციისა და რეკომენდაციების სისტემებში.

16. რას ნიშნავს ღირებულების ფუნქციები და ზარალის ფუნქციები?

ფრაზა "დაკარგვის ფუნქცია" ეხება ზარალის გამოთვლის პროცესს, როდესაც მხედველობაში მიიღება მხოლოდ ერთი ნაწილი.

ამის საპირისპიროდ, ჩვენ ვიყენებთ ხარჯების ფუნქციას, რათა განვსაზღვროთ შეცდომების მთლიანი რაოდენობა მრავალი მონაცემისთვის. არანაირი მნიშვნელოვანი განსხვავება არ არსებობს.

სხვა სიტყვებით რომ ვთქვათ, მაშინ, როდესაც ხარჯების ფუნქციები აგროვებს განსხვავებას მთელი სასწავლო მონაცემთა ნაკრებისთვის, დანაკარგის ფუნქციები შექმნილია იმისთვის, რომ აისახოს განსხვავება რეალურ და პროგნოზირებულ მნიშვნელობებს შორის ერთი ჩანაწერისთვის.

17. რა განასხვავებს გენერაციულ მოდელს დისკრიმინაციული მოდელისგან?

დისკრიმინაციული მოდელი სწავლობს განსხვავებებს მონაცემთა რამდენიმე კატეგორიას შორის. გენერაციული მოდელი ირჩევს მონაცემთა სხვადასხვა ტიპებს.

კლასიფიკაციის პრობლემებთან დაკავშირებით, დისკრიმინაციული მოდელები ხშირად აღემატება სხვა მოდელებს.

18. აღწერეთ ვარიაციები I და II ტიპის შეცდომებს შორის.

ცრუ პოზიტივი მიეკუთვნება I ტიპის შეცდომების კატეგორიას, ხოლო ცრუ ნეგატივები მიეკუთვნება II ტიპის შეცდომებს (აცხადებენ, რომ არაფერი მომხდარა, როდესაც ეს რეალურად მოხდა).

19. მანქანათმცოდნეობაში რა არის ანსამბლის სწავლის ტექნიკა?

ტექნიკა, რომელსაც ეწოდება ანსამბლის სწავლება, აერთიანებს მანქანური სწავლების ბევრ მოდელს უფრო ძლიერი მოდელების შესაქმნელად.

მოდელი შეიძლება შეიცვალოს სხვადასხვა მიზეზის გამო. რამდენიმე მიზეზია:

სხვადასხვა პოპულაციები
სხვადასხვა ჰიპოთეზა
მოდელირების სხვადასხვა მეთოდი

ჩვენ შეგვხვდება პრობლემა მოდელის ტრენინგისა და ტესტირების მონაცემების გამოყენებისას. მიკერძოება, განსხვავება და შეუმცირებელი შეცდომა ამ შეცდომის შესაძლო ტიპებია.

ახლა, ჩვენ ვუწოდებთ ამ ბალანსს მოდელში მიკერძოებასა და დისპერსიას შორის მიკერძოებულ-ვარიანტობის გაცვლას და ის ყოველთვის უნდა არსებობდეს. ეს კომპრომისი მიიღწევა ანსამბლური სწავლების გამოყენებით.

მიუხედავად იმისა, რომ არსებობს სხვადასხვა ანსამბლის მიდგომები, არსებობს ორი საერთო სტრატეგია მრავალი მოდელის გაერთიანებისთვის:

მშობლიური მიდგომა სახელწოდებით bagging იყენებს სავარჯიშო კომპლექტს დამატებითი სავარჯიშო კომპლექტების შესაქმნელად.
Boosting, უფრო დახვეწილი ტექნიკა: ჩანთების მსგავსად, boosting გამოიყენება სავარჯიშო ნაკრებისთვის იდეალური წონის ფორმულის მოსაძებნად.

20. კონკრეტულად რა არის პარამეტრული მოდელები? მიეცი მაგალითი.

პარამეტრულ მოდელებში არის შეზღუდული რაოდენობის პარამეტრები. მონაცემების პროგნოზირებისთვის ყველაფერი რაც თქვენ უნდა იცოდეთ არის მოდელის პარამეტრები.

ქვემოთ მოცემულია ტიპიური მაგალითები: ლოგისტიკური რეგრესია, წრფივი რეგრესია და ხაზოვანი SVM. არაპარამეტრული მოდელები მოქნილია, რადგან ისინი შეიძლება შეიცავდეს შეუზღუდავი რაოდენობის პარამეტრებს.

მოდელის პარამეტრები და დაკვირვებული მონაცემების სტატუსი საჭიროა მონაცემთა პროგნოზირებისთვის. აქ არის რამდენიმე ტიპიური მაგალითი: თემის მოდელები, გადაწყვეტილების ხეები და k- უახლოესი მეზობლები.

21. აღწერეთ ერთობლივი ფილტრაცია. ასევე კონტენტზე დაფუძნებული ფილტრაცია?

მორგებული კონტენტის შემოთავაზებების შესაქმნელად გამოცდილი და ჭეშმარიტი მეთოდი არის ერთობლივი ფილტრაცია.

სარეკომენდაციო სისტემის ფორმა, რომელსაც ეწოდება ერთობლივი ფილტრაცია, წინასწარმეტყველებს ახალ მასალას მომხმარებლის პრეფერენციების და საერთო ინტერესების დაბალანსებით.

მომხმარებლის პრეფერენციები ერთადერთია, რასაც კონტენტზე დაფუძნებული სარეკომენდაციო სისტემები ითვალისწინებენ. მომხმარებლის წინა არჩევანის გათვალისწინებით, ახალი რეკომენდაციები მოწოდებულია შესაბამისი მასალისგან.

22. კონკრეტულად რას გულისხმობთ დროის სერიებში?

დროის სერია არის რიცხვების კრებული აღმავალი თანმიმდევრობით. წინასწარ განსაზღვრული პერიოდის განმავლობაში, ის აკონტროლებს შერჩეული მონაცემთა წერტილების მოძრაობას და პერიოდულად იჭერს მონაცემთა წერტილებს.

დროის სერიებისთვის არ არის მინიმალური ან მაქსიმალური დროის შეყვანა.

დროის სერიებს ანალიტიკოსები ხშირად იყენებენ მონაცემთა გასაანალიზებლად მათი უნიკალური მოთხოვნების შესაბამისად.

23. აღწერეთ ვარიაციები Gradient Boosting და Random Forest ალგორითმებს შორის.

შემთხვევითი ტყე:

გადაწყვეტილების ხეების დიდი რაოდენობა გაერთიანებულია ბოლოს და ცნობილია როგორც შემთხვევითი ტყეები.
მიუხედავად იმისა, რომ გრადიენტური გაძლიერება აწარმოებს თითოეულ ხეს სხვებისგან დამოუკიდებლად, შემთხვევითი ტყე აშენებს თითოეულ ხეს სათითაოდ.
მრავალკლასიანი ობიექტის გამოვლენა კარგად მუშაობს შემთხვევით ტყეებთან.

გრადიენტის გაძლიერება:

მიუხედავად იმისა, რომ შემთხვევითი ტყეები უერთდებიან გადაწყვეტილების ხეებს პროცესის ბოლოს, გრადიენტის გამაძლიერებელი მანქანები მათ თავიდანვე აერთიანებენ.
თუ პარამეტრები სათანადოდ არის დარეგულირებული, გრადიენტის გაძლიერება აჯობებს შემთხვევით ტყეებს შედეგების თვალსაზრისით, მაგრამ ეს არ არის ჭკვიანური არჩევანი, თუ მონაცემთა ნაკრებს აქვს ბევრი სხვაობა, ანომალია ან ხმაური, რადგან ამან შეიძლება გამოიწვიოს მოდელის გადაჭარბება.
როდესაც არის დაუბალანსებელი მონაცემები, როგორც ეს არის რეალურ დროში რისკების შეფასებაში, გრადიენტის გაძლიერება კარგად მუშაობს.

24. რატომ გჭირდებათ დაბნეულობის მატრიცა? Რა არის ეს?

დაბნეულობის მატრიცის სახელით ცნობილი ცხრილი, რომელიც ზოგჯერ ცნობილია როგორც შეცდომის მატრიცა, ფართოდ გამოიყენება იმის საჩვენებლად, თუ რამდენად კარგად მუშაობს კლასიფიკაციის მოდელი ან კლასიფიკატორი ტესტის მონაცემების ერთობლიობაზე, რომლის რეალური მნიშვნელობები ცნობილია.

ის გვაძლევს საშუალებას დავინახოთ, როგორ მუშაობს მოდელი ან ალგორითმი. ეს გვაადვილებს სხვადასხვა კურსებს შორის გაუგებრობების გამოვლენას.

ის ემსახურება როგორც გზას იმის შესაფასებლად, თუ რამდენად კარგად არის შესრულებული მოდელი ან ალგორითმი.

კლასიფიკაციის მოდელის პროგნოზები შედგენილია დაბნეულობის მატრიცაში. თითოეული კლასის ლეიბლის დათვლის მნიშვნელობები გამოყენებული იყო სწორი და არასწორი პროგნოზების საერთო რაოდენობის დასაშლელად.

იგი შეიცავს დეტალებს კლასიფიკატორის მიერ დაშვებულ შეცდომებზე, ასევე კლასიფიკატორების მიერ გამოწვეულ სხვადასხვა სახის შეცდომებზე.

25. კონკრეტულად რა არის პრინციპული კომპონენტის ანალიზი?

ერთმანეთთან კორელირებული ცვლადების რაოდენობის მინიმიზაციის გზით, მიზანია მონაცემთა შეგროვების განზომილების მინიმუმამდე შემცირება. მაგრამ მნიშვნელოვანია შევინარჩუნოთ მრავალფეროვნება მაქსიმალურად.

ცვლადები იცვლება ცვლადების სრულიად ახალ კომპლექტში, რომელსაც ეწოდება ძირითადი კომპონენტები.

ეს კომპიუტერები ორთოგონალურია, რადგან ისინი არიან კოვარიანტული მატრიცის საკუთრივვექტორები.

26. რატომ არის კომპონენტის როტაცია ასე გადამწყვეტი PCA-სთვის (ძირითადი კომპონენტის ანალიზი)?

როტაცია გადამწყვეტია PCA-ში, რადგან ის ოპტიმიზებს გამიჯვნას თითოეული კომპონენტის მიერ მიღებულ დისპერსიებს შორის, რაც ამარტივებს კომპონენტის ინტერპრეტაციას.

ჩვენ გვჭირდება გაფართოებული კომპონენტები, რათა გამოვხატოთ კომპონენტის ცვალებადობა, თუ კომპონენტები არ არის შემობრუნებული.

27. როგორ განსხვავდება რეგულაცია და ნორმალიზაცია ერთმანეთისგან?

ნორმალიზაცია:

ნორმალიზების დროს მონაცემები იცვლება. მონაცემების ნორმალიზება უნდა მოხდეს, თუ მას აქვს მკვეთრად განსხვავებული მასშტაბები, განსაკუთრებით დაბალიდან მაღალამდე. დაარეგულირეთ თითოეული სვეტი ისე, რომ ფუნდამენტური სტატისტიკა ყველა თავსებადია.

იმისათვის, რომ არ დაკარგოთ სიზუსტე, ეს შეიძლება იყოს სასარგებლო. სიგნალის გამოვლენა ხმაურის უგულებელყოფისას მოდელის ტრენინგის ერთ-ერთი მიზანია.

არსებობს გადაჭარბების შანსი, თუ მოდელს მიეცემა სრული კონტროლი შეცდომის შესამცირებლად.

რეგულარიზაცია:

რეგულარიზაციისას პროგნოზირების ფუნქცია იცვლება. ეს ექვემდებარება გარკვეულ კონტროლს რეგულარიზაციის გზით, რაც ხელს უწყობს უფრო მარტივ ფუნქციებს, ვიდრე რთულს.

28. რით განსხვავდება ერთმანეთისგან ნორმალიზაცია და სტანდარტიზაცია?

ფუნქციების სკალირების ორი ყველაზე ფართოდ გამოყენებული ტექნიკა არის ნორმალიზაცია და სტანდარტიზაცია.

ნორმალიზაცია:

[0,1] დიაპაზონისთვის მონაცემების ხელახალი მასშტაბირება ცნობილია როგორც ნორმალიზაცია.
როდესაც ყველა პარამეტრს უნდა ჰქონდეს ერთი და იგივე დადებითი მასშტაბი, ნორმალიზება სასარგებლოა, მაგრამ მონაცემთა ნაკრების უკუსვლები იკარგება.

რეგულარიზაცია:

მონაცემების ხელახალი მასშტაბირება ხდება 0-მდე და სტანდარტული გადახრა 1-მდე, როგორც სტანდარტიზაციის პროცესის ნაწილი (ერთეულის ვარიაცია)

29. კონკრეტულად რას ნიშნავს „ვარიანტული ინფლაციის ფაქტორი“?

მოდელის დისპერსიის თანაფარდობა მოდელის დისპერსიასთან მხოლოდ ერთი დამოუკიდებელი ცვლადით ცნობილია როგორც ვარიაციული ინფლაციის ფაქტორი (VIF).

VIF აფასებს მულტიკოლინეარობის რაოდენობას რამდენიმე რეგრესიის ცვლადის ნაკრებში.

მოდელის ვარიაცია (VIF) მოდელი ერთი დამოუკიდებელი ცვლადი ვარიაციით

30. სასწავლო ნაკრების ზომიდან გამომდინარე, როგორ არჩევთ კლასიფიკატორს?

მაღალი მიკერძოებული, დაბალი დისპერსიის მოდელი უკეთესად მუშაობს მოკლე სავარჯიშო ნაკრებისთვის, რადგან გადაჭარბებული მორგება ნაკლებად სავარაუდოა. გულუბრყვილო ბეისი ერთ-ერთი მაგალითია.

დიდი სავარჯიშო ნაკრებისთვის უფრო რთული ურთიერთქმედებების წარმოსადგენად, სასურველია მოდელი დაბალი მიკერძოებით და მაღალი დისპერსიით. ლოგისტიკური რეგრესია კარგი მაგალითია.

31. მანქანათმცოდნეობაში რომელ ალგორითმს მოიხსენიებენ, როგორც „ზარმაც მოსწავლეს“ და რატომ?

დუნე მოსწავლე, KNN არის მანქანათმცოდნეობის ალგორითმი. იმის გამო, რომ K-NN დინამიურად ითვლის მანძილს ყოველ ჯერზე, როდესაც მას სურს კლასიფიცირება, ნაცვლად იმისა, რომ ისწავლოს მანქანით შესწავლილი მნიშვნელობები ან ცვლადები სასწავლო მონაცემებიდან, ის იმახსოვრებს სასწავლო მონაცემთა ბაზას.

ეს K-NN-ს ზარმაცი მოსწავლედ აქცევს.

32. რა არის ROC Curve და AUC?

კლასიფიკაციის მოდელის შესრულება ყველა ზღურბლზე გრაფიკულად არის წარმოდგენილი ROC მრუდით. მას აქვს ჭეშმარიტი დადებითი მაჩვენებელი და ცრუ დადებითი განაკვეთის კრიტერიუმები.

მარტივად რომ ვთქვათ, ROC მრუდის ქვეშ არსებული ფართობი ცნობილია როგორც AUC (ფართი ROC მრუდის ქვეშ). ROC მრუდის ორგანზომილებიანი ფართობი (0,0)-დან AUC-მდე იზომება (1,1). ორობითი კლასიფიკაციის მოდელების შესაფასებლად, იგი გამოიყენება როგორც შესრულების სტატისტიკა.

33. რა არის ჰიპერპარამეტრები? რა ხდის მათ უნიკალურს მოდელის პარამეტრებიდან?

მოდელის შიდა ცვლადი ცნობილია როგორც მოდელის პარამეტრი. ტრენინგის მონაცემების გამოყენებით, პარამეტრის მნიშვნელობა მიახლოებულია.

მოდელისთვის უცნობი ჰიპერპარამეტრი არის ცვლადი. მნიშვნელობის დადგენა შეუძლებელია მონაცემებიდან, ამიტომ ისინი ხშირად გამოიყენება მოდელის პარამეტრების გამოსათვლელად.

34. რას ნიშნავს F1 ქულა, გახსენება და სიზუსტე?

დაბნეულობის საზომი არის მეტრიკა, რომელიც გამოიყენება კლასიფიკაციის მოდელის ეფექტურობის შესაფასებლად. შემდეგი ფრაზები შეიძლება გამოყენებულ იქნას დაბნეულობის მეტრიკის უკეთ ასახსნელად:

TP: ჭეშმარიტი პოზიტივი - ეს არის დადებითი მნიშვნელობები, რომლებიც სწორად იყო მოსალოდნელი. ეს ვარაუდობს, რომ პროგნოზირებული კლასის და ფაქტობრივი კლასის მნიშვნელობები ორივე დადებითია.

TN: True Negatives- ეს არის უარყოფითი მნიშვნელობები, რომლებიც ზუსტად იყო პროგნოზირებული. ის ვარაუდობს, რომ როგორც რეალური კლასის, ასევე მოსალოდნელი კლასის მნიშვნელობა უარყოფითია.

ეს მნიშვნელობები - ცრუ დადებითი და ცრუ უარყოფითი - ჩნდება მაშინ, როდესაც თქვენი რეალური კლასი განსხვავდება მოსალოდნელი კლასისგან.

ახლა,

ჭეშმარიტი პოზიტიური სიჩქარის (TP) თანაფარდობას რეალურ კლასში განხორციელებულ ყველა დაკვირვებასთან ეწოდება გახსენება, რომელიც ასევე ცნობილია როგორც მგრძნობელობა.

გამოძახება არის TP/(TP+FN).

სიზუსტე არის დადებითი პროგნოზირებადი მნიშვნელობის საზომი, რომელიც ადარებს იმ პოზიტივის რაოდენობას, რომელსაც მოდელი რეალურად უწინასწარმეტყველებს, რამდენ სწორ პოზიტივს ზუსტად პროგნოზირებს.

სიზუსტე არის TP/(TP + FP)

შესრულების უმარტივესი მეტრიკის გაგება არის სიზუსტე, რომელიც არის მხოლოდ სათანადოდ პროგნოზირებული დაკვირვებების პროპორცია ყველა დაკვირვებასთან.

სიზუსტე უდრის (TP+TN)/(TP+FP+FN+TN).

სიზუსტე და გახსენება არის შეწონილი და საშუალოდ, რათა უზრუნველყოს F1 ქულა. შედეგად, ეს ქულა ითვალისწინებს როგორც ცრუ პოზიტიურს, ასევე ცრუ უარყოფითს.

F1 ხშირად უფრო ღირებულია ვიდრე სიზუსტე, განსაკუთრებით, თუ თქვენ გაქვთ არათანაბარი კლასის განაწილება, თუნდაც ინტუიციურად მისი გაგება არც ისე მარტივია, როგორც სიზუსტე.

საუკეთესო სიზუსტე მიიღწევა, როდესაც ცრუ დადებითი და ცრუ ნეგატივების ღირებულება შედარებულია. სასურველია შეიტანოთ როგორც სიზუსტე, ასევე გახსენება, თუ ცრუ დადებით და ცრუ უარყოფითთან დაკავშირებული ხარჯები მნიშვნელოვნად განსხვავდება.

35. კონკრეტულად რა არის ჯვარედინი ვალიდაცია?

სტატისტიკური შერჩევის მიდგომა, რომელსაც ეწოდება ჯვარედინი ვალიდაცია მანქანურ სწავლაში, იყენებს მონაცემთა რამდენიმე ქვეჯგუფს, რათა მოამზადოს და შეაფასოს მანქანათმცოდნეობის ალგორითმი რამდენიმე რაუნდში.

მონაცემთა ახალი ჯგუფი, რომელიც არ იყო გამოყენებული მოდელის მოსამზადებლად, ტესტირება ხდება ჯვარედინი ვალიდაციის გამოყენებით, რათა დაინახოს, რამდენად კარგად პროგნოზირებს მოდელი. მონაცემთა გადაჭარბების თავიდან აცილება ხდება ჯვარედინი ვალიდაციის გზით.

K-Fold ყველაზე ხშირად გამოყენებული ხელახალი ნიმუშის მეთოდი ყოფს მთელ მონაცემთა ბაზას თანაბარი ზომის K ნაკრებებად. მას ეწოდება ჯვარედინი დადასტურება.

36. ვთქვათ თქვენ აღმოაჩინეთ, რომ თქვენს მოდელს აქვს მნიშვნელოვანი განსხვავება. თქვენი აზრით, რომელი ალგორითმია ყველაზე შესაფერისი ამ სიტუაციის მოსაგვარებლად?

მაღალი ცვალებადობის მართვა

ჩვენ უნდა გამოვიყენოთ ჩანთების ტექნიკა დიდი ვარიაციების მქონე პრობლემებისთვის.

შემთხვევითი მონაცემების განმეორებით შერჩევას გამოიყენებდა ჩანთების ალგორითმი მონაცემების ქვეჯგუფებად დასაყოფად. მონაცემების გაყოფის შემდეგ, ჩვენ შეგვიძლია გამოვიყენოთ შემთხვევითი მონაცემები და სპეციალური ტრენინგის პროცედურა წესების შესაქმნელად.

ამის შემდეგ, გამოკითხვა შეიძლება გამოყენებულ იქნას მოდელის პროგნოზების გასაერთიანებლად.

37. რა განასხვავებს რიჯის რეგრესიას ლასო რეგრესიისგან?

რეგულარიზაციის ორი ფართოდ გამოყენებული მეთოდია ლასო (ასევე უწოდებენ L1) და Ridge (ზოგჯერ უწოდებენ L2) რეგრესია. ისინი გამოიყენება მონაცემთა გადაჭარბების თავიდან ასაცილებლად.

საუკეთესო გამოსავლის აღმოსაჩენად და სირთულის მინიმუმამდე შესამცირებლად, ეს ტექნიკა გამოიყენება კოეფიციენტების დასასჯელად. კოეფიციენტების აბსოლუტური მნიშვნელობების ჯამის დაჯარიმებით, მოქმედებს ლასო რეგრესია.

საჯარიმო ფუნქცია Ridge ან L2 რეგრესიაში მიღებულია კოეფიციენტების კვადრატების ჯამიდან.

38. რომელია უფრო მნიშვნელოვანი: მოდელის შესრულება თუ მოდელის სიზუსტე? რომელს და რატომ დაუჭერთ მხარს?

ეს არის მატყუარა კითხვა, ამიტომ ჯერ უნდა გავიგოთ რა არის მოდელის შესრულება. თუ შესრულება განისაზღვრება, როგორც სიჩქარე, მაშინ იგი ეყრდნობა განაცხადის ტიპს; ნებისმიერი აპლიკაცია, რომელიც მოიცავს რეალურ დროში სიტუაციას, მოითხოვს მაღალ სიჩქარეს, როგორც გადამწყვეტ კომპონენტს.

მაგალითად, საუკეთესო ძიების შედეგები ნაკლებად ღირებული გახდება, თუ მოთხოვნის შედეგებს ძალიან დიდი დრო დასჭირდება.

თუ Performance გამოიყენება როგორც დასაბუთება იმისა, თუ რატომ უნდა მიენიჭოს სიზუსტესა და გახსენებას პრიორიტეტი სიზუსტეზე მაღლა, მაშინ F1 ქულა უფრო სასარგებლო იქნება ვიდრე სიზუსტე ბიზნეს საქმის დემონსტრირებაში ნებისმიერი მონაცემთა ნაკრებისთვის, რომელიც არ არის დაბალანსებული.

39. როგორ მართავდით მონაცემთა ბაზას უტოლობებით?

დაუბალანსებელ მონაცემთა ბაზას შეუძლია ისარგებლოს შერჩევის ტექნიკით. ნიმუშის აღება შეიძლება განხორციელდეს როგორც ქვედა, ისე ზედმეტად შერჩეული ფორმით.

შერჩევის ქვეშ ჩვენ შეგვიძლია შევამციროთ უმრავლესობის კლასის ზომა უმცირესობის კლასთან შესატყვისად, რაც ხელს უწყობს სიჩქარის გაზრდას შენახვისა და შესრულების დროში, მაგრამ ასევე შეიძლება გამოიწვიოს ღირებული მონაცემების დაკარგვა.

იმისათვის, რომ გადავწყვიტოთ ინფორმაციის დაკარგვის საკითხი, რომელიც გამოწვეულია ზედმეტად შერჩევით, ჩვენ ვარჩევთ უმცირესობის კლასს; მიუხედავად ამისა, ეს გვაძლევს გადაჭარბებულ საკითხებს.

დამატებითი სტრატეგიები მოიცავს:

კლასტერზე დაფუძნებული შერჩევის ზევით - უმცირესობის და უმრავლესობის კლასის შემთხვევები ინდივიდუალურად ექვემდებარება K- ნიშნავს კლასტერირების ტექნიკას ამ სიტუაციაში. ეს კეთდება მონაცემთა კლასტერების მოსაძებნად. შემდეგ, ყოველი კლასტერი ზედმეტად არის შერჩეული ისე, რომ ყველა კლასს ჰქონდეს ერთი და იგივე ზომა და ყველა კლასტერს ჰქონდეს მსგავსების თანაბარი რაოდენობა.
SMOTE: Synthetic Minority Over-sampling Technique - უმცირესობის კლასის მონაცემების ნაჭერი გამოიყენება მაგალითად, რის შემდეგაც მზადდება დამატებითი ხელოვნური ინსტანციები, რომლებიც შედარებულია მასზე და ემატება თავდაპირველ მონაცემთა ბაზას. ეს მეთოდი კარგად მუშაობს რიცხვითი მონაცემების წერტილებთან.

40. როგორ განვასხვავოთ ბოსტინგი და ბაგინგი?

Ensemble Techniques-ს აქვს ვერსიები, რომლებიც ცნობილია როგორც ბაგინგი და გაძლიერება.

ჩანთები -

მაღალი ვარიაციის მქონე ალგორითმებისთვის, ჩანთები არის ტექნიკა, რომელიც გამოიყენება დისპერსიის შესამცირებლად. კლასიფიკატორების ერთ-ერთი ასეთი ოჯახი, რომელიც მიდრეკილია მიკერძოებისკენ, არის გადაწყვეტილების ხის ოჯახი.

მონაცემების ტიპი, რომელზეც გადაწყვეტილების ხეები ვარჯიშობენ, მნიშვნელოვან გავლენას ახდენს მათ შესრულებაზე. ამის გამო, თუნდაც ძალიან მაღალი დახვეწის პირობებში, შედეგების განზოგადება ზოგჯერ ბევრად უფრო რთულია მათში.

თუ გადაწყვეტილების ხეების ტრენინგის მონაცემები შეიცვალა, შედეგები არსებითად განსხვავდება.

შედეგად, გამოიყენება ბაგინგი, რომელშიც იქმნება მრავალი გადაწყვეტილების ხე, რომელთაგან თითოეული გაწვრთნილია ორიგინალური მონაცემების ნიმუშის გამოყენებით და საბოლოო შედეგი არის ყველა ამ განსხვავებული მოდელის საშუალო.

გაძლიერება:

Boosting არის პროგნოზების გაკეთების ტექნიკა n-სუსტი კლასიფიკატორის სისტემით, რომელშიც თითოეული სუსტი კლასიფიკატორი ავსებს მისი უფრო ძლიერი კლასიფიკატორების ნაკლოვანებებს. ჩვენ ვუწოდებთ კლასიფიკატორს, რომელიც ცუდად მუშაობს მოცემულ მონაცემთა ნაკრებზე, როგორც „სუსტი კლასიფიკატორი“.

გაძლიერება აშკარად პროცესია, ვიდრე ალგორითმი. ლოგისტიკური რეგრესია და ზედაპირული გადაწყვეტილების ხეები სუსტი კლასიფიკატორების ჩვეულებრივი მაგალითებია.

Adaboost, Gradient Boosting და XGBoost არის ორი ყველაზე პოპულარული გამაძლიერებელი ალგორითმი, თუმცა, კიდევ ბევრია.

41. ახსენით განსხვავებები ინდუქციურ და დედუქციურ სწავლებას შორის.

როდესაც სწავლობს მაგალითით დაკვირვებული მაგალითების ნაკრებიდან, მოდელი იყენებს ინდუქციურ სწავლებას განზოგადებულ დასკვნამდე მისასვლელად. მეორეს მხრივ, დედუქციური სწავლით, მოდელი იყენებს შედეგს საკუთარი თავის ჩამოყალიბებამდე.

ინდუქციური სწავლა არის დაკვირვების შედეგად დასკვნების გამოტანის პროცესი.

დედუქციური სწავლება არის დასკვნების საფუძველზე დაკვირვების შექმნის პროცესი.

დასკვნა

Გილოცავ! ეს არის 40 და ზემოთ ინტერვიუს კითხვა მანქანური სწავლისთვის, რომლებზეც ახლა იცით პასუხები. მონაცემთა მეცნიერება და ხელოვნური ინტელექტი პროფესიები კვლავაც იქნება მოთხოვნადი ტექნოლოგიის წინსვლისას.

კანდიდატებს, რომლებიც განაახლებს ცოდნას ამ უახლესი ტექნოლოგიების შესახებ და აუმჯობესებენ თავიანთ უნარებს, შეუძლიათ იპოვონ დასაქმების ფართო შესაძლებლობები კონკურენტული ანაზღაურებით.

თქვენ შეგიძლიათ გააგრძელოთ ინტერვიუებზე პასუხის გაცემა ახლა, როდესაც კარგად გესმით, როგორ უპასუხოთ მანქანური სწავლების ინტერვიუს ზოგიერთ ფართოდ დასმულ კითხვას.

თქვენი მიზნებიდან გამომდინარე, გადადგით შემდეგი ნაბიჯი. მოემზადეთ ინტერვიუებისთვის Hashdork's-ის მონახულებით ინტერვიუს სერია.

ტოპ 40+ მანქანათმცოდნეობის ინტერვიუს კითხვები