Mục lục[Ẩn giấu][Chỉ]
- KHAI THÁC. Titanic
- 2. Phân loại Hoa Ailen
- 3. Dự đoán giá nhà ở Boston
- 4. Kiểm tra chất lượng rượu
- 5. Dự đoán thị trường chứng khoán
- 6. Giới thiệu phim
- 7. Dự đoán tính đủ điều kiện tải
- 8. Phân tích tình cảm bằng cách sử dụng dữ liệu Twitter
- 9. Dự đoán doanh số bán hàng trong tương lai
- 10. Phát hiện tin tức giả mạo
- 11. Dự đoán mua phiếu giảm giá
- 12. Dự đoán chuyển đổi khách hàng
- 13. Dự báo doanh số của Wallmart
- 14. Phân tích dữ liệu Uber
- 15. Phân tích Covid-19
- Kết luận
Máy học là một nghiên cứu đơn giản về cách giáo dục một chương trình máy tính hoặc thuật toán để dần dần cải thiện một công việc cụ thể được trình bày ở cấp độ cao. Hệ thống nhận dạng hình ảnh, phát hiện gian lận, đề xuất và các ứng dụng học máy khác đã được chứng minh là phổ biến.
Công việc ML làm cho công việc của con người trở nên đơn giản và hiệu quả, tiết kiệm thời gian và đảm bảo một kết quả chất lượng cao. Ngay cả Google, công cụ tìm kiếm phổ biến nhất thế giới, cũng sử dụng học máy.
Từ việc phân tích truy vấn của người dùng và thay đổi kết quả dựa trên kết quả để hiển thị các chủ đề và quảng cáo thịnh hành liên quan đến truy vấn, có rất nhiều tùy chọn có sẵn.
Công nghệ vừa nhận thức vừa tự điều chỉnh sẽ không còn xa trong tương lai.
Một trong những cách tuyệt vời nhất để bắt đầu là bắt tay thực hành và thiết kế một dự án. Do đó, chúng tôi đã biên soạn danh sách 15 dự án máy học hàng đầu dành cho người mới bắt đầu để giúp bạn bắt đầu.
1. Chất hóa học
Đây thường được coi là một trong những nhiệm vụ lớn nhất và thú vị nhất đối với bất kỳ ai quan tâm đến việc tìm hiểu thêm về học máy. Thử thách Titanic là một dự án máy học phổ biến cũng là một cách tốt để làm quen với nền tảng khoa học dữ liệu Kaggle. Bộ dữ liệu của Titanic được tạo nên từ những dữ liệu xác thực từ vụ chìm con tàu xấu số.
Nó bao gồm các chi tiết như tuổi của người đó, tình trạng kinh tế xã hội, giới tính, số cabin, cảng khởi hành và quan trọng nhất là liệu họ có sống sót hay không!
Kỹ thuật K-Nearest Neighbor và bộ phân loại cây quyết định đã được xác định để tạo ra kết quả tốt nhất cho dự án này. Nếu bạn đang tìm kiếm một thử thách cuối tuần nhanh chóng để cải thiện Khả năng học máy, cái này trên Kaggle là dành cho bạn.
2. Phân loại hoa Ailen
Những người mới bắt đầu yêu thích dự án phân loại hoa iris và đây là một nơi tuyệt vời để bắt đầu nếu bạn chưa quen với học máy. Chiều dài của các lá đài và cánh hoa giúp phân biệt hoa diên vĩ với các loài khác. Mục đích của dự án này là tách những bông hoa thành ba loài: Virginia, setosa và Versicolor.
Đối với các bài tập phân loại, dự án sử dụng bộ dữ liệu Iris flower, hỗ trợ người học học các nguyên tắc cơ bản về xử lý các giá trị và dữ liệu số. Tập dữ liệu về hoa iris là một tập nhỏ có thể được lưu trữ trong bộ nhớ mà không cần mở rộng quy mô.
3. Dự đoán giá nhà ở Boston
Nổi tiếng khác tập dữ liệu cho người mới học máy là dữ liệu của Nhà ở Boston. Mục tiêu của nó là dự báo giá trị nhà ở các vùng lân cận Boston. Nó bao gồm các số liệu thống kê quan trọng như tuổi tác, thuế suất bất động sản, tỷ lệ tội phạm và thậm chí là sự gần gũi với các trung tâm việc làm, tất cả đều có thể ảnh hưởng đến giá nhà ở.
Tập dữ liệu rất đơn giản và nhỏ, khiến việc thử nghiệm trở nên đơn giản đối với người mới. Để tìm ra những yếu tố nào ảnh hưởng đến giá bất động sản ở Boston, kỹ thuật hồi quy được sử dụng nhiều trên các tham số khác nhau. Đó là một nơi tuyệt vời để thực hành các kỹ thuật hồi quy và đánh giá xem chúng hoạt động tốt như thế nào.
4. Kiểm tra chất lượng rượu
Rượu vang là một loại đồ uống có cồn khác thường cần nhiều năm lên men. Do đó, chai rượu cổ là loại rượu đắt tiền và chất lượng cao. Chọn một chai rượu vang lý tưởng đòi hỏi nhiều năm kiến thức nếm thử rượu vang và nó có thể là một quá trình thành công hoặc bỏ lỡ.
Dự án kiểm tra chất lượng rượu vang đánh giá các loại rượu vang bằng cách sử dụng các xét nghiệm hóa lý như mức độ cồn, độ axit cố định, tỷ trọng, độ pH và các yếu tố khác. Dự án cũng xác định tiêu chí chất lượng và số lượng của rượu. Do đó, việc mua rượu trở nên dễ dàng.
5. Dự đoán thị trường chứng khoán
Sáng kiến này gây tò mò cho dù bạn có làm việc trong lĩnh vực tài chính hay không. Dữ liệu thị trường chứng khoán được nghiên cứu rộng rãi bởi các học giả, doanh nghiệp và thậm chí là một nguồn thu nhập phụ. Khả năng nghiên cứu và khám phá dữ liệu chuỗi thời gian của một nhà khoa học dữ liệu cũng rất quan trọng. Dữ liệu từ thị trường chứng khoán là một nơi tuyệt vời để bắt đầu.
Bản chất của nỗ lực là dự báo giá trị tương lai của cổ phiếu. Điều này dựa trên kết quả thị trường hiện tại cũng như số liệu thống kê từ những năm trước. Kaggle đã thu thập dữ liệu về chỉ số NIFTY-50 từ năm 2000 và hiện nó được cập nhật hàng tuần. Kể từ ngày 1 tháng 2000 năm 50, nó đã chứa giá cổ phiếu cho hơn XNUMX tổ chức.
6. Đề xuất phim
Tôi chắc rằng bạn đã có cảm giác đó sau khi xem một bộ phim hay. Bạn đã bao giờ cảm thấy thôi thúc để kích thích các giác quan của mình khi mải mê xem những bộ phim tương tự chưa?
Chúng tôi biết rằng các dịch vụ OTT như Netflix đã cải thiện đáng kể hệ thống đề xuất của họ. Là một sinh viên học máy, bạn sẽ cần hiểu cách các thuật toán đó nhắm mục tiêu khách hàng dựa trên sở thích và đánh giá của họ.
Bộ dữ liệu IMDB trên Kaggle có thể là một trong những bộ hoàn chỉnh nhất, cho phép suy ra các mô hình đề xuất dựa trên tiêu đề phim, xếp hạng của khách hàng, thể loại và các yếu tố khác. Đây cũng là một phương pháp tuyệt vời để tìm hiểu về Kỹ thuật tính năng và lọc dựa trên nội dung.
7. Tải dự đoán tính đủ điều kiện
Thế giới xoay quanh các khoản vay. Nguồn lợi nhuận chính của các ngân hàng là từ lãi cho vay. Do đó, họ là công việc kinh doanh cơ bản của họ.
Các cá nhân hoặc nhóm cá nhân chỉ có thể mở rộng nền kinh tế bằng cách đầu tư tiền vào một công ty với hy vọng thấy nó tăng giá trị trong tương lai. Đôi khi, điều quan trọng là phải tìm kiếm một khoản vay để có thể chấp nhận rủi ro của bản chất này và thậm chí tham gia vào những thú vui trần tục nhất định.
Trước khi một khoản vay có thể được chấp nhận, các ngân hàng thường có một quy trình khá nghiêm ngặt để tuân theo. Vì các khoản vay là một khía cạnh quan trọng trong cuộc sống của nhiều người, nên việc dự đoán khả năng đủ điều kiện cho một khoản vay mà ai đó đăng ký sẽ cực kỳ có lợi, cho phép lập kế hoạch tốt hơn ngoài khoản vay được chấp nhận hay từ chối.
8. Phân tích tình cảm bằng cách sử dụng dữ liệu Twitter
Nhờ mạng truyền thông xã hội như Twitter, Facebook và Reddit, việc ngoại suy các ý kiến và xu hướng trở nên dễ dàng hơn rất nhiều. Thông tin này được sử dụng để loại bỏ ý kiến về các sự kiện, con người, thể thao và các chủ đề khác. Các sáng kiến máy học liên quan đến khai thác ý kiến đang được áp dụng trong nhiều cài đặt khác nhau, bao gồm các chiến dịch chính trị và đánh giá sản phẩm của Amazon.
Dự án này sẽ trông tuyệt vời trong danh mục đầu tư của bạn! Để phát hiện cảm xúc và phân tích dựa trên khía cạnh, các kỹ thuật như máy vectơ hỗ trợ, thuật toán hồi quy và phân loại có thể được sử dụng rộng rãi (tìm kiếm sự kiện và ý kiến).
9. Dự đoán doanh số bán hàng trong tương lai
Các doanh nghiệp B2C lớn và người bán muốn biết mỗi sản phẩm trong kho của họ sẽ bán được bao nhiêu. Dự báo bán hàng hỗ trợ chủ doanh nghiệp xác định mặt hàng nào có nhu cầu cao. Dự báo doanh số bán hàng chính xác sẽ giảm đáng kể lãng phí đồng thời xác định tác động gia tăng đối với ngân sách trong tương lai.
Các nhà bán lẻ như Walmart, IKEA, Big Basket và Big Bazaar sử dụng dự báo bán hàng để ước tính nhu cầu sản phẩm. Bạn phải quen thuộc với các kỹ thuật làm sạch dữ liệu thô khác nhau để xây dựng các dự án ML như vậy. Ngoài ra, cần phải nắm rõ về phân tích hồi quy, đặc biệt là hồi quy tuyến tính đơn giản.
Đối với những loại nhiệm vụ này, bạn sẽ cần sử dụng các thư viện như Dora, Scrubadub, Pandas, NumPy và các thư viện khác.
10. Phát hiện tin tức giả mạo
Đó là một nỗ lực học máy tiên tiến khác nhằm vào học sinh. Tin tức giả đang lan truyền như cháy rừng, như tất cả chúng ta đều biết. Mọi thứ đều có sẵn trên mạng xã hội, từ việc kết nối các cá nhân đến việc đọc tin tức hàng ngày.
Do đó, việc phát hiện tin tức sai ngày càng trở nên khó khăn hơn trong những ngày này. Nhiều mạng xã hội lớn, chẳng hạn như Facebook và Twitter, đã có sẵn các thuật toán để phát hiện tin tức không có thật trong các bài đăng và nguồn cấp dữ liệu.
Để xác định tin tức giả, loại dự án ML này cần hiểu biết thấu đáo về nhiều cách tiếp cận NLP và thuật toán phân loại (PassiveAggressionClassifier hoặc Naive Bayes classifier).
11. Dự đoán mua phiếu giảm giá
Khách hàng ngày càng có ý định mua hàng trực tuyến khi virus coronavirus tấn công hành tinh vào năm 2020. Do đó, các cơ sở mua sắm buộc phải chuyển hướng kinh doanh trực tuyến.
Mặt khác, khách hàng vẫn đang tìm kiếm những ưu đãi tuyệt vời giống như khi họ ở trong các cửa hàng và ngày càng săn lùng những phiếu giảm giá siêu tiết kiệm. Thậm chí có những trang web dành riêng để tạo phiếu giảm giá cho những khách hàng như vậy. Bạn có thể tìm hiểu về khai thác dữ liệu trong học máy, tạo biểu đồ thanh, biểu đồ hình tròn và biểu đồ để trực quan hóa dữ liệu và tính năng kỹ thuật với dự án này.
Để tạo dự đoán, bạn cũng có thể xem xét các phương pháp tiếp cận dữ liệu để quản lý các giá trị NA và tính tương tự cosin của các biến.
12. Dự đoán chuyển đổi khách hàng
Người tiêu dùng là tài sản quan trọng nhất của công ty và giữ họ là điều quan trọng đối với bất kỳ doanh nghiệp nào nhằm mục đích thúc đẩy doanh thu và xây dựng mối quan hệ lâu dài có ý nghĩa với họ.
Hơn nữa, chi phí để có được một khách hàng mới cao hơn gấp năm lần so với chi phí duy trì một khách hàng hiện có. Churn / Attrition của khách hàng là một vấn đề kinh doanh nổi tiếng trong đó khách hàng hoặc người đăng ký ngừng kinh doanh với một dịch vụ hoặc một công ty.
Lý tưởng nhất là họ sẽ không còn là một khách hàng trả tiền nữa. Một khách hàng được coi là bỏ cuộc nếu đó là một khoảng thời gian cụ thể kể từ lần cuối cùng khách hàng tương tác với công ty. Việc xác định liệu khách hàng có bỏ cuộc hay không, cũng như nhanh chóng đưa ra thông tin liên quan nhằm mục đích giữ chân khách hàng, là yếu tố quan trọng để giảm tỷ lệ bỏ cuộc.
Bộ não của chúng ta không có khả năng dự đoán doanh thu của khách hàng cho hàng triệu khách hàng; đây là nơi học máy có thể trợ giúp.
13. Dự báo bán hàng của Wallmart
Một trong những ứng dụng nổi bật nhất của máy học là dự báo bán hàng, bao gồm việc phát hiện các đặc điểm ảnh hưởng đến việc bán sản phẩm và dự đoán khối lượng bán hàng trong tương lai.
Tập dữ liệu Walmart, chứa dữ liệu bán hàng từ 45 địa điểm, được sử dụng trong nghiên cứu máy học này. Doanh số mỗi cửa hàng, theo danh mục, hàng tuần được bao gồm trong tập dữ liệu. Mục đích của dự án máy học này là dự đoán doanh số bán hàng cho từng bộ phận trong mỗi cửa hàng để họ có thể đưa ra quyết định tối ưu hóa kênh theo hướng dữ liệu và lập kế hoạch hàng tồn kho tốt hơn.
Làm việc với tập dữ liệu Walmart rất khó vì nó chứa các sự kiện giảm giá đã chọn có tác động đến doanh số bán hàng và cần được xem xét.
14. Phân tích dữ liệu Uber
Khi nói đến việc triển khai và tích hợp học máy và học sâu trong các ứng dụng của họ, dịch vụ chia sẻ xe phổ biến không bị tụt lại xa. Mỗi năm, nó xử lý hàng tỷ chuyến đi, cho phép hành khách di chuyển vào bất kỳ thời điểm nào trong ngày hay đêm.
Bởi vì nó có cơ sở khách hàng lớn như vậy, nó cần có dịch vụ chăm sóc khách hàng đặc biệt để giải quyết các khiếu nại của người tiêu dùng càng nhanh càng tốt.
Uber có tập dữ liệu về hàng triệu lượt đón khách mà họ có thể sử dụng để phân tích và hiển thị các chuyến đi của khách hàng nhằm khám phá thông tin chi tiết và cải thiện trải nghiệm của khách hàng.
15. Phân tích Covid-19
COVID-19 đã quét toàn cầu ngày nay, và không chỉ theo nghĩa đại dịch. Trong khi các chuyên gia y tế đang tập trung vào việc tạo ra các loại vắc xin hiệu quả và tạo miễn dịch cho thế giới, nhà khoa học dữ liệu không xa phía sau.
Các trường hợp mới, số lượng hoạt động hàng ngày, số ca tử vong và số liệu thống kê xét nghiệm đều đang được công khai. Các dự báo được đưa ra hàng ngày dựa trên đợt bùng phát dịch SARS của thế kỷ trước. Đối với điều này, bạn có thể sử dụng phân tích hồi quy và hỗ trợ các mô hình dự đoán dựa trên máy vectơ.
Kết luận
Để tóm tắt, chúng tôi đã thảo luận về một số dự án ML hàng đầu sẽ hỗ trợ bạn trong việc thử nghiệm lập trình Máy học cũng như nắm bắt ý tưởng và triển khai nó. Biết cách tích hợp Học máy có thể giúp bạn thăng tiến trong nghề nghiệp của mình khi công nghệ tiếp quản trong mọi ngành.
Trong khi học Machine Learning, chúng tôi khuyên bạn nên thực hành các khái niệm và viết tất cả các thuật toán của mình. Việc viết các thuật toán trong khi học quan trọng hơn việc thực hiện một dự án, và nó cũng mang lại lợi thế cho bạn trong việc hiểu đúng các chủ đề.
Bình luận