每個機器學習項目都依賴於良好的數據集。 正是這個大型數據集可讓您訓練和驗證您的 ML 模型。 因此,機器學習項目的很大一部分工作就是找到滿足您需求的完美數據集。 然而,並不總是能夠找到適合您的願望的選項,因為許多看起來有趣的文件最終卻並非如此。
在獲得理想的數據集之前,浪費時間下載無數的數據集可能會令人望而生畏。 考慮到這一點,我們收集了一些看起來很有趣的選項,可以幫助您開發 ML 項目。 請注意,有些選項僅供個人而非商業用途,因此請將這些選項視為在 ML 領域獲得經驗的一種方式。
數據集基礎知識
在我們提到數據集之前,我們應該定義一些術語。 尤其是在人工智能項目中 機器學習,需要大量的數據,這些數據將用於訓練算法。 如此大量的數據被收集在數據庫中,這對於教授算法非常有用。
有了這些數據,算法就可以得到訓練和測試,並能夠找到模式、建立關係,從而自主做出決策。 未經訓練, 機器學習 算法無法執行任何操作。 因此,訓練數據越好,模型的性能就越好。 對於一個對項目有用的數據庫,重要的不是數量:而是分類。
理想情況下,數據應該被很好地標記。 想想聊天機器人的情況:語言插入很重要,但必須進行仔細的語法分析,以便創建的算法能夠理解對話者何時使用俚語。 只有這樣,虛擬助手才能根據用戶的請求啟動答案。
數據集可以通過調查、用戶購買數據、對服務的評估以及許多其他方式生成,這些方式允許收集以列和行組織在 CSV 文件中的有用信息。
在開始尋找完美的數據集之前,了解項目的目的非常重要,特別是如果它來自特定領域,例如天氣、金融、健康等。這將決定您的數據來源。數據集。
機器學習數據集
聊天機器人培訓
一個有效的聊天機器人需要大量的訓練數據,以便在無需人工干預的情況下快速解決用戶的詢問。 然而,聊天機器人開發的主要瓶頸是獲取現實的、面向任務的對話數據來訓練這些基於機器學習的系統。
會話數據集以問答格式收集數據。 它非常適合訓練聊天機器人,為觀眾提供自動答案。 如果沒有這些數據,聊天機器人將無法在無需人工干預的情況下快速解決用戶詢問或回答用戶問題。
使用這些數據集,企業可以創建一個工具,可以 24/7 為客戶提供快速解答,並且比擁有一個團隊提供客戶支持要便宜得多。
1. 問答數據集
該數據集提供了一組維基百科文章、問題及其各自手動生成的答案。 它是 2008 年至 2010 年間收集的數據集,用於 學術研究.
2. 語言數據
語言數據是由雅虎管理的數據庫,其中包含該公司的某些服務(例如 Yahoo!)生成的信息。 Answer,作為一個開放社區,供用戶發布問題和答案。
3. 維基問答
WikiQA 語料庫還包含一組問題和答案。 問題的來源是 Bing,而答案鏈接到維基百科頁面,有可能解決最初的問題。
數據集中總共有 3,000 多個問題和一組 29,258 個句子,其中約 1,400 個已被歸類為相應問題的答案。
政府數據
政府生成的數據集帶來了人口數據,這些數據對於了解社會趨勢、制定公共政策和改善社會相關的項目來說是重要的輸入。 這對於政治運動、有針對性的廣告或市場分析非常有用。
這些數據集通常包含匿名數據,因此雖然模型可以訪問原始數據,但不會侵犯個人隱私。
4. Data.gov
Data.gov 於 2009 年推出,是北美的數據來源。 其目錄令人印象深刻:超過 218,000 個數據集,允許按格式、標籤、類型和主題進行細分。
5. 歐盟開放數據門戶
歐盟開放數據門戶提供對歐盟機構共享的開放數據的訪問。 這些數據可用於商業和非商業用途。 用戶可以使用超過15.5個數據集,涵蓋健康、能源、環境、文化和教育等主題。
健康數據
在全球範圍內持續發生的健康危機之後,衛生組織生成的數據集對於製定有效的解決方案來拯救生命至關重要。 這些數據集可以幫助識別風險因素、確定疾病傳播模式並加快診斷速度。
這些數據集包括健康記錄、患者人口統計數據、疾病患病率、藥物用途、營養價值等等。
6. 全球健康觀察站
該數據集是世界衛生組織 (WHO) 的一項倡議。 它提供與不同健康領域相關的公共數據,按衛生系統、煙草使用控制、孕產、艾滋病毒/艾滋病等主題組織。還可以選擇查閱有關 COVID-19 的數據。
7. CORD-19
CORD-19 是有關 COVID-19 的學術出版物和有關新型冠狀病毒的其他文章的語料庫。 它是一個開放數據集,旨在產生有關 COVID-19 的新見解。
經濟數據
與金融環境相關的數據集通常會收集大量信息,因為它們通常已經收集了很長時間。 它們非常適合創建經濟預測或確定投資趨勢。
有了正確的金融數據集, 機器學習模型 可能能夠預測給定資產的行為。 這就是為什麼金融部門正在竭盡全力創建有效的 ML 模型,因為任何可以預測得相當好的東西都有可能產生數百萬美元的收入。 機器學習已經在預測公民的行為,這正在影響政策制定者的工作方式。
8. 國際貨幣基金組織
國際貨幣基金組織數據集包含一系列經濟和金融指標、成員國統計數據以及其他貸款和匯率數據。
9. 世界銀行
世界銀行的存儲庫包含來自不同國家的經濟信息的不同數據集。 有超過 17,000 個按大陸劃分的數據集。
產品和服務評論
情感分析已經在各個領域得到應用,現在可以幫助企業正確地估計和了解他們的客戶或顧客。 情緒分析越來越多地用於社交媒體監控、品牌監控、客戶之聲 (VoC)、客戶服務和市場研究。
使用 NLP 進行情感分析 (神經語言編程)基於規則的、混合的或依賴機器學習技術從數據集中學習數據的方法和算法。
情感分析所需的數據應該是專業的,並且需要大量的。 情感分析訓練過程中最具挑戰性的部分不是查找大量數據,而是查找大量數據。 相反,它是找到相關的數據集。 這些數據集必須涵蓋情感分析應用程序和用例的廣泛領域。
10. 亞馬遜評論
該數據集包含約 35 萬條亞馬遜評論,涵蓋 18 年收集的信息。 它是產品、用戶和評論內容的數據集。
11. Yelp評論
Yelp 還提供基於從其服務收集的信息的數據集。 有超過 8 萬條評論、1 萬條提示,以及近 1.5 萬條與企業相關的屬性,例如營業時間和可用性。
12. IMDB評論
該數據庫包含一組超過 25 條用於訓練的電影評論,以及另外 25 條從專門用於電影評級的 IMDB 頁面非正式獲取的測試電影評論。 它還提供未標記的數據作為附加數據。
機器學習第一步的數據集
13. 葡萄酒質量數據集
該數據集提供與葡萄牙北部生產的紅葡萄酒和綠葡萄酒相關的信息。 目標是根據理化測試來定義葡萄酒的質量。 對於那些想要練習創建預測系統的人來說很有趣。
14. 泰坦尼克號數據集
該數據集提供了來自泰坦尼克號 887 名真實乘客的數據,每一列都定義了他們是否倖存、他們的年齡、乘客艙位、性別以及他們支付的登機費。 該數據集是 Kaggle 平台發起的挑戰的一部分,其目的是創建一個模型,可以預測哪些乘客在泰坦尼克號沉沒中倖存。
查找其他數據集的平台
如果您想進一步找到自己的數據集,最好的方法是瀏覽最著名的存儲庫 機器學習 宇宙:
卡格勒
Kaggle 是 Google LLC 的子公司,是一個由數據科學家和機器學習專業人士組成的在線社區。 Kaggle 允許用戶在基於網絡的數據科學環境中查找和發布數據集、探索和創建模型; 與其他數據科學家合作 機器學習工程師,並參加競賽以解決數據科學挑戰。
Kaggle 於 2010 年開始提供機器學習競賽,現在還提供公共 數據平台,一個基於雲的數據科學和人工智能教育工作台。
數據集搜索
數據集搜索是 Google 的一個搜索引擎,可幫助研究人員查找可免費使用的在線數據。 在網絡上,有數百萬個數據集,幾乎涉及您感興趣的任何主題。
如果您想購買小狗,您可以找到匯總小狗買家投訴或小狗認知研究的數據集。 或者,如果您喜歡滑雪,您可以找到有關滑雪場收入或受傷率和參與人數的數據。 數據集搜索已對近 25 萬個數據集建立了索引,為您提供了一個搜索數據集並查找數據所在位置的鏈接的位置。
UCI機器學習存儲庫
UCI 機器學習存儲庫是機器學習社區用於對機器學習算法進行實證分析的數據庫、領域理論和數據生成器的集合。 該檔案由 David Aha 和加州大學歐文分校的研究生於 1987 年創建為 ftp 檔案。
從那時起,它就被世界各地的學生、教育工作者和研究人員廣泛使用,作為機器學習數據集的主要來源。 該檔案已被引用 1000 多次,成為所有計算機科學領域被引用次數最多的 100 篇“論文”之一。
Quandl
Quandl 是一個為用戶提供經濟、金融和另類數據集的平台。 用戶可以下載免費數據、購買付費數據或向 Quandl 出售數據。 它可以成為開發的有用工具 交易算法, 例如。
結論
通過探索這些工具,您一定會為您的項目找到很好的輸入。 請務必選擇最適合您的特定需求的數據集,並始終記住:這不僅關乎數量,還關乎質量。 數據集是任何數據的基礎 機器學習項目 必須以高質量數據為基礎,以避免得出錯誤結論的風險。
發表評論