Conteúdo[Esconder][Mostrar]
Todo projeto de Machine Learning depende de um bom conjunto de dados. É esse grande conjunto de dados que permitirá treinar e validar seu modelo de ML. Portanto, grande parte do trabalho em um projeto de ML é encontrar o conjunto de dados perfeito para suas necessidades. No entanto, nem sempre é possível encontrar uma opção que se adeque à sua ambição, pois muitos arquivos que parecem interessantes, no final, não são.
Pode ser assustador perder tempo baixando inúmeros conjuntos de dados até chegar a um conjunto ideal. Pensando nisso, reunimos algumas opções que parecem interessantes e podem te ajudar a desenvolver seu projeto de ML. Observe que alguns são destinados ao uso pessoal e não comercial, portanto, veja essas opções como uma forma de ganhar experiência no universo do ML.
Noções básicas de conjuntos de dados
Antes de mencionarmos os conjuntos de dados, devemos definir alguns termos. Em projetos de Inteligência Artificial, especialmente Machine Learning, é necessária uma grande quantidade de dados, que serão usados para treinar o algoritmo. Essa quantidade de dados é reunida em um banco de dados, o que é extremamente útil para ensinar um algoritmo.
Com esses dados, o algoritmo é treinado – também testado – e se torna capaz de encontrar padrões, estabelecer relacionamentos e, assim, tomar decisões de forma autônoma. Sem treinamento, Machine Learning algoritmos são incapazes de realizar qualquer ação. Portanto, quanto melhores os dados de treinamento, melhor o desempenho do modelo. Para que um banco de dados seja útil ao projeto, não se trata de quantidade: trata-se também de classificação.
Idealmente, os dados devem ser bem rotulados. Pense no caso dos chatbots: a inserção de linguagem é importante, mas uma análise sintática cuidadosa deve ser feita para que o algoritmo criado possa entender quando o interlocutor está usando gírias. Só assim o assistente virtual poderá lançar a resposta de acordo com o que foi solicitado pelo usuário.
Conjuntos de dados podem ser gerados a partir de pesquisas, dados de compras de usuários, avaliações deixadas em serviços e de muitas outras maneiras que permitem reunir informações úteis organizadas em colunas e linhas em um arquivo CSV.
Antes de sair em busca do conjunto de dados perfeito, é importante que você conheça o propósito do seu projeto, especialmente se for de uma área específica, como clima, finanças, saúde, etc. conjunto de dados.
Conjuntos de dados para ML
Treinamento de chatbot
Um chatbot eficaz requer uma enorme quantidade de dados de treinamento para resolver rapidamente as dúvidas dos usuários sem intervenção humana. No entanto, o principal gargalo no desenvolvimento de chatbots é obter dados de diálogo realistas e orientados a tarefas para treinar esses sistemas baseados em Machine Learning.
Um conjunto de dados de conversação reúne dados em um formato de pergunta e resposta. É ideal para treinar chatbots que darão respostas automatizadas ao público. Sem esses dados, o chatbot não conseguirá resolver rapidamente as dúvidas dos usuários ou responder às perguntas dos usuários sem a necessidade de intervenção humana.
Usando esses conjuntos de dados, as empresas podem criar uma ferramenta que fornece respostas rápidas aos clientes 24 horas por dia, 7 dias por semana e é significativamente mais barata do que ter uma equipe de pessoas fazendo suporte ao cliente.
1. Conjunto de dados de perguntas e respostas
Este conjunto de dados fornece um conjunto de artigos da Wikipedia, perguntas e suas respectivas respostas geradas manualmente. É um conjunto de dados coletados entre 2008 e 2010 para uso em pesquisa acadêmica.
2. Dados de idioma
Language Data é um banco de dados gerenciado pelo Yahoo com informações geradas a partir de alguns serviços da empresa, como Yahoo! Answer, que funciona como uma comunidade aberta para os usuários postarem perguntas e respostas.
3. WikiQA
O corpus WikiQA também consiste em um conjunto de perguntas e respostas. A fonte das perguntas é o Bing, enquanto as respostas apontam para uma página da Wikipedia com potencial para resolver a pergunta inicial.
No total, há mais de 3,000 perguntas e um conjunto de 29,258 frases no conjunto de dados, das quais cerca de 1,400 foram categorizadas como respostas a uma pergunta correspondente.
Dados governamentais
Os conjuntos de dados gerados pelos governos trazem dados demográficos, que são ótimos insumos para projetos relacionados ao entendimento de tendências sociais, criação de políticas públicas e melhoria da sociedade. Isso pode ser útil para campanhas políticas, publicidade direcionada ou análise de mercado.
Esses conjuntos de dados geralmente contêm dados anônimos, portanto, embora os modelos possam acessar os dados brutos, não há violações de privacidade pessoal.
4. Data.gov
Lançado em 2009, o Data.gov é a fonte norte-americana de dados. Seu catálogo é impressionante: mais de 218,000 conjuntos de dados que permitem a segmentação por formato, tags, tipos e tópicos.
5. Portal de dados abertos da UE
O Portal de Dados Abertos da UE fornece acesso a dados abertos compartilhados por instituições da União Europeia. Estes são dados que podem ser destinados para uso comercial e não comercial. À disposição do usuário estão mais de 15.5 mil conjuntos de dados, abrangendo temas como saúde, energia, meio ambiente, cultura e educação.
Dados de saúde
Na esteira da atual crise de saúde em todo o mundo, os conjuntos de dados gerados pelas organizações de saúde são essenciais para desenvolver soluções eficazes para salvar vidas. Esses conjuntos de dados podem ajudar a identificar os fatores de risco, elaborar padrões de transmissão de doenças e acelerar o diagnóstico.
Esses conjuntos de dados consistem em registros de saúde, dados demográficos de pacientes, prevalência de doenças, uso de medicamentos, valores nutricionais e muito mais.
6. Observatório de Saúde Global
Este conjunto de dados é uma iniciativa da Organização Mundial da Saúde (OMS). Disponibiliza dados públicos relacionados a diferentes áreas da saúde, organizados por temas como sistemas de saúde, controle do tabagismo, maternidade, HIV/AIDS, etc. Há também a opção de consultar dados sobre COVID-19.
7. CORDÃO-19
CORD-19 é um corpus de publicações acadêmicas sobre COVID-19 e outros artigos sobre o novo coronavírus. É um conjunto de dados aberto destinado a gerar novos insights sobre o COVID-19.
Dados econômicos
Conjuntos de dados relacionados ao ambiente financeiro costumam reunir uma grande quantidade de informações, pois é comum que sejam coletadas há muito tempo. Eles são ideais para criar previsões econômicas ou estabelecer tendências de investimento.
Com os conjuntos de dados financeiros certos, um Modelo de aprendizado de máquina pode ser capaz de prever o comportamento de um determinado ativo. É por isso que o setor financeiro está fazendo tudo o que está ao seu alcance para criar um modelo de ML eficaz, pois qualquer coisa que possa prever razoavelmente bem tem o potencial de gerar milhões de dólares. O aprendizado de máquina já está prevendo o comportamento dos cidadãos, o que está impactando a maneira como os formuladores de políticas estão fazendo seu trabalho.
8. Fundo Monetário Internacional
O conjunto de dados do FMI contém uma série de indicadores econômicos e financeiros, estatísticas de países membros e outros dados sobre empréstimos e taxas de câmbio.
9. Banco Mundial
O repositório do Banco Mundial contém diferentes conjuntos de dados com informações econômicas de diferentes países. Existem mais de 17,000 conjuntos de dados divididos por continentes.
Revisões de produtos e serviços
A análise de sentimentos encontrou suas aplicações em vários campos que agora estão ajudando as empresas a estimar e aprender com seus clientes ou clientes corretamente. A análise de sentimentos está sendo cada vez mais usada para monitoramento de mídia social, monitoramento de marca, voz do cliente (VoC), atendimento ao cliente e pesquisa de mercado.
A análise de sentimentos usa a PNL (programação neurolinguística) métodos e algoritmos que são baseados em regras, híbridos ou dependem de técnicas de aprendizado de máquina para aprender dados de conjuntos de dados.
Os dados necessários na análise de sentimentos devem ser especializados e necessários em grandes quantidades. A parte mais desafiadora do processo de treinamento de análise de sentimentos não é encontrar dados em grandes quantidades; em vez disso, é encontrar os conjuntos de dados relevantes. Esses conjuntos de dados devem cobrir uma ampla área de aplicativos de análise de sentimentos e casos de uso.
10. Comentários Amazon
Esse conjunto de dados contém cerca de 35 milhões de avaliações da Amazon, abrangendo um período de 18 anos de informações coletadas. É um conjunto de dados de produto, usuário e conteúdo de revisão.
11. Comentários do Yelp
O Yelp também oferece um conjunto de dados baseado em informações coletadas de seu serviço. São mais de 8 milhões de avaliações, 1 milhão de dicas, além de quase 1.5 milhão de atributos relacionados a negócios, como horário de funcionamento e disponibilidade.
12. Comentários IMDB
Esse banco de dados contém um conjunto de mais de 25 mil resenhas de filmes para treinamento e outros 25 mil para testes feitos informalmente na página do IMDB, especializada em classificação de filmes. Ele também oferece dados não rotulados como um adicional.
Conjuntos de dados para os primeiros passos no ML
13. Conjunto de dados de qualidade do vinho
Este conjunto de dados fornece informações relacionadas com o vinho, tinto e verde, produzido no norte de Portugal. O objetivo é definir a qualidade do vinho com base em testes físico-químicos. Interessante para quem quer praticar a criação de um sistema de previsão.
14. Conjunto de dados do Titanic
Este conjunto de dados traz dados de 887 passageiros reais do Titanic, com cada coluna definindo se eles sobreviveram, sua idade, classe de passageiros, sexo e a taxa de embarque que pagaram. Esse conjunto de dados fez parte de um desafio lançado pela plataforma Kaggle, cujo objetivo era criar um modelo que pudesse prever quais passageiros sobreviveram ao naufrágio do Titanic.
Plataformas para encontrar outros conjuntos de dados
Se você quiser ir mais longe e encontrar seu próprio conjunto de dados, a melhor maneira é navegar pelos repositórios mais famosos do Machine Learning universo:
Kaggle
Kaggle, uma subsidiária do Google LLC, é uma comunidade online de cientistas de dados e profissionais de Machine Learning. O Kaggle permite que os usuários encontrem e publiquem conjuntos de dados, explorem e criem modelos em um ambiente de ciência de dados baseado na web; trabalhar com outros cientistas de dados e Engenheiros de aprendizado de máquina, e participe de concursos para resolver desafios de ciência de dados.
Kaggle começou em 2010 oferecendo concursos de Machine Learning e agora também oferece um público plataforma de dados, uma bancada de trabalho baseada em nuvem para ciência de dados e educação em Inteligência Artificial.
Pesquisa de conjunto de dados
A Pesquisa de conjunto de dados é um mecanismo de pesquisa do Google que ajuda os pesquisadores a localizar dados on-line disponíveis gratuitamente para uso. Em toda a web, existem milhões de conjuntos de dados sobre praticamente qualquer assunto que lhe interesse.
Se você deseja comprar um filhote, pode encontrar conjuntos de dados compilando reclamações de compradores de filhotes ou estudos sobre cognição de filhotes. Ou, se você gosta de esquiar, pode encontrar dados sobre a receita de resorts de esqui ou taxas de lesões e números de participação. A Pesquisa de conjunto de dados indexou quase 25 milhões desses conjuntos de dados, oferecendo um único local para pesquisar conjuntos de dados e encontrar links para onde os dados estão.
Repositório de aprendizado de máquina UCI
O repositório de aprendizado de máquina UCI é uma coleção de bancos de dados, teorias de domínio e geradores de dados que são usados pela comunidade de aprendizado de máquina para a análise empírica de algoritmos de aprendizado de máquina. O arquivo foi criado como um arquivo ftp em 1987 por David Aha e colegas estudantes de pós-graduação da UC Irvine.
Desde então, tem sido amplamente utilizado por estudantes, educadores e pesquisadores em todo o mundo como fonte primária de conjuntos de dados de ML. Como indicação do impacto do arquivo, ele foi citado mais de 1000 vezes, tornando-se um dos 100 “artigos” mais citados em toda a ciência da computação.
Quandl
Quandl é uma plataforma que fornece aos seus usuários conjuntos de dados econômicos, financeiros e alternativos. Os usuários podem baixar dados gratuitos, comprar dados pagos ou vender dados para a Quandl. Pode ser uma ferramenta útil para o desenvolvimento de algoritmos de negociação, Por exemplo.
Conclusão
Ao explorar essas ferramentas, você certamente encontrará ótimas entradas para seus projetos. Certifique-se de escolher o conjunto de dados mais adequado às suas necessidades específicas e tenha sempre em mente: não se trata apenas de quantidade, mas também de qualidade. O conjunto de dados é a base de qualquer Projeto de aprendizado de máquina e é essencial basear-se em dados de qualidade para evitar o risco de chegar a conclusões erradas.
Deixe um comentário