Índice analítico[Ocultar][Mostrar]
Cada proxecto de Machine Learning depende dun bo conxunto de datos. É este gran conxunto de datos o que che permitirá adestrar e validar o teu modelo de ML. Entón, unha gran parte do traballo nun proxecto de ML é atopar o conxunto de datos perfecto para as túas necesidades. Non obstante, non sempre é posible atopar unha opción que se axuste á túa ambición, xa que moitos ficheiros que parecen interesantes, ao final, non o son.
Pode ser desalentador perder o tempo descargando incontables conxuntos de datos ata chegar a un conxunto ideal. Con isto en mente, reunimos algunhas opcións que parecen interesantes e que poden axudarche a desenvolver o teu proxecto de ML. Teña en conta que algúns están pensados para uso persoal en lugar de comercial, así que mira estas opcións como unha forma de gañar experiencia no universo de ML.
Fundamentos de Datasets
Antes de mencionar os conxuntos de datos, debemos definir algúns termos. En proxectos de Intelixencia Artificial, especialmente Aprendizaxe automática, requírese unha gran cantidade de datos, que se utilizarán para adestrar o algoritmo. Esta cantidade de datos recóllese nunha base de datos, o que é moi útil para ensinar un algoritmo.
Con estes datos, o algoritmo adestrase -tamén probado- e faise capaz de atopar patróns, establecer relacións e así tomar decisións de forma autónoma. Sen formación, Aprendizaxe automática os algoritmos non poden realizar ningunha acción. Polo tanto, canto mellores sexan os datos de adestramento, mellor será o rendemento do modelo. Para que unha base de datos sexa útil para o proxecto non se trata de cantidade: é tamén de clasificación.
O ideal é que os datos estean ben etiquetados. Pense no caso dos chatbots: a inserción da linguaxe é importante, pero hai que facer unha análise sintáctica coidadosa para que o algoritmo creado poida entender cando o interlocutor está a usar o argot. Só entón o asistente virtual poderá lanzar a resposta segundo o solicitado polo usuario.
Os conxuntos de datos pódense xerar a partir de enquisas, datos de compra de usuarios, avaliacións deixadas nos servizos e de moitas outras formas que permiten reunir información útil organizada en columnas e filas nun ficheiro CSV.
Antes de comezar a buscar o conxunto de datos perfecto, é importante que coñezas o propósito do teu proxecto, especialmente se é dunha área específica, como o tempo, as finanzas, a saúde, etc. Isto ditará a fonte da que obterás conxunto de datos.
Conjuntos de datos para ML
Adestramento de chatbot
Un chatbot eficaz require unha gran cantidade de datos de adestramento para resolver rapidamente as consultas dos usuarios sen intervención humana. Non obstante, o principal pescozo de botella no desenvolvemento de chatbots é a obtención de datos de diálogo realistas e orientados a tarefas para adestrar estes sistemas baseados en Machine Learning.
Un conxunto de datos conversacionais reúne datos nun formato de pregunta e resposta. É ideal para adestrar chatbots que darán respostas automáticas á audiencia. Sen estes datos, o chatbot non resolverá rapidamente as consultas dos usuarios nin responderá ás preguntas dos usuarios sen necesidade de intervención humana.
Usando estes conxuntos de datos, as empresas poden crear unha ferramenta que ofreza respostas rápidas aos clientes as 24 horas do día, os 7 días de hoxe, e é significativamente máis barata que ter un equipo de persoas que fagan atención ao cliente.
1. Conxunto de datos de preguntas-respostas
Este conxunto de datos ofrece un conxunto de artigos da Wikipedia, preguntas e as súas respectivas respostas xeradas manualmente. Trátase dun conxunto de datos recollidos entre 2008 e 2010 para o seu uso investigación académica.
2. Datos da lingua
Language Data é unha base de datos xestionada por Yahoo con información xerada desde algúns dos servizos da empresa, como Yahoo! Answer, que funciona como unha comunidade aberta para que os usuarios publiquen preguntas e respostas.
3. WikiQA
O corpus de WikiQA tamén consta dun conxunto de preguntas e respostas. A fonte das preguntas é Bing, mentres que as respostas enlazan a unha páxina da Wikipedia con potencial para resolver a pregunta inicial.
En total, hai máis de 3,000 preguntas e un conxunto de 29,258 frases no conxunto de datos, das cales unhas 1,400 foron categorizadas como respostas a unha pregunta correspondente.
Datos do goberno
Os conxuntos de datos xerados polos gobernos achegan datos demográficos, que son excelentes entradas para proxectos relacionados coa comprensión das tendencias sociais, a creación de políticas públicas e a mellora da sociedade. Isto pode ser útil para campañas políticas, publicidade dirixida ou análise de mercado.
Estes conxuntos de datos normalmente conteñen datos anónimos, polo que, aínda que os modelos poden acceder aos datos brutos, non hai violacións da privacidade persoal.
4. Data.gov
Data.gov, lanzado en 2009, é a fonte norteamericana de datos. O seu catálogo é impresionante: máis de 218,000 conxuntos de datos que permiten a segmentación por formato, etiquetas, tipos e temas.
5. Portal de datos abertos da UE
O Portal de datos abertos da UE proporciona acceso a datos abertos compartidos por institucións da Unión Europea. Son datos que poden ser destinados a uso comercial e non comercial. A disposición do usuario hai máis de 15.5 mil conxuntos de datos, que abarcan temas como saúde, enerxía, medio ambiente, cultura e educación.
Datos de saúde
A raíz da crise sanitaria en curso en todo o mundo, os conxuntos de datos xerados polas organizacións sanitarias son esenciais para desenvolver solucións eficaces para salvar vidas. Estes conxuntos de datos poden axudar a identificar os factores de risco, elaborar patróns de transmisión de enfermidades e acelerar o diagnóstico.
Estes conxuntos de datos consisten en rexistros de saúde, datos demográficos dos pacientes, prevalencia de enfermidades, uso de medicamentos, valores nutricionais e moito máis.
6. Observatorio Mundial da Saúde
Este conxunto de datos é unha iniciativa da Organización Mundial da Saúde (OMS). Ofrece datos públicos relacionados con diferentes áreas da saúde, organizados por temáticas como sistemas de saúde, control do consumo de tabaco, maternidade, VIH/SIDA, etc. Tamén existe a opción de consultar datos sobre COVID-19.
7. CORDO-19
CORD-19 é un corpus de publicacións académicas sobre COVID-19 e outros artigos sobre o novo coronavirus. Trátase dun conxunto de datos aberto destinado a xerar novos coñecementos sobre o COVID-19.
Datos económicos
Os conxuntos de datos relacionados co ámbito financeiro adoitan reunir unha gran cantidade de información, xa que é habitual que se reúnan desde hai moito tempo. Son ideais para crear predicións económicas ou establecer tendencias de investimento.
Cos conxuntos de datos financeiros axeitados, a Modelo de Machine Learning pode predecir o comportamento dun determinado activo. É por iso que o sector financeiro está facendo todo o que está ao seu alcance para crear un modelo de ML eficaz, xa que calquera cousa que poida predecir aínda que sexa razoablemente ben ten o potencial de xerar millóns de dólares. A aprendizaxe automática xa está a predicir o comportamento dos cidadáns, o que está a afectar a forma en que os responsables políticos están a facer o seu traballo.
8. Fondo Monetario Internacional
O conxunto de datos do FMI contén unha serie de indicadores económicos e financeiros, estatísticas dos países membros e outros datos sobre préstamos e tipos de cambio.
9. Banco Mundial
O repositorio do Banco Mundial contén diferentes conxuntos de datos con información económica de diferentes países. Hai máis de 17,000 conxuntos de datos divididos por continentes.
Revisións de produtos e servizos
A análise de sentimentos atopou as súas aplicacións en varios campos que agora axudan ás empresas a estimar e aprender dos seus clientes ou clientes correctamente. A análise de sentimentos úsase cada vez máis para o seguimento das redes sociais, o seguimento da marca, a voz do cliente (VoC), o servizo ao cliente e a investigación de mercado.
A análise de sentimentos usa PNL (programación neurolingüística) métodos e algoritmos que están baseados en regras, híbridos ou con técnicas de Machine Learning para aprender datos de conxuntos de datos.
Os datos necesarios na análise de sentimentos deben estar especializados e son necesarios en grandes cantidades. A parte máis desafiante do proceso de adestramento para a análise de sentimentos é non atopar datos en grandes cantidades; en cambio, é buscar os conxuntos de datos relevantes. Estes conxuntos de datos deben cubrir unha ampla área de aplicacións de análise de sentimentos e casos de uso.
10. Críticas de Amazon
Este conxunto de datos contén uns 35 millóns de comentarios de Amazon, que abarcan un período de 18 anos de información recollida. É un conxunto de datos de contido de produto, usuario e recensión.
11. Comentarios de Yelp
Yelp tamén ofrece un conxunto de datos baseado na información recollida do seu servizo. Hai máis de 8 millóns de recensións, 1 millón de consellos e case 1.5 millóns de atributos relacionados coas empresas, como o horario de apertura e a dispoñibilidade.
12. Recensións IMDB
Esta base de datos contén un conxunto de máis de 25 mil críticas de películas para formación e outras 25 mil para probas tomadas de xeito informal desde a páxina IMDB, especializada en clasificacións de películas. Tamén ofrece datos sen etiquetar como complemento.
Conxuntos de datos para os primeiros pasos en ML
13. Conxunto de datos de calidade do viño
Este conxunto de datos proporciona información relacionada co viño, tanto tinto como verde, producido no norte de Portugal. O obxectivo é definir a calidade do viño a partir de probas fisicoquímicas. Interesante para aqueles que queiran practicar a creación dun sistema de predición.
14. Conjunto de datos Titanic
Este conxunto de datos trae datos de 887 pasaxeiros reais do Titanic, e cada columna define se sobreviviron, a súa idade, clase de pasaxeiros, sexo e a taxa de embarque que pagaron. Este conxunto de datos formaba parte dun reto lanzado pola plataforma Kaggle, cuxo obxectivo era crear un modelo que puidese predecir cales pasaxeiros sobreviviron ao afundimento do Titanic.
Plataformas para atopar outros conxuntos de datos
Se queres ir máis lonxe e atopar o teu propio conxunto de datos, a mellor forma é navegar polos repositorios máis famosos do Aprendizaxe automática universo:
Kaggle
Kaggle, unha subsidiaria de Google LLC, é unha comunidade en liña de científicos de datos e profesionais da aprendizaxe automática. Kaggle permite aos usuarios atopar e publicar conxuntos de datos, explorar e crear modelos nun ambiente de ciencia de datos baseado na web; traballar con outros científicos de datos e Enxeñeiros de Machine Learning, e participar en concursos para resolver desafíos de ciencia de datos.
Kaggle comezou en 2010 ofrecendo concursos de Machine Learning e agora tamén ofrece un público plataforma de datos, un banco de traballo baseado na nube para a educación en ciencia de datos e intelixencia artificial.
Busca de conxuntos de datos
Dataset Search é un motor de busca de Google que axuda aos investigadores a localizar datos en liña que están dispoñibles gratuitamente para o seu uso. Na web, hai millóns de conxuntos de datos sobre case calquera tema que che interese.
Se estás buscando comprar un cachorro, podes atopar conxuntos de datos que recompilen queixas dos compradores de cachorros ou estudos sobre a cognición dos cachorros. Ou se che gusta esquiar, podes atopar datos sobre os ingresos das estacións de esquí ou as taxas de lesións e os números de participación. Dataset Search indexou case 25 millóns destes conxuntos de datos, o que lle ofrece un único lugar para buscar conxuntos de datos e atopar ligazóns a onde están os datos.
Repositorio de aprendizaxe automática da UCI
O Repositorio de Machine Learning UCI é unha colección de bases de datos, teorías de dominios e xeradores de datos que a comunidade de Machine Learning utiliza para a análise empírica dos algoritmos de Machine Learning. O arquivo foi creado como arquivo ftp en 1987 por David Aha e outros estudantes de posgrao da UC Irvine.
Desde ese momento, foi amplamente utilizado por estudantes, educadores e investigadores de todo o mundo como fonte principal de conxuntos de datos de ML. Como indicación do impacto do arquivo, foi citado máis de 1000 veces, o que o converte nun dos 100 "papeis" máis citados en toda a informática.
Quandl
Quandl é unha plataforma que ofrece aos seus usuarios conxuntos de datos económicos, financeiros e alternativos. Os usuarios poden descargar datos gratuítos, comprar datos de pago ou vender datos a Quandl. Pode ser unha ferramenta útil para o desenvolvemento de algoritmos de negociación, por exemplo.
Conclusión
Ao explorar estas ferramentas, seguro que atoparás excelentes entradas para os teus proxectos. Asegúrate de escoller o conxunto de datos que máis se adapte ás túas necesidades específicas e teña sempre presente: non se trata só de cantidade, senón tamén de calidade. O conxunto de datos é a base de calquera Proxecto de Machine Learning e é fundamental construír datos de calidade para evitar o risco de chegar a conclusións erróneas.
Deixe unha resposta