Durante anos, a aprendizaxe profunda foi os titulares da tecnoloxía. E é sinxelo entender por que.
Esta rama da intelixencia artificial está a transformar sectores que van desde a sanidade ata a banca e o transporte, permitindo avances antes impensables.
A aprendizaxe profunda baséase nun conxunto de algoritmos sofisticados que aprenden a extraer e predecir patróns complicados a partir de grandes volumes de datos.
Observaremos os 15 mellores algoritmos de aprendizaxe profunda nesta publicación, desde redes neuronais convolucionais ata redes adversarias xerativas ata redes de memoria a longo prazo.
Esta publicación dará información esencial sobre se es un principiante ou experto en aprendizaxe profunda.
1. Redes de transformadores
As redes de transformadores transformáronse visión por computador e aplicacións de procesamento da linguaxe natural (PNL). Analizan os datos entrantes e empregan procesos de atención para capturar relacións de longo alcance. Isto fai que sexan máis rápidos que os modelos convencionais de secuencia a secuencia.
As redes de transformadores foron descritas por primeira vez na publicación "Attention Is All You Need" de Vaswani et al.
Constan dun codificador e un decodificador (2017). O modelo de transformador demostrou o seu rendemento nunha variedade de aplicacións de NLP, incluíndo análise de sentimentos, categorización de textos e tradución automática.
Os modelos baseados en transformadores tamén se poden utilizar en visión por ordenador para aplicacións. Poden realizar recoñecemento de obxectos e subtítulos de imaxes.
2. Redes de memoria a longo prazo (LSTM)
As redes de memoria a longo prazo (LSTM) son unha forma de rede neural especialmente construído para manexar entradas secuenciais. Denomínanse "long curto prazo" porque poden lembrar coñecementos de hai moito tempo e esquecen tamén información innecesaria.
Os LSTM operan a través dunhas "portas" que rexen o fluxo de información dentro da rede. Dependendo de se a información se xulga significativa ou non, estas portas poden deixala entrar ou evitala.
Esta técnica permite aos LSTM recordar ou esquecer información dos pasos do tempo pasado, o que é fundamental para tarefas como o recoñecemento de voz, o procesamento da linguaxe natural e a predición de series temporais.
Os LSTM son extremadamente beneficiosos en calquera caso en que teñas datos secuenciais que teñan que ser avaliados ou pronosticados. Adoitan usarse no software de recoñecemento de voz para converter as palabras faladas en texto ou en mercado de accións análise para prever prezos futuros baseándose en datos anteriores.
3. Mapas autoorganizados (SOM)
Os SOM son unha especie de artificial rede neuronal que pode aprender e representan datos complicados nun ambiente de baixa dimensión. O método funciona transformando datos de entrada de alta dimensión nunha cuadrícula bidimensional, representando cada unidade ou neurona unha parte diferente do espazo de entrada.
As neuronas están unidas entre si e crean unha estrutura topolóxica, que lles permite aprender e axustarse aos datos de entrada. Entón, SOM baséase na aprendizaxe non supervisada.
O algoritmo non precisa datos etiquetados de aprender. Pola contra, utiliza as características estatísticas dos datos de entrada para descubrir patróns e correlacións entre as variables.
Durante a etapa de adestramento, as neuronas compiten para ser a mellor indicación dos datos de entrada. E, auto-organizan nunha estrutura significativa. Os SOM teñen unha ampla gama de aplicacións, incluíndo recoñecemento de imaxe e voz, minería de datos e recoñecemento de patróns.
Son útiles para visualización de datos complicados, agrupando puntos de datos relacionados e detectando anomalías ou valores atípicos.
4. Aprendizaxe de reforzo profundo
profundo Aprendizaxe de reforzo é unha especie de aprendizaxe automática na que se adestra un axente para tomar decisións baseadas nun sistema de recompensa. Funciona deixando que o axente interactúe co seu entorno e aprenda mediante proba e erro.
O axente é recompensado por cada acción que realiza e o seu propósito é aprender a optimizar os seus beneficios ao longo do tempo. Isto pódese usar para ensinar aos axentes a xogar, conducir automóbiles e mesmo xestionar robots.
Q-Learning é un método moi coñecido de aprendizaxe por reforzo profundo. Funciona avaliando o valor de facer unha determinada acción nun estado particular e actualizando esa estimación a medida que o axente interactúa co medio.
A continuación, o axente utiliza estas estimacións para determinar que acción é máis probable que resulte na maior recompensa. Q-Learning utilizouse para educar aos axentes a xogar aos xogos de Atari, así como para mellorar o uso da enerxía nos centros de datos.
Deep Q-Networks é outro famoso método de aprendizaxe por reforzo profundo (DQN). Os DQN son similares ao Q-Learning porque estiman os valores de acción usando unha rede neuronal profunda en lugar dunha táboa.
Isto permítelles xestionar configuracións enormes e complicadas con numerosas accións alternativas. Os DQN utilizáronse para adestrar axentes para xogar a xogos como Go e Dota 2, así como para crear robots que poidan aprender a camiñar.
5. Redes neuronais recorrentes (RNNs)
As RNN son unha especie de rede neuronal que pode procesar datos secuenciais mantendo un estado interno. Considérao semellante a unha persoa que le un libro, onde cada palabra é dixerida en relación coas anteriores.
Polo tanto, os RNN son ideais para tarefas como o recoñecemento de voz, a tradución de idiomas e mesmo a previsión da seguinte palabra nunha frase.
Os RNN funcionan empregando bucles de retroalimentación para conectar a saída de cada paso tempo atrás coa entrada do seguinte paso temporal. Isto permite que a rede utilice a información de pasos de tempo previos para informar as súas predicións de pasos de tempo futuros. Desafortunadamente, isto tamén significa que as RNN son vulnerables ao problema do gradiente que desaparece, no que os gradientes utilizados para o adestramento fanse moi pequenos e a rede loita por aprender relacións a longo prazo.
A pesar desta aparente restrición, as RNN atoparon uso nunha ampla gama de aplicacións. Estas aplicacións inclúen o procesamento da linguaxe natural, o recoñecemento de voz e mesmo a produción musical.
Tradutor de Google, por exemplo, emprega un sistema baseado en RNN para traducir entre idiomas, mentres que Siri, o asistente virtual, utiliza un sistema baseado en RNN para detectar a voz. Os RNN tamén se utilizaron para prever os prezos das accións e crear textos e gráficos realistas.
6. Redes de cápsulas
Capsule Networks é un novo tipo de deseño de redes neuronais que pode identificar patróns e correlacións nos datos de forma máis eficaz. Organizan as neuronas en "cápsulas" que codifican certos aspectos dunha entrada.
Deste xeito poden facer predicións máis precisas. Capsule Networks extrae propiedades progresivamente complicadas dos datos de entrada empregando numerosas capas de cápsulas.
A técnica de Capsule Networks permítelles aprender representacións xerárquicas da entrada dada. Poden codificar correctamente as conexións espaciais entre elementos dentro dunha imaxe comunicándose entre cápsulas.
A identificación de obxectos, a segmentación de imaxes e o procesamento da linguaxe natural son todas as aplicacións de Capsule Networks.
As redes de cápsulas teñen o potencial de empregarse condución autónoma tecnoloxías. Axudan ao sistema a recoñecer e distinguir elementos como automóbiles, persoas e sinais de tráfico. Estes sistemas poden evitar colisións facendo predicións máis precisas sobre o comportamento dos obxectos no seu contorno.
7. Autocodificadores variacionais (VAE)
Os VAE son unha forma de ferramenta de aprendizaxe profunda que se usa para a aprendizaxe sen supervisión. Ao codificar os datos nun espazo de dimensión inferior e despois decodificalos de novo ao formato orixinal, poden aprender a detectar patróns nos datos.
Son como un mago que pode transformar un coello nun sombreiro e despois de novo nun coello! Os VAE son beneficiosos para xerar imaxes ou música realistas. Ademais, pódense usar para producir novos datos que sexan comparables aos datos orixinais.
Os VAE son semellantes ao secret codebreaker. Poden descubrir o subxacente estrutura de datos dividíndoo en anacos máis sinxelos, como se descompón un crebacabezas. Poden utilizar esa información para crear novos datos que se parecen ao orixinal despois de resolver as partes.
Isto pode ser útil para comprimir ficheiros enormes ou producir gráficos frescos ou música nun determinado estilo. Os VAE tamén poden producir contido novo, como noticias ou letras de música.
8. Redes xerativas adversarias (GAN)
As GAN (Generative Adversarial Networks) son unha forma de sistema de aprendizaxe profunda que xera novos datos que se asemellan ao orixinal. Funcionan adestrando dúas redes: unha rede xeradora e outra discriminadora.
O xerador produce novos datos que son comparables ao orixinal.
E, o discriminador intenta distinguir entre os datos orixinais e os creados. As dúas redes están adestradas en conxunto, co xerador intentando enganar ao discriminador e o discriminador intentando identificar correctamente os datos orixinais.
Considera que as GAN son un cruce entre un falsificador e un detective. O xerador funciona de forma similar a un falsificador, producindo novas obras de arte que se asemellan á orixinal.
O discriminador actúa como detective, intentando distinguir entre obras de arte xenuínas e falsificación. As dúas redes adestran en conxunto, co xerador mellorando para facer falsificacións plausibles e o discriminador para recoñecelos.
Os GAN teñen varios usos, que van desde producir imaxes realistas de humanos ou animais ata crear música ou escribir novas. Tamén se poden usar para o aumento de datos, o que implica combinar datos producidos con datos reais para construír un conxunto de datos maior para adestrar modelos de aprendizaxe automática.
9. Deep Q-Networks (DQN)
As Deep Q-Networks (DQN) son unha especie de algoritmo de aprendizaxe de reforzo para a toma de decisións. Operan aprendendo unha función Q que predice a recompensa esperada por facer unha determinada acción nunha determinada condición.
A función Q ensínase por proba e erro, co algoritmo que intenta varias accións e aprende dos resultados.
Considérao como un vídeo-game personaxe experimentando con varias accións e descubrindo cales conducen ao éxito! Os DQN adestran a función Q usando unha rede neuronal profunda, o que os converte en ferramentas eficaces para tarefas difíciles de toma de decisións.
Incluso derrotaron a campións humanos en xogos como Go e xadrez, así como en robótica e automóbiles autónomos. Así, en definitiva, os DQN traballan aprendendo da experiencia para mellorar as súas habilidades de toma de decisións ao longo do tempo.
10. Redes de funcións de base radial (RBFN)
As redes de funcións de base radial (RBFN) son unha especie de rede neuronal que se usa para aproximar funcións e realizar tarefas de clasificación. Operan transformando os datos de entrada nun espazo de dimensións superiores mediante unha colección de funcións de base radial.
A saída da rede é unha combinación lineal das funcións de base, e cada función de base radial representa un punto central no espazo de entrada.
Os RBFN son especialmente eficaces para situacións con interaccións entrada-saída complicadas e pódense ensinar mediante unha ampla gama de técnicas, incluíndo a aprendizaxe supervisada e non supervisada. Utilizáronse para calquera cousa, desde predicións financeiras ata recoñecemento de imaxes e voz ata diagnósticos médicos.
Considere os RBFN como un sistema GPS que usa unha serie de puntos de ancoraxe para atopar o seu camiño por terreos desafiantes. A saída da rede é unha combinación dos puntos de ancoraxe, que representan as funcións de base radial.
Podemos navegar por información complicada e xerar predicións precisas sobre como resultará un escenario empregando RBFN.
11. Perceptróns multicapa (MLP)
Unha forma típica de rede neuronal chamada perceptrón multicapa (MLP) úsase para tarefas de aprendizaxe supervisada como clasificación e regresión. Funcionan apilando varias capas de nodos ligados, ou neuronas, e cada capa cambia de forma non lineal os datos entrantes.
Nunha MLP, cada neurona recibe entrada das neuronas da capa inferior e envía un sinal ás neuronas da capa superior. A saída de cada neurona determínase mediante unha función de activación, que dá á rede non linealidade.
Son capaces de aprender representacións sofisticadas dos datos de entrada xa que poden ter varias capas ocultas.
Os MLP aplicáronse a unha variedade de tarefas, como a análise de sentimentos, a detección de fraudes e o recoñecemento de voz e imaxe. Os MLP pódense comparar cun grupo de investigadores que traballan xuntos para resolver un caso difícil.
Xuntos, poden recompoñer os feitos e resolver o crime a pesar de que cada un ten unha especialidade específica.
12. Redes neuronais convolucionais (CNN)
As imaxes e os vídeos son procesados mediante redes neuronais convolucionais (CNN), unha forma de rede neuronal. Funcionan empregando un conxunto de filtros aprendibles, ou núcleos, para extraer características significativas dos datos de entrada.
Os filtros deslízanse sobre a imaxe de entrada, executando circunvolucións para construír un mapa de características que captura aspectos esenciais da imaxe.
Como as CNN son capaces de aprender representacións xerárquicas das características da imaxe, son especialmente útiles para situacións que impliquen enormes volumes de datos visuais. Varias aplicacións fixeron uso delas, como a detección de obxectos, a categorización de imaxes e a detección de rostros.
Considere as CNN como un pintor que usa varios pinceis para crear unha obra mestra. Cada pincel é un núcleo, e o artista pode construír unha imaxe complexa e realista mesturando moitos núcleos. Podemos extraer características significativas das fotos e utilizalas para prever con precisión o contido da imaxe mediante a utilización de CNN.
13. Redes de crenza profunda (DBN)
Os DBN son unha forma de rede neuronal que se usa para tarefas de aprendizaxe sen supervisión, como a redución da dimensionalidade e a aprendizaxe de funcións. Funcionan apilando varias capas de Máquinas Boltzmann restrinxidas (RBM), que son redes neuronais de dúas capas capaces de aprender a reconstituír os datos de entrada.
Os DBN son moi beneficiosos para problemas de datos de alta dimensión porque poden aprender unha representación compacta e eficiente da entrada. Utilizáronse para calquera cousa, desde o recoñecemento de voz ata a categorización de imaxes ata o descubrimento de fármacos.
Por exemplo, os investigadores empregaron un DBN para estimar a afinidade de unión dos candidatos a medicamentos ao receptor de estróxenos. O DBN foi adestrado nunha colección de características químicas e afinidades de unión, e foi capaz de predicir con precisión a afinidade de unión de novos candidatos a fármacos.
Isto destaca o uso de DBN no desenvolvemento de fármacos e outras aplicacións de datos de alta dimensión.
14. Autocodificadores
Os codificadores automáticos son redes neuronais que se utilizan para tarefas de aprendizaxe sen supervisión. Pretenden reconstruír os datos de entrada, o que implica que aprenderán a codificar a información nunha representación compacta e despois descodificala de novo na entrada orixinal.
Os codificadores automáticos son moi eficaces para a compresión de datos, a eliminación de ruído e a detección de anomalías. Tamén se poden usar para a aprendizaxe de funcións, onde a representación compacta do codificador automático introdúcese nunha tarefa de aprendizaxe supervisada.
Considere que os codificadores automáticos son estudantes que toman notas na clase. O alumno escoita a charla e anota os puntos máis relevantes de forma concisa e eficaz.
Máis tarde, o alumno pode estudar e lembrar a lección usando as súas notas. Un autocodificador, por outra banda, codifica os datos de entrada nunha representación compacta que posteriormente pode empregarse para diferentes fins, como a detección de anomalías ou a compresión de datos.
15. Máquinas Boltzmann restrinxidas (RBM)
As RBM (Restricted Boltzmann Machines) son unha especie de rede neuronal xerativa que se usa para tarefas de aprendizaxe sen supervisión. Están formados por unha capa visible e unha capa oculta, con neuronas en cada capa, unidas pero non dentro da mesma capa.
Os RBM adestran mediante unha técnica coñecida como diverxencia contrastiva, que implica cambiar os pesos entre as capas visibles e ocultas para optimizar a probabilidade dos datos de adestramento. Os RBM poden crear datos novos despois de ser adestrados tomando mostras da distribución aprendida.
O recoñecemento de imaxe e voz, o filtrado colaborativo e a detección de anomalías son todas as aplicacións que empregaron RBM. Tamén se utilizaron en sistemas de recomendación para crear recomendacións a medida mediante a aprendizaxe de patróns a partir do comportamento do usuario.
Os RBM tamén se utilizaron na aprendizaxe de funcións para crear unha representación compacta e eficiente de datos de alta dimensión.
Conclusión e desenvolvementos prometedores no horizonte
Os métodos de aprendizaxe profunda, como as redes neuronais convolucionais (CNN) e as redes neuronais recorrentes (RNN), están entre os enfoques de intelixencia artificial máis avanzados. As CNN transformaron o recoñecemento de imaxes e audio, mentres que as RNN avanzaron significativamente no procesamento da linguaxe natural e na análise de datos secuenciais.
O seguinte paso na evolución destes enfoques é probable que se centre na mellora da súa eficiencia e escalabilidade, permitíndolles analizar conxuntos de datos máis grandes e complicados, así como mellorar a súa interpretación e capacidade de aprender de datos menos etiquetados.
A aprendizaxe profunda ten a posibilidade de permitir avances en campos como a sanidade, as finanzas e os sistemas autónomos a medida que avanza.
Deixe unha resposta