Durant anys, l'aprenentatge profund ha estat els titulars de la tecnologia. I és fàcil entendre per què.
Aquesta branca de la intel·ligència artificial està transformant sectors que van des de la sanitat fins a la banca i el transport, permetent avenços abans impensables.
L'aprenentatge profund es basa en un conjunt d'algorismes sofisticats que aprenen a extreure i predir patrons complicats a partir de volums massius de dades.
Veurem els 15 millors algorismes d'aprenentatge profund en aquesta publicació, des de xarxes neuronals convolucionals fins a xarxes adversàries generatives fins a xarxes de memòria a curt termini.
Aquesta publicació donarà informació essencial sobre si sou un principiant o expert en aprenentatge profund.
1. Xarxes de transformadors
Les xarxes de transformadors s'han transformat visió per computadora i aplicacions de processament del llenguatge natural (PNL). Analitzen les dades entrants i utilitzen processos d'atenció per capturar relacions a llarg termini. Això els fa més ràpids que els models convencionals de seqüència a seqüència.
Les xarxes de transformadors es van descriure per primera vegada a la publicació "L'atenció és tot el que necessiteu" de Vaswani et al.
Consten d'un codificador i un descodificador (2017). El model de transformador ha demostrat el rendiment en una varietat d'aplicacions de PNL, incloses anàlisi del sentiment, categorització de text i traducció automàtica.
Els models basats en transformadors també es poden utilitzar en visió per computador per a aplicacions. Poden realitzar reconeixement d'objectes i subtítols d'imatges.
2. Xarxes de memòria a curt termini (LSTM)
Les xarxes de memòria a llarg termini (LSTM) són una forma de xarxa neural dissenyat especialment per gestionar l'entrada seqüencial. Es coneixen com a "llarg termini a curt termini" perquè poden recordar coneixements de fa molt de temps alhora que obliden informació innecessària.
Els LSTM operen a través d'unes "portes" que regeixen el flux d'informació dins de la xarxa. Depenent de si la informació es considera significativa o no, aquestes portes poden deixar-la entrar o prevenir-la.
Aquesta tècnica permet als LSTM recordar o oblidar informació de passos de temps passats, que és fonamental per a tasques com el reconeixement de la parla, el processament del llenguatge natural i la predicció de sèries temporals.
Els LSTM són extremadament beneficiosos en qualsevol cas en què disposeu de dades seqüencials que s'han d'avaluar o preveure. Sovint s'utilitzen al programari de reconeixement de veu per convertir les paraules parlades en text o en del mercat de valors anàlisi per preveure preus futurs basant-se en dades anteriors.
3. Mapes autoorganitzats (SOM)
Els SOM són una mena d'artificials xarxa neuronal que pot aprendre i representen dades complicades en un entorn de dimensions baixes. El mètode funciona transformant les dades d'entrada d'alta dimensió en una graella bidimensional, amb cada unitat o neurona que representa una part diferent de l'espai d'entrada.
Les neurones s'uneixen i creen una estructura topològica, que els permet aprendre i ajustar-se a les dades d'entrada. Per tant, SOM es basa en un aprenentatge no supervisat.
L'algorisme no necessita dades etiquetades d'aprendre. En canvi, utilitza les característiques estadístiques de les dades d'entrada per descobrir patrons i correlacions entre les variables.
Durant l'etapa d'entrenament, les neurones competeixen per ser la millor indicació de les dades d'entrada. I s'autoorganitzen en una estructura significativa. Els SOM tenen una àmplia gamma d'aplicacions, com ara el reconeixement d'imatges i de veu, la mineria de dades i el reconeixement de patrons.
Són útils per visualització de dades complicades, agrupar punts de dades relacionats i detectar anomalies o atípics.
4. Aprenentatge de reforç profund
profund Aprenentatge de reforç és una mena d'aprenentatge automàtic en què un agent està format per prendre decisions basades en un sistema de recompensa. Funciona deixant que l'agent interactuï amb el seu entorn i aprengui mitjançant assaig i error.
L'agent és recompensat per cada acció que fa, i el seu propòsit és aprendre a optimitzar-ne els beneficis al llarg del temps. Això es pot utilitzar per ensenyar als agents a jugar, conduir automòbils i fins i tot gestionar robots.
Q-Learning és un mètode d'aprenentatge de reforç profund conegut. Funciona avaluant el valor de fer una determinada acció en un estat determinat i actualitzar aquesta estimació a mesura que l'agent interactua amb l'entorn.
Aleshores, l'agent utilitza aquestes estimacions per determinar quina acció té més probabilitats de donar lloc a la recompensa més gran. Q-Learning s'ha utilitzat per educar els agents per jugar a jocs Atari, així com per millorar l'ús d'energia als centres de dades.
Deep Q-Networks és un altre mètode famós d'aprenentatge de reforç profund (DQN). Els DQN són similars a Q-Learning, ja que estimen els valors d'acció mitjançant una xarxa neuronal profunda en lloc d'una taula.
Això els permet fer front a configuracions enormes i complicades amb nombroses accions alternatives. Els DQN s'han utilitzat per entrenar agents per jugar a jocs com Go i Dota 2, així com per crear robots que puguin aprendre a caminar.
5. Xarxes neuronals recurrents (RNN)
Els RNN són una mena de xarxa neuronal que pot processar dades seqüencials mantenint un estat intern. Considereu-ho semblant a una persona que llegeix un llibre, on cada paraula es digereix en relació amb les que li van precedir.
Per tant, els RNN són ideals per a tasques com el reconeixement de veu, la traducció d'idiomes i, fins i tot, la predicció de la paraula següent en una frase.
Els RNN funcionen utilitzant bucles de retroalimentació per connectar la sortida de cada pas de temps enrere amb l'entrada del pas de temps següent. Això permet que la xarxa utilitzi la informació de pas de temps anterior per informar les seves prediccions per a passos de temps futurs. Malauradament, això també significa que els RNN són vulnerables al problema del gradient que desapareix, en què els gradients utilitzats per a la formació es tornen molt petits i la xarxa lluita per aprendre relacions a llarg termini.
Malgrat aquesta aparent limitació, els RNN han trobat ús en una àmplia gamma d'aplicacions. Aquestes aplicacions inclouen el processament del llenguatge natural, el reconeixement de veu i fins i tot la producció musical.
traductor google, per exemple, utilitza un sistema basat en RNN per traduir entre idiomes, mentre que Siri, l'assistent virtual, utilitza un sistema basat en RNN per detectar la veu. Els RNN també s'han utilitzat per predir els preus de les accions i crear textos i gràfics realistes.
6. Xarxes càpsules
Capsule Networks és un nou tipus de disseny de xarxes neuronals que pot identificar patrons i correlacions en dades de manera més eficaç. Organitzen les neurones en "càpsules" que codifiquen certs aspectes d'una entrada.
D'aquesta manera poden fer prediccions més precises. Les xarxes de càpsules extreuen propietats progressivament complicades de les dades d'entrada utilitzant nombroses capes de càpsules.
La tècnica de Capsule Networks els permet aprendre representacions jeràrquiques de l'entrada donada. Poden codificar correctament les connexions espacials entre els elements dins d'una imatge mitjançant la comunicació entre càpsules.
La identificació d'objectes, la segmentació d'imatges i el processament del llenguatge natural són totes les aplicacions de Capsule Networks.
Les xarxes càpsules tenen el potencial de ser emprades conducció autònoma tecnologies. Ajuden el sistema a reconèixer i distingir entre elements com ara automòbils, persones i senyals de trànsit. Aquests sistemes poden evitar col·lisions fent prediccions més precises sobre el comportament dels objectes al seu entorn.
7. Autoencoders variacionals (VAE)
Els VAE són una forma d'eina d'aprenentatge profund que s'utilitza per a l'aprenentatge no supervisat. En codificar les dades en un espai de dimensions inferiors i després descodificar-les de nou al format original, poden aprendre a detectar patrons a les dades.
Són com un mag que pot transformar un conill en un barret i després de nou en un conillet! Els VAE són beneficiosos per generar imatges o música realistes. A més, es poden utilitzar per produir dades noves que siguin comparables a les dades originals.
Els VAE són similars al trencador de codis secrets. Poden descobrir el subjacent estructura de dades dividint-lo en fragments més simples, com es desglossa un trencaclosques. Poden utilitzar aquesta informació per crear dades noves que semblin l'original després d'haver resolt les peces.
Això pot ser útil per comprimir fitxers enormes o produir gràfics o música nous amb un estil determinat. Els VAE també poden produir contingut fresc, com ara notícies o lletres de música.
8. Xarxes adversàries generatives (GAN)
Les GAN (Generative Adversarial Networks) són una forma de sistema d'aprenentatge profund que genera noves dades que s'assemblen a l'original. Funcionen formant dues xarxes: una xarxa generadora i una xarxa discriminadora.
El generador produeix dades noves que són comparables a l'original.
I, el discriminador intenta distingir entre les dades originals i creades. Les dues xarxes s'entrenen en tàndem, amb el generador intentant enganyar el discriminador i el discriminador intentant identificar correctament les dades originals.
Considereu que els GAN són un encreuament entre un falsificador i un detectiu. El generador funciona de manera similar a un falsificador, produint noves obres d'art que s'assemblen a l'original.
El discriminador actua com a detectiu, intentant distingir entre obres d'art genuïnes i falsificació. Les dues xarxes s'entrenen en tàndem, amb el generador millorant per fer falsificacions plausibles i el discriminador millorant per reconèixer-les.
Els GAN tenen diversos usos, que van des de produir imatges realistes d'humans o animals fins a crear música o escriure noves. També es poden utilitzar per augmentar les dades, que implica combinar dades produïdes amb dades reals per crear un conjunt de dades més gran per entrenar models d'aprenentatge automàtic.
9. Xarxes Q profundes (DQN)
Les xarxes Q profundes (DQN) són una mena d'algorisme d'aprenentatge per reforçar la presa de decisions. Funcionen aprenent una funció Q que prediu la recompensa esperada per fer una determinada acció en una condició determinada.
La funció Q s'ensenya per assaig i error, amb l'algoritme intentant diverses accions i aprenent dels resultats.
Considereu-ho com a videojocs personatge experimentant amb diverses accions i descobrint quines condueixen a l'èxit! Els DQN entrenen la funció Q mitjançant una xarxa neuronal profunda, convertint-los en eines efectives per a tasques difícils de presa de decisions.
Fins i tot han derrotat campions humans en jocs com Go i escacs, així com en robòtica i automòbils de conducció autònoma. Així, tot plegat, els DQN treballen aprenent de l'experiència per millorar les seves habilitats de presa de decisions al llarg del temps.
10. Xarxes de funció de base radial (RBFN)
Les xarxes de funcions de base radial (RBFN) són una mena de xarxa neuronal que s'utilitza per aproximar funcions i realitzar tasques de classificació. Funcionen transformant les dades d'entrada en un espai de dimensions superiors mitjançant una col·lecció de funcions de base radial.
La sortida de la xarxa és una combinació lineal de les funcions de base, i cada funció de base radial representa un punt central a l'espai d'entrada.
Els RBFN són especialment eficaços per a situacions amb interaccions d'entrada-sortida complicades i es poden ensenyar mitjançant una àmplia gamma de tècniques, inclòs l'aprenentatge supervisat i no supervisat. S'han utilitzat per a qualsevol cosa, des de prediccions financeres fins al reconeixement d'imatges i de veu i diagnòstics mèdics.
Considereu els RBFN com un sistema GPS que utilitza una sèrie de punts d'ancoratge per trobar el camí a través de terrenys difícils. La sortida de la xarxa és una combinació dels punts d'ancoratge, que substitueixen les funcions de base radial.
Podem navegar per informació complicada i generar prediccions precises sobre com resultarà un escenari utilitzant RBFN.
11. Perceptrons multicapa (MLP)
Una forma típica de xarxa neuronal anomenada perceptró multicapa (MLP) s'utilitza per a tasques d'aprenentatge supervisat com la classificació i la regressió. Funcionen apilant diverses capes de nodes enllaçats o neurones, i cada capa canvia de manera no lineal les dades entrants.
En un MLP, cada neurona rep l'entrada de les neurones de la capa inferior i envia un senyal a les neurones de la capa superior. La sortida de cada neurona es determina mitjançant una funció d'activació, que dóna a la xarxa no linealitat.
Són capaços d'aprendre representacions sofisticades de les dades d'entrada, ja que poden tenir diverses capes ocultes.
Els MLP s'han aplicat a una varietat de tasques, com ara l'anàlisi de sentiments, la detecció de fraus i el reconeixement de veu i imatge. Els MLP es poden comparar amb un grup d'investigadors que treballen junts per resoldre un cas difícil.
Junts, poden reunir els fets i resoldre el crim malgrat que cadascun té una àrea d'especialitat determinada.
12. Xarxes neuronals convolucionals (CNN)
Les imatges i els vídeos es processen mitjançant xarxes neuronals convolucionals (CNN), una forma de xarxa neuronal. Funcionen emprant un conjunt de filtres o nuclis que es poden aprendre per extreure característiques significatives de les dades d'entrada.
Els filtres llisquen sobre la imatge d'entrada, executant circumvolucions per construir un mapa de característiques que capta aspectes essencials de la imatge.
Com que les CNN poden aprendre representacions jeràrquiques de les característiques de la imatge, són especialment útils per a situacions que impliquen grans volums de dades visuals. Diverses aplicacions n'han fet ús, com ara la detecció d'objectes, la categorització d'imatges i la detecció de cares.
Considereu les CNN com un pintor que utilitza diversos pinzells per crear una obra mestra. Cada pinzell és un nucli, i l'artista pot crear una imatge complexa i realista barrejant molts nuclis. Podem extreure característiques significatives de les fotos i utilitzar-les per predir amb precisió el contingut de la imatge utilitzant CNN.
13. Xarxes de creences profundes (DBN)
Els DBN són una forma de xarxa neuronal que s'utilitza per a tasques d'aprenentatge no supervisades, com ara la reducció de la dimensionalitat i l'aprenentatge de funcions. Funcionen apilant diverses capes de màquines Boltzmann restringides (RBM), que són xarxes neuronals de dues capes capaços d'aprendre a reconstituir les dades d'entrada.
Els DBN són molt beneficiosos per a problemes de dades d'alta dimensió perquè poden aprendre una representació compacta i eficient de l'entrada. S'han utilitzat per a qualsevol cosa, des del reconeixement de veu fins a la categorització d'imatges i el descobriment de fàrmacs.
Per exemple, els investigadors van utilitzar un DBN per estimar l'afinitat d'unió dels candidats a medicaments amb el receptor d'estrògens. El DBN es va formar en una col·lecció de característiques químiques i afinitats d'unió, i va poder predir amb precisió l'afinitat d'unió de nous candidats a fàrmacs.
Això posa de manifest l'ús de DBN en el desenvolupament de fàrmacs i altres aplicacions de dades d'alta dimensió.
14. Autoencoders
Els codificadors automàtics són xarxes neuronals que s'utilitzen per a tasques d'aprenentatge no supervisades. Tenen la intenció de reconstruir les dades d'entrada, la qual cosa implica que aprendran a codificar la informació en una representació compacta i després descodificar-la de nou a l'entrada original.
Els codificadors automàtics són molt efectius per a la compressió de dades, l'eliminació de sorolls i la detecció d'anomalies. També es poden utilitzar per a l'aprenentatge de funcions, on la representació compacta de l'autocodificador s'incorpora a una tasca d'aprenentatge supervisada.
Considereu que els codificadors automàtics són estudiants que prenen notes a classe. L'estudiant escolta la classe i anota els punts més rellevants de manera concisa i eficient.
Més tard, l'estudiant pot estudiar i recordar la lliçó utilitzant les seves notes. Un codificador automàtic, d'altra banda, codifica les dades d'entrada en una representació compacta que es pot utilitzar posteriorment per a diferents finalitats, com ara la detecció d'anomalies o la compressió de dades.
15. Màquines Boltzmann restringides (RBM)
Les RBM (màquines de Boltzmann restringides) són una mena de xarxa neuronal generativa que s'utilitza per a tasques d'aprenentatge no supervisades. Estan formats per una capa visible i una capa oculta, amb neurones a cada capa, enllaçades però no dins de la mateixa capa.
Els RBM s'entrenen mitjançant una tècnica coneguda com a divergència contrastiva, que consisteix a canviar els pesos entre les capes visibles i ocultes per tal d'optimitzar la probabilitat de les dades d'entrenament. Els RBM poden crear dades noves després de ser entrenats mitjançant el mostreig de la distribució apresa.
El reconeixement d'imatges i de veu, el filtratge col·laboratiu i la detecció d'anomalies són aplicacions que han emprat RBM. També s'han utilitzat en sistemes de recomanació per crear recomanacions personalitzades mitjançant l'aprenentatge de patrons del comportament dels usuaris.
Els RBM també s'han utilitzat en l'aprenentatge de funcions per crear una representació compacta i eficient de dades d'alta dimensió.
Conclusió i desenvolupaments prometedors a l'horitzó
Els mètodes d'aprenentatge profund, com les xarxes neuronals convolucionals (CNN) i les xarxes neuronals recurrents (RNN), es troben entre els enfocaments d'intel·ligència artificial més avançats. Les CNN han transformat el reconeixement d'imatges i àudio, mentre que les RNN han avançat significativament en el processament del llenguatge natural i l'anàlisi de dades seqüencials.
És probable que el següent pas en l'evolució d'aquests enfocaments se centrarà a millorar la seva eficiència i escalabilitat, permetent-los analitzar conjunts de dades més grans i complicats, així com millorar la seva interpretabilitat i la capacitat d'aprendre de dades menys etiquetades.
L'aprenentatge profund té la possibilitat de permetre avenços en camps com la salut, les finances i els sistemes autònoms a mesura que avança.
Deixa un comentari