Un problema clásico da intelixencia artificial é a procura dunha máquina que poida entender a linguaxe humana.
Por exemplo, ao buscar "restaurantes italianos próximos" no teu motor de busca favorito, un algoritmo ten que analizar cada palabra da túa consulta e mostrar os resultados relevantes. Unha aplicación de tradución decente terá que comprender o contexto dunha palabra en particular en inglés e, dalgún xeito, ter en conta as diferenzas na gramática entre as linguas.
Todas estas tarefas e moito máis caen dentro do subcampo da informática coñecido como Procesamento de linguaxe natural ou PNL. Os avances na PNL levaron a unha gran variedade de aplicacións prácticas desde asistentes virtuais como Alexa de Amazon ata filtros de spam que detectan correos electrónicos maliciosos.
O avance máis recente na PNL é a idea de a gran modelo lingüístico ou LLM. Os LLM como GPT-3 fixéronse tan poderosos que parecen ter éxito en case calquera tarefa ou caso de uso de PNL.
Neste artigo, analizaremos o que son exactamente os LLM, como se adestran estes modelos e as limitacións actuais que teñen.
Que é un gran modelo lingüístico?
No seu núcleo, un modelo de linguaxe é simplemente un algoritmo que sabe a probabilidade de que unha secuencia de palabras sexa unha frase válida.
Un modelo de linguaxe moi sinxelo adestrado nuns centos de libros debería ser capaz de dicir que "Foi a casa" é máis válido que "A casa foi el".
Se substituímos o conxunto de datos relativamente pequeno por un conxunto de datos masivo extraído de Internet, comezamos a abordar a idea dun gran modelo lingüístico.
Uso redes neuronales, os investigadores poden adestrar a LLM nunha gran cantidade de datos de texto. Debido á cantidade de datos de texto que o modelo viu, o LLM faise moi bo para predicir a seguinte palabra nunha secuencia.
O modelo vólvese tan sofisticado que pode realizar moitas tarefas de PNL. Estas tarefas inclúen resumir texto, crear contido novedoso e mesmo simular conversas de tipo humano.
Por exemplo, o popular modelo de linguaxe GPT-3 está adestrado con máis de 175 millóns de parámetros e considérase o modelo de linguaxe máis avanzado ata o momento.
É capaz de xerar código de traballo, escribir artigos enteiros e tentar responder preguntas sobre calquera tema.
Como se forman os LLM?
Tocamos brevemente o feito de que os LLM deben moito do seu poder ao tamaño dos seus datos de formación. Hai unha razón pola que os chamamos modelos lingüísticos "grandes" despois de todo.
Formación previa con Arquitectura Transformer
Durante a etapa previa á formación, os LLM introdúcense nos datos de texto existentes para aprender a estrutura xeral e as regras dunha lingua.
Nos últimos anos, os LLM foron adestrados previamente en conxuntos de datos que cobren unha parte importante da internet pública. Por exemplo, o modelo de linguaxe de GPT-3 foi adestrado en datos do Rastrexo común conxunto de datos, un corpus de publicacións web, páxinas web e libros dixitalizados extraídos de máis de 50 millóns de dominios.
O conxunto de datos masivo introdúcese entón nun modelo coñecido como a transformador. Os transformadores son un tipo de rede neuronal profunda que funciona mellor para datos secuenciais.
Os transformadores usan un Arquitectura de codificador-decodificador para manexar entrada e saída. Esencialmente, o transformador contén dúas redes neuronais: un codificador e un decodificador. O codificador pode extraer o significado do texto de entrada e almacenalo como un vector. O descodificador recibe entón o vector e produce a súa interpretación do texto.
Non obstante, o concepto clave que permitiu que a arquitectura do transformador funcionara tan ben é a adición dun mecanismo de autoatención. O concepto de autoatención permitiu ao modelo prestar atención ás palabras máis importantes dunha oración determinada. O mecanismo mesmo considera os pesos entre palabras que están afastadas secuencialmente.
Outro beneficio da autoatención é que o proceso se pode paralelizar. En lugar de procesar datos secuenciais en orde, os modelos de transformadores poden procesar todas as entradas á vez. Isto permite aos transformadores adestrar grandes cantidades de datos con relativa rapidez en comparación con outros métodos.
Axuste fino
Despois da etapa previa á formación, podes optar por introducir un novo texto para o LLM base para adestrar. Chamamos a este proceso Axuste fino e úsase a miúdo para mellorar aínda máis o resultado do LLM nunha tarefa específica.
Por exemplo, pode querer usar un LLM para xerar contido para a súa conta de Twitter. Podemos proporcionarlle ao modelo varios exemplos dos teus tweets anteriores para darlle unha idea da saída desexada.
Hai algúns tipos diferentes de axustes finos.
Aprendizaxe de poucos tiros refírese ao proceso de dar a un modelo un pequeno número de exemplos coa expectativa de que o modelo lingüístico descubra como producir resultados similares. Aprendizaxe dunha soa vez é un proceso similar, excepto que só se proporciona un exemplo.
Limitacións dos grandes modelos lingüísticos
Os LLM como GPT-3 son capaces de realizar un gran número de casos de uso mesmo sen axustar. Non obstante, estes modelos aínda teñen o seu propio conxunto de limitacións.
Falta de comprensión semántica do mundo
Na superficie, os LLM parecen mostrar intelixencia. Non obstante, estes modelos non funcionan do mesmo xeito que cerebro humano fai. Os LLM só confían en cálculos estatísticos para xerar resultados. Non teñen a capacidade de razoar ideas e conceptos por si mesmos.
Debido a isto, un LLM pode producir respostas sen sentido simplemente porque as palabras parecen "correctas" ou "estatisticamente probables" cando se colocan nesa orde en particular.
Alucinacións
Modelos como GPT-3 tamén sofren respostas imprecisas. Os LLM poden sufrir un fenómeno coñecido como alucinación onde os modelos producen unha resposta de feito incorrecta sen que se teña en conta que a resposta non ten ningunha base na realidade.
Por exemplo, un usuario pode pedirlle ao modelo que explique o pensamento de Steve Jobs sobre o iPhone máis recente. O modelo pode xerar unha cotización a partir do aire en función dos seus datos de adestramento.
Prexuízos e coñecementos limitados
Como moitos outros algoritmos, os grandes modelos de linguaxe son propensos a herdar os prexuízos presentes nos datos de adestramento. A medida que comezamos a confiar máis nos LLM para recuperar información, os desenvolvedores destes modelos deberían atopar formas de mitigar os efectos potencialmente nocivos das respostas tendenciosas.
Nunha capacidade similar, os puntos cegos dos datos de adestramento do modelo tamén dificultarán o propio modelo. Actualmente, os grandes modelos lingüísticos tardan meses en adestrarse. Estes modelos tamén dependen de conxuntos de datos de alcance limitado. É por iso que ChatGPT só ten un coñecemento limitado dos eventos que ocorreron despois de 2021.
Conclusión
Os grandes modelos lingüísticos teñen o potencial de cambiar realmente a forma en que interactuamos coa tecnoloxía e co noso mundo en xeral.
A gran cantidade de datos dispoñibles en internet deu aos investigadores unha forma de modelar as complexidades da linguaxe. Non obstante, ao longo do camiño, estes modelos lingüísticos parecen ter adquirido unha comprensión humana do mundo tal e como é.
A medida que o público comeza a confiar nestes modelos lingüísticos para proporcionar resultados precisos, os investigadores e desenvolvedores xa están a atopar formas de engadir gardas para que a tecnoloxía siga sendo ética.
Cal cres que é o futuro dos LLM?
Deixe unha resposta