Avanço programático: o salto da IA da linguagem para a lógica para resolver problemas complexos

Por favor, avalie esta postagem

Your page rank:

Programas de linguagem natural incorporados (NLEPs) foram introduzidos para aprimorar a funcionalidade de grandes modelos de linguagem. Ao gerar código Python para abordar consultas, os NLEPs aumentam a precisão, eficiência e transparência. Essa abordagem permite que os modelos lidem com diversas tarefas de forma mais eficaz e também pode beneficiar a privacidade de dados e modelos menores. Crédito: SciTechDaily.com

Pesquisadores desenvolveram uma técnica chamada programas incorporados de linguagem natural (NLEPs) que melhora o desempenho de grandes modelos de linguagem ao gerar programas Python para resolver tarefas complexas.

Este método não só melhora precisão e eficiência, mas também aumenta a transparência, pois os usuários podem ver e modificar diretamente o código gerado. Os NLEPs permitem que modelos grandes como o GPT-4 resolvam uma gama mais ampla de tarefas com maior precisão e podem potencialmente melhorar a privacidade de dados e o desempenho de modelos menores sem um retreinamento extensivo.

Melhorando as capacidades de raciocínio de grandes modelos de linguagem

Grandes modelos de linguagem, como os que alimentam o ChatGPT, demonstraram desempenho impressionante em tarefas como redigir resumos jurídicos, analisar o sentimento de avaliações de clientes ou traduzir documentos para diferentes idiomas.

Esses modelos de aprendizado de máquina normalmente usam apenas linguagem natural para processar informações e responder a consultas, o que pode dificultar a execução de tarefas que exigem raciocínio numérico ou simbólico.

Por exemplo, um grande modelo de linguagem pode ser capaz de memorizar e recitar uma lista de presidentes recentes dos EUA e seus aniversários, mas esse mesmo modelo pode falhar se for feita a pergunta “Quais presidentes dos EUA eleitos depois de 1950 nasceram em uma quarta-feira?” (A resposta é Jimmy Carter.)

Técnica melhora as capacidades de raciocínio de grandes modelos de linguagem

Uma nova técnica permite que grandes modelos de linguagem como GPT-4 resolvam com mais precisão tarefas de raciocínio numérico ou simbólico escrevendo um programa Python em código que gera a resposta correta para a consulta de um usuário. Crédito: Christine Daniloff, MIT; iStock

Melhorando as capacidades do modelo por meio de NLEPs

Pesquisadores de MIT e em outros lugares propuseram uma nova técnica que permite que grandes modelos de linguagem resolvam tarefas de linguagem natural, matemática e análise de dados, e raciocínio simbólico por meio da geração de programas.

A abordagem deles, chamada de programas de linguagem natural incorporada (NLEPs), envolve solicitar que um modelo de linguagem crie e execute um programa Python para resolver a dúvida de um usuário e, então, gerar a solução como linguagem natural.

Precisão e transparência aprimoradas

Eles descobriram que os NLEPs permitiram que grandes modelos de linguagem alcançassem maior precisão em uma ampla gama de tarefas de raciocínio. A abordagem também é generalizável, o que significa que um prompt NLEP pode ser reutilizado para múltiplas tarefas.

Os NLEPs também melhoram a transparência, já que um usuário pode verificar o programa para ver exatamente como o modelo raciocinou sobre a consulta e corrigir o programa se o modelo der uma resposta errada.

“Queremos que a IA realize raciocínios complexos de uma forma transparente e confiável. Ainda há um longo caminho a percorrer, mas mostramos que combinar as capacidades de programação e linguagem natural em grandes modelos de linguagem é um primeiro passo potencial muito bom em direção a um futuro onde as pessoas podem entender e confiar completamente no que está acontecendo dentro de seu modelo de IA”, diz Hongyin Luo PhD '22, um pós-doutorado do MIT e coautor principal de um artigo sobre NLEPs.

Luo é acompanhado no artigo pelos coautores principais Tianhua Zhang, um estudante de pós-graduação na Universidade Chinesa de Hong Kong; e Jiaxin Ge, um estudante de graduação na Universidade de Pequim; Yoon Kim, um professor assistente no Departamento de Engenharia Elétrica e Ciência da Computação do MIT e membro do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL); autor sênior James Glass, cientista pesquisador sênior e chefe do Spoken Language Systems Group no CSAIL; e outros. A pesquisa será apresentada na Annual Conference of the North American Chapter of the Association for Computational Linguistics.

Mecanismo de design e operacional do NLEP

Muitos modelos populares de linguagem grande funcionam prevendo a próxima palavra, ou token, dada alguma entrada de linguagem natural. Embora modelos como GPT-4 possam ser usados para escrever programas, eles incorporam esses programas dentro da linguagem natural, o que pode levar a erros no raciocínio ou nos resultados do programa.

Com os NLEPs, os pesquisadores do MIT adotaram a abordagem oposta. Eles incitam o modelo a gerar um programa passo a passo inteiramente em código Python e, então, incorporam a linguagem natural necessária dentro do programa.

Um NLEP é um modelo de solução de problemas com quatro etapas. Primeiro, o modelo chama os pacotes necessários, ou funções, que ele precisará para resolver a tarefa. A segunda etapa envolve importar representações em linguagem natural do conhecimento que a tarefa requer (como uma lista de aniversários de presidentes dos EUA). Para a terceira etapa, o modelo implementa uma função que calcula a resposta. E para a etapa final, o modelo produz o resultado como uma linha de linguagem natural com uma visualização automática de dados, se necessário.

“É como uma calculadora digital que sempre fornece o resultado correto do cálculo, desde que o programa esteja correto”, diz Luo.

O usuário pode facilmente investigar o programa e corrigir quaisquer erros no código diretamente, em vez de precisar executar novamente o modelo inteiro para solucionar problemas.

A abordagem também oferece maior eficiência do que alguns outros métodos. Se um usuário tiver muitas perguntas semelhantes, ele pode gerar um programa principal e então substituir certas variáveis sem precisar executar o modelo repetidamente.

Para induzir o modelo a gerar um NLEP, os pesquisadores dão a ele uma instrução geral para escrever um programa Python, fornecem dois exemplos de NLEP (um com matemática e outro com linguagem natural) e uma questão de teste.

“Normalmente, quando as pessoas fazem esse tipo de prompt de poucos tiros, elas ainda precisam criar prompts para cada tarefa. Descobrimos que podemos ter um prompt para muitas tarefas porque não é um prompt que ensina os LLMs a resolver um problema, mas um prompt que ensina os LLMs a resolver muitos problemas escrevendo um programa”, diz Luo.

“Fazer com que os modelos de linguagem raciocinem com código desbloqueia muitas oportunidades para uso de ferramentas, validação de saída, compreensão mais estruturada das capacidades e do modo de pensar do modelo e muito mais”, diz Leonid Karlinsky, cientista principal do MIT-IBM Watson AI Lab.

“Não há mágica aqui”

Os NLEPs alcançaram mais de 90 por cento de precisão ao solicitar que o GPT-4 resolvesse uma série de tarefas de raciocínio simbólico, como rastrear objetos embaralhados ou jogar um jogo de 24, bem como tarefas de classificação de texto e acompanhamento de instruções. Os pesquisadores descobriram que os NLEPs até exibiram 30 por cento mais precisão do que os métodos de solicitação específicos de tarefas. O método também mostrou melhorias em relação aos LLMs de código aberto.

Junto com o aumento da precisão de grandes modelos de linguagem, os NLEPs também podem melhorar a privacidade dos dados. Como os programas NLEP são executados localmente, os dados sensíveis do usuário não precisam ser enviados a uma empresa como OpenAI ou Google para serem processados por um modelo.

Além disso, os NLEPs podem permitir que pequenos modelos de linguagem tenham um melhor desempenho sem a necessidade de retreinar um modelo para uma determinada tarefa, o que pode ser um processo caro.

“Não há mágica aqui. Não temos um modelo de linguagem mais caro ou sofisticado. Tudo o que fazemos é usar geração de programa em vez de geração de linguagem natural, e podemos fazer com que ele tenha um desempenho significativamente melhor”, diz Luo.

No entanto, um NLEP depende da capacidade de geração de programa do modelo, então a técnica não funciona tão bem para modelos menores que foram treinados em conjuntos de dados limitados. No futuro, os pesquisadores planejam estudar métodos que podem fazer modelos de linguagem menores gerarem NLEPs mais eficazes. Além disso, eles querem investigar o impacto de variações de prompt em NLEPs para aumentar a robustez dos processos de raciocínio do modelo.

Referência: “Programas incorporados de linguagem natural para raciocínio simbólico de linguagem híbrida” por Tianhua Zhang, Jiaxin Ge, Hongyin Luo, Yung-Sung Chuang, Mingye Gao, Yuan Gong, Xixin Wu, Yoon Kim, Helen Meng e James Glass, 29 de março de 2024. Ciência da Computação > Computação e Linguagem.
arXiv:2309.10814

Esta pesquisa foi apoiada, em parte, pelo Centro de Inteligência Perceptual e Interativa de Hong Kong.

Avanço programático: o salto da IA da linguagem para a lógica para resolver problemas complexos

SPARROW do MIT redefine a descoberta de medicamentos com síntese inteligente

IA transforma antibiótico tóxico em medicamento que salva vidas

Desafio Ariel Space de US$ 50.000: Explorando atmosferas de exoplanetas com IA

Decifrando o código da vida: novo modelo de IA aprende a linguagem oculta do DNA

A IA descobriu os fatores que levam ao câncer escondidos no DNA “lixo”

Imagens de IA expostas: pesquisadores revelam método simples para detectar deepfakes

Deixe Uma Resposta Cancelar Resposta

Avanço programático: o salto da IA ​​da linguagem para a lógica para resolver problemas complexos

Por favor, avalie esta postagem

Melhorando as capacidades de raciocínio de grandes modelos de linguagem

Melhorando as capacidades do modelo por meio de NLEPs

Precisão e transparência aprimoradas

Mecanismo de design e operacional do NLEP

“Não há mágica aqui”

Postagens relacionadas

SPARROW do MIT redefine a descoberta de medicamentos com síntese inteligente

IA transforma antibiótico tóxico em medicamento que salva vidas

Desafio Ariel Space de US$ 50.000: Explorando atmosferas de exoplanetas com IA

Decifrando o código da vida: novo modelo de IA aprende a linguagem oculta do DNA

A IA descobriu os fatores que levam ao câncer escondidos no DNA “lixo”

Imagens de IA expostas: pesquisadores revelam método simples para detectar deepfakes

Deixe Uma Resposta Cancelar Resposta

Avanço programático: o salto da IA da linguagem para a lógica para resolver problemas complexos