Por favor, avalie esta postagem

    0 / 7

    Your page rank:

    Embora os computadores tenham ultrapassado os humanos em atividades como o xadrez e o Jeopardy, o humor continua a ser uma característica exclusivamente humana que os computadores podem não ser capazes de replicar.

    Temos uma longa história de gritar com nossas máquinas – carros que quebram, televisões transmitindo nossas equipes fracassadas. Mas agora, nossas máquinas nos entendem. E eles estão respondendo. Eles estão descobrindo receitas para nós na cozinha, navegando em nossas viagens de carro, terminando nossas frases em mecanismos de busca na Internet e traduzindo idiomas estrangeiros.

    Por isso devemos agradecer à linguística computacional, também conhecida como processamento de linguagem natural (PNL). É um dos focos de pesquisa de Dragomir Radev, professor de Ciência da Computação A. Bartlett Giamatti. É uma área de estudo onde a ciência da computação, a linguística e a inteligência artificial se cruzam e tem se tornado cada vez mais proeminente em nossas vidas, desde o Siri da Apple até o atendimento automatizado ao cliente.

    Resumindo, a PNL é um meio de treinar computadores para compreender a linguagem humana. Isto não é algo fácil. A linguagem humana é fluida; as palavras mudam com o tempo ou com o contexto. Tomemos, por exemplo, a frase “em poucas palavras”. Pode significar “em poucas palavras” ou “o caroço comestível encontrado dentro do invólucro duro de um tipo de fruta”. Distinguir esses dois significados muito diferentes é fácil para nós, mas pode ser confuso para um computador. As línguas naturais são projetadas para a mente humana – o texto pode ser impreciso e ainda assim o significado é claro. Com linguagens formais – código de computador, por exemplo – todos os caracteres precisam estar em ordem ou tudo sairá do controle. A PNL preenche essa lacuna.

    O trabalho de Radev emprega uma série de técnicas computacionais, incluindo redes neurais artificiais, também conhecidas como aprendizagem profunda. Essencialmente, os computadores aprendem a reconhecer padrões complexos ao serem alimentados com vastas e abrangentes quantidades de dados. Palavras, frases, sintaxe e regras gramaticais recebem valores matemáticos. A ideia não é nova, mas surgiu nas últimas décadas, à medida que o armazenamento digital de dados e o poder de processamento do computador aumentaram dramaticamente. Se você usou o Google Tradutor recentemente e notou um aumento na velocidade e precisão dos resultados, isso ocorre porque a empresa mudou para um sistema de rede neural.

    Alguns argumentam que os computadores não estão realmente aprendendo línguas, uma vez que não estão adquirindo a linguagem da mesma forma que os humanos. As crianças aprendem a falar não examinando enormes coleções de textos, mas interagindo com o mundo ao seu redor por meio de todos os cinco sentidos. A diferença não diz respeito a Radev.

    “Isso não afeta a forma como fazemos pesquisas porque não estamos lidando com humanos”, disse ele. “A forma como ensinamos a linguagem aos computadores não precisa ser a mesma forma como os humanos entendem a linguagem. Quando você constrói um avião, você não diz 'Os pássaros batem as asas, vamos construir aviões que batem as asas'. Não é assim que se faz, pelo menos não na prática. Queremos apenas que eles voem, quer suas asas se movam ou não.”

    Como indicação do nível de interesse por esses assuntos, 132 alunos se inscreveram no curso de PNL de Radev no semestre passado. Anteriormente, ele ensinou PNL para mais de 10.000 alunos em um curso on-line aberto e massivo (MOOC). Neste outono, ele ministra um curso sobre inteligência artificial, o estudo de como ensinar computadores a realizar tarefas que seriam consideradas inteligentes quando humanas as executassem. O curso cobre lógica, aprendizagem e raciocínio. Inclui tarefas desafiadoras que pedem aos alunos que construam sistemas que possam jogar jogos para dois jogadores como Othello e Go, resolver labirintos, simular a condução autônoma de carros, traduzir textos usando redes neurais e aprender interagindo com o ambiente. Esta é hoje a maior turma do departamento de Ciência da Computação, com mais de 200 alunos matriculados neste semestre.

    Com outro projeto, AAN (All About NLP), Radev também está ajudando os interessados ​​em PNL a navegar pelo crescente corpo de pesquisas sobre o assunto. Ele e seus alunos do laboratório LILY (Language, Information, and Learning at Yale) coletaram mais de 25.000 artigos e mais de 3.000 tutoriais, pesquisas, apresentações, bibliotecas de códigos e palestras sobre PNL e linguística computacional. O objetivo final é usar a PNL para gerar automaticamente recursos educacionais para aqueles que os procuram e orientá-los na direção certa. Inclui resumos de artigos únicos, descrições de algoritmos de várias fontes, pesquisas de tópicos de pesquisa e recomendações de usuários para recursos de ensino.

    Ensinando Humor para Computadores

    Os computadores podem descobrir como as galáxias se formaram, analisar quantidades inimagináveis ​​de dados e calcular um número primo com mais de 17 milhões de dígitos. Mas eles podem contar uma piada? Provavelmente não por enquanto, disse Radev, mas ele ainda vai tentar.

    Como parte de um projeto em andamento, Radev tem trabalhado com Robert Mankoff, editor de desenhos animados recentemente aposentado da New Yorker. Especificamente, eles se concentraram no concurso semanal de legendas da revista, no qual os leitores enviam legendas para a ilustração de um cartunista. A legenda julgou as vitórias mais engraçadas.

    Ensinando Humor para Computadores

    Radev está trabalhando com a New Yorker para destilar os milhares de inscrições que recebe para seu concurso semanal de legendas. Cortesia do Nova-iorquino.

    A revista recebe milhares de inscrições todas as semanas de aspirantes a cartunistas. Os editores então separam esses três finalistas, para serem julgados pelos leitores da New Yorker. É um processo árduo que talvez pudesse ser facilitado com a ajuda da PNL. Radev explica que cada concurso inspira múltiplas inscrições baseadas na mesma ideia. Uma ilustração, por exemplo, pode inspirar muitos envios com um jogo de palavras semelhante a respeito de um cavalo parado em um bar. Enquanto isso, um ganso bartender servindo o cavalo na mesma foto gera um lote diferente de piadas intimamente relacionadas.

    Radev, Mankoff e colaboradores da Universidade Columbia e o Yahoo Labs desenvolveram um programa que pretende identificar temas nas legendas enviadas.

    “O objetivo é que os editores não tenham que ler 5 mil artigos por semana”, disse Radev. “Se 100 forem todas a mesma piada, eles poderiam ler apenas uma ou duas. Se a ideia básica for engraçada, eles poderão se aprofundar e escolher ideias específicas. Se não for engraçado, eles podem simplesmente pular todo o grupo.”

    Ramificando-se disso está um projeto no qual os computadores gerariam suas próprias legendas engraçadas. Um obstáculo inicial que encontraram foi que, embora os computadores tenham se tornado muito bons em identificar objetos em fotos, as ilustrações ainda lhes causam muitos problemas. Para contornar isso, ele e seus alunos descreveram as imagens de cerca de 500 desenhos animados em uma linguagem que o programa consegue reconhecer.

    “Agora, pode ser muito mais fácil inventar novas piadas olhando as descrições dos desenhos e as inscrições já feitas – porque esse é um bom ponto de partida”, disse ele. “Poderíamos combinar duas legendas em uma ou modificar uma legenda existente adicionando algumas palavras para torná-la mais engraçada.”

    É um desafio particularmente complicado. Até agora, os computadores superaram os humanos no xadrez, no antigo jogo Go e até no programa de perguntas e respostas Jeopardy. Mas o humor é uma característica exclusivamente humana e Radev não espera que o resultado deixe nenhum cartunista desempregado tão cedo (nem, aliás, ele acha que os tradutores automáticos substituirão seus colegas humanos). “Pode funcionar ou não, mas será muito interessante poder ver se um computador consegue entender os desenhos animados nova-iorquinos e entender as piadas”, disse ele.

    Radev está interessado no que é conhecido como criatividade computacional. É o que permitiria que programas como Watson, Siri e Alexa não apenas fornecessem respostas corretas, mas até mostrassem um pouco de personalidade. Já existem tentativas de tornar nossos dispositivos um pouco mais amigáveis. Siri, por exemplo, ocasionalmente dá algumas risadas gentis: P: “Siri, qual é o sentido da vida?” R: “42” (uma referência ao clássico livro “O Guia do Mochileiro das Galáxias”).

    “Mas realmente não tem senso de humor – isso é pré-programado pelos humanos”, disse Radev. “Seria interessante, no futuro, criar sistemas que realmente possam compreender e gerar textos engraçados.”

    Treinando a próxima geração de linguistas computacionais

    Radev, que cresceu na Bulgária, é fluente em vários idiomas. “Gosto de como as línguas são semelhantes, mas diferentes”, disse ele. “E o fato de existirem regras, mas as regras não serem rígidas, o que torna tudo mais interessante. Não gosto de matemática pura porque as coisas são muito rígidas. As línguas estão em algum lugar bem no meio.”

    Em 2006, Radev co-fundou a Olimpíada Norte-Americana de Linguística Computacional (NACLO), uma competição anual que reúne estudantes do ensino fundamental e médio de todos os EUA. Além de identificar alunos com talento em linguística, também os apresenta ao campo da linguística computacional. .

    NACLO teve mais de 20.000 estudantes participantes. Ao contrário de muitos outros eventos do ensino médio relacionados à ciência da computação, quase 50% dos participantes do NACLO são mulheres. Os principais finalistas competirão na Olimpíada Internacional de Lingüística. O NACLO deste ano (sediado em 200 locais nos EUA, incluindo Yale) enviou oito participantes para a competição internacional em Dublin, em agosto.

    Os participantes do NACLO recebem uma série de problemas retirados de uma variedade de idiomas para resolver, geralmente envolvendo tradução. Alguns exigem métodos linguísticos tradicionais e outros exigem computação para chegar às soluções. Lógica e raciocínio são as únicas habilidades de que os competidores precisam. Radev disse que ele e os outros organizadores reconhecem que a linguística raramente é ensinada nas escolas secundárias, por isso os problemas são definidos de uma forma que não é necessário nenhum conhecimento prévio de línguas ou linguísticas específicas.

    Os problemas geralmente são baseados em linguagens relativamente obscuras. Por exemplo, um conjunto de frases pode ser escrito em Taa — falado por cerca de 2.600 pessoas no Botswana e na Namíbia — cada uma seguida de uma tradução em inglês. Com base nos padrões que puderam deduzir dessas frases, os alunos devem então traduzir o próximo conjunto de frases Taa sem nenhuma tradução em inglês.

    “Usamos gráficos para facilitar a compreensão dos alunos do ensino médio”, disse Radev, que em 2015 foi nomeado Fellow da Association for Computing Machinery, uma das maiores honrarias da ciência da computação. “'Esta é a apresentação semântica desta palavra, desta palavra, daquela palavra', e então você tem que descobrir como esse método funciona e traduzir algumas palavras adicionais nessas apresentações.”

    Treinando a próxima geração de linguistas computacionais

    Desambiguando a palavra “astro” como uma pista de palavras cruzadas.

    Tom McCoy, que se formou em Yale este ano com especialização em linguística, começou a competir na NACLO quando era estudante do ensino médio e morava em Pittsburgh. Ele não sabia nada de linguística computacional na época, mas gostava de quebra-cabeças e decifrar códigos, e sua irmã sugeriu que ele tentasse a competição. Radev foi um de seus treinadores.

    “Ele foi realmente ótimo”, disse McCoy. “Acho que a melhor frase para descrevê-lo é 'uma força da natureza'. Ele simplesmente faz tantas coisas e todas elas muito bem. Ele é um professor/pesquisador muito ativo, mas também consegue dedicar muito tempo à Olimpíada.”

    McCoy se comprometeu a estudar biologia antes de ingressar na NACLO, o que o enviou para um curso diferente. Neste outono, ele ingressou no prestigiado Ph.D. programa em ciências cognitivas na Johns Hopkins com foco em linguística computacional.

    Radev recrutou estudantes para seu laboratório LILY logo após chegar a Yale em janeiro de 2017. Ele rapidamente reuniu uma equipe de estudantes de Yale para trabalhar em um sistema de rede neural para resumir conjuntos de artigos de notícias relacionados. O artigo resultante, cujo primeiro autor é Michihiro Yasunaga, YC'19, foi aceito para apresentação na prestigiada Conferência sobre Aprendizagem de Linguagem Natural Computacional em Vancouver, em agosto. O laboratório LILY (Laboratório de Linguagem, Informação e Aprendizagem em Yale), liderado por Radev, agora inclui seis Ph.D. estudantes e mais de uma dúzia de alunos de graduação de Yale. A equipe LILY está trabalhando em uma série de novos artigos sobre geração de pesquisas, compreensão de documentos médicos, recuperação de informações multilíngues e sistemas de diálogo.

    Colaborações

    A PNL é um campo de estudo que se presta bem a colaborações interdisciplinares, e Radev não perdeu tempo. Mesmo antes de chegar a Yale, em janeiro, Radev estava em contato com vários membros do corpo docente de outras áreas para estabelecer colaborações, incluindo as da faculdade de medicina, das humanidades e dos programas de ciências sociais.

    “Há uma consciência geral agora de que o processamento de linguagem natural e essas outras ferramentas podem ser úteis para essas outras áreas”, disse ele. “Há dez anos, muitas pessoas de outras áreas nem sabiam que era possível fazer esse tipo de trabalho. Se colaborarmos com pessoas da ciência política ou da medicina, elas tiram proveito disso, porque agora podem analisar dados de uma forma que não conseguiam antes. E o pessoal da ciência da computação tira proveito disso com conjuntos de dados interessantes para trabalhar em suas teorias.”

    Os cientistas políticos poderiam usar a tecnologia, por exemplo, para analisar o discurso e os textos dos governantes eleitos. Uma análise objectiva das estratégias e da retórica num debate, por exemplo, poderia ajudar a discernir se um candidato apelou ao nacionalismo ou às preocupações com a economia. Com que frequência os xingamentos foram usados ​​como tática de debate? Lincoln Swaine-Moore, um dos alunos de Radev, analisou as conexões do último semestre entre o discurso dos funcionários e os colaboradores de suas campanhas.

    “Por exemplo, se um senador obtiver uma determinada quantia de financiamento da indústria farmacêutica, isso significa que falará mais sobre questões farmacêuticas nos seus discursos?”

    As áreas da saúde e da medicina também se beneficiam muito do processamento de linguagem natural.

    “Outra possibilidade é verificar se há algum preconceito nas cartas de recomendação às faculdades de medicina”, disse. “Existem estudos que mostram que as mulheres que se candidatam a determinados empregos são tratadas de forma diferente. As pessoas os interrompem com mais frequência ou percebem uma determinada característica da pessoa de forma negativa – podem usar a palavra ‘fogo’, enquanto um homem seria descrito com uma palavra mais gentil.”

    Ele também conversou com Harlan Krumholz, professor da Escola de Medicina de Yale, sobre possíveis colaborações. Krumholz, professor de medicina Harold H. Hines Jr., diretor do Yale Open Data Access Project e codiretor do Yale Center for Research Computing, disse que notas de enfermeiras, relatórios de radiologia e muitos outros documentos criaram uma montanha de dados não estruturados em medicina. A experiência de Radev poderia ajudar a entender tudo isso. Como exemplo, ele aponta formulários que obrigam os pacientes a classificar seus sintomas em uma escala de 1 a 5.

    “Damos a eles cinco opções, mas a verdade é que eles precisam me contar uma história para que eu entenda como se sentem”, disse Krumholz. “O Santo Graal é descobrir como pegar nos dados em grande parte indisciplinados que existem em toda a medicina e transformá-los em algo que possa desencadear novos conhecimentos e percepções e melhores cuidados.”

    Fazer isso significa afastar-se de um sistema que exige que as pessoas falem e pensem como computadores. Em vez disso, disse ele, precisamos de computadores para obter insights sobre a maneira como as pessoas se comunicam naturalmente. É uma ambição que, há pouco tempo, poderia parecer fora de alcance. Com o trabalho de pessoas como Radev, isso está começando a acontecer.

    “É por isso que imediatamente pensei que ele seria uma ótima adição aqui e procurei maneiras de trabalhar com ele”, disse Krumholz. “Ele é uma adição espetacular ao nosso corpo docente e nos dá mais conhecimentos de classe mundial. Quando alguém assim chega ao campus, você é imediatamente levado a tentar ver se há oportunidades de colaboração.”

    Deixe Uma Resposta