Por favor, avalie esta postagem

    0 / 7

    Your page rank:

    GROVER, um novo modelo de linguagem grande treinado em DNA humano por pesquisadores do Centro de Biotecnologia da Universidade de Tecnologia de Dresden, pode decodificar informações genômicas complexas ao tratar o DNA como uma linguagem. Esta ferramenta inovadora tem o potencial de revolucionar a genômica e acelerar a medicina personalizada.

    ADN é crucial para a vida, e sua organização tem sido um desafio científico significativo. GROVER, um modelo desenvolvido pela BIOTEC, decodifica o DNA como texto, prometendo avanços em genômica e medicina personalizada.

    O DNA contém as informações essenciais necessárias para sustentar a vida. Decifrar como essas informações são armazenadas e organizadas tem sido um dos maiores desafios científicos do século passado. Agora, com GROVER, um novo modelo de linguagem grande treinado em DNA humano, os pesquisadores podem tentar decodificar as informações intrincadas ocultas em nosso genoma. Desenvolvido por uma equipe do Centro de Biotecnologia (BIOTEC) da Universidade de Tecnologia de Dresden, GROVER trata o DNA humano como texto, aprendendo suas regras e contexto para extrair informações funcionais sobre sequências de DNA. Publicado em Natureza Máquina Inteligênciaesta ferramenta inovadora tem o potencial de revolucionar a genômica e acelerar a medicina personalizada.

    Desde a descoberta da dupla hélice, os cientistas têm buscado entender as informações codificadas no DNA. 70 anos depois, está claro que as informações escondidas no DNA são multicamadas. Apenas 1-2% do genoma consiste em genes, as sequências que codificam proteínas.

    “O DNA tem muitas funções além da codificação de proteínas. Algumas sequências regulam genes, outras servem a propósitos estruturais e a maioria das sequências serve a múltiplas funções ao mesmo tempo. Atualmente, não entendemos o significado da maior parte do DNA. Quando se trata de entender as regiões não codificadoras do DNA, parece que apenas começamos a arranhar a superfície. É aqui que a IA e os grandes modelos de linguagem podem ajudar”, diz a Dra. Anna Poetsch, líder do grupo de pesquisa no BIOTEC.

    DNA como uma linguagem

    Grandes modelos de linguagem, como GPT, transformaram nossa compreensão da linguagem. Treinados exclusivamente em texto, os grandes modelos de linguagem desenvolveram a habilidade de usar a linguagem em muitos contextos.

    “O DNA é o código da vida. Por que não tratá-lo como uma linguagem?”, diz o Dr. Poetsch. A equipe Poetsch treinou um grande modelo de linguagem em um genoma humano de referência. A ferramenta resultante chamada GROVER, ou “Regras do Genoma Obtidas via Representações Extraídas”, pode ser usada para extrair significado biológico do DNA.

    “GROVER aprendeu as regras do DNA. Em termos de linguagem, estamos falando sobre gramática, sintaxe e semântica. Para o DNA, isso significa aprender as regras que governam as sequências, a ordem dos nucleotídeos e sequências, e o significado das sequências. Como os modelos GPT aprendendo línguas humanas, GROVER basicamente aprendeu como 'falar' DNA”, explica a Dra. Melissa Sanabria, a pesquisadora por trás do projeto.

    A equipe mostrou que GROVER não só pode prever com precisão as seguintes sequências de DNA, mas também pode ser usado para extrair informações contextuais que têm significado biológico, por exemplo, identificar promotores de genes ou sítios de ligação de proteínas no DNA. GROVER também aprende processos que são geralmente considerados “epigenéticos”, ou seja, processos regulatórios que acontecem no topo do DNA em vez de serem codificados.

    “É fascinante que, ao treinar GROVER apenas com a sequência de DNA, sem nenhuma anotação de funções, somos realmente capazes de extrair informações sobre a função biológica. Para nós, isso mostra que a função, incluindo algumas das informações epigenéticas, também é codificada na sequência”, diz o Dr. Sanabria.

    O dicionário de DNA

    “O DNA se assemelha à linguagem. Ele tem quatro letras que constroem sequências e as sequências carregam um significado. No entanto, diferentemente de uma linguagem, o DNA não tem palavras definidas”, diz o Dr. Poetsch. O DNA consiste em quatro letras (A, T, G e C) e genes, mas não há sequências predefinidas de diferentes comprimentos que se combinam para construir genes ou outras sequências significativas.

    Para treinar GROVER, a equipe teve que primeiro criar um dicionário de DNA. Eles usaram um truque de algoritmos de compressão. “Esta etapa é crucial e diferencia nosso modelo de linguagem de DNA das tentativas anteriores”, diz o Dr. Poetsch.

    “Analisamos todo o genoma e procuramos combinações de letras que ocorrem com mais frequência. Começamos com duas letras e revisamos o DNA, repetidamente, para construí-lo até as combinações de múltiplas letras mais comuns. Dessa forma, em cerca de 600 ciclos, fragmentamos o DNA em 'palavras' que permitem que GROVER tenha o melhor desempenho quando se trata de prever a próxima sequência”, explica o Dr. Sanabria.

    A promessa da IA ​​na genômica

    GROVER promete desbloquear as diferentes camadas do código genético. O DNA contém informações-chave sobre o que nos torna humanos, nossas predisposições a doenças e nossas respostas a tratamentos.

    “Acreditamos que entender as regras do DNA por meio de um modelo de linguagem nos ajudará a descobrir as profundezas do significado biológico oculto no DNA, avançando tanto a genômica quanto a medicina personalizada”, diz o Dr. Poetsch.

    Referência: “Modelo de linguagem de DNA GROVER aprende contexto de sequência no genoma humano” por Melissa Sanabria, Jonas Hirsch, Pierre M. Joubert e Anna R. Poetsch, 23 de julho de 2024, Natureza Máquina Inteligência.
    DOI: 10.1038/s42256-024-00872-0

    Deixe Uma Resposta