Por favor, avalie esta postagem

    0 / 7

    Your page rank:

    Os roboticistas estão desenvolvendo robôs automatizados que podem aprender novas tarefas apenas observando humanos. Em casa, algum dia você poderá mostrar a um robô doméstico como realizar tarefas rotineiras. Crédito: Christine Daniloff, MIT

    Ao observar os humanos, os robôs aprendem a realizar tarefas complexas, como pôr uma mesa.

    Treinar robôs interativos pode um dia ser uma tarefa fácil para todos, mesmo para aqueles sem experiência em programação. Os roboticistas estão desenvolvendo robôs automatizados que podem aprender novas tarefas apenas observando humanos. Em casa, algum dia você poderá mostrar a um robô doméstico como realizar tarefas rotineiras. No local de trabalho, você poderia treinar robôs como novos funcionários, mostrando-lhes como realizar diversas tarefas.

    Progredindo nessa visão, MIT pesquisadores projetaram um sistema que permite que esses tipos de robôs aprendam tarefas complicadas que, de outra forma, os impediriam com muitas regras confusas. Uma dessas tarefas é preparar uma mesa de jantar sob certas condições.

    Em sua essência, o sistema “Planejamento com Especificações Incertas” (PUnS) dos pesquisadores dá aos robôs a capacidade de planejamento humana para pesar simultaneamente muitos requisitos ambíguos – e potencialmente contraditórios – para alcançar um objetivo final. Ao fazê-lo, o sistema escolhe sempre a acção mais provável a tomar, com base numa “crença” sobre algumas especificações prováveis ​​para a tarefa que é suposto executar.

    Em seu trabalho, os pesquisadores compilaram um conjunto de dados com informações sobre como oito objetos – uma caneca, um copo, uma colher, um garfo, uma faca, um prato, um prato pequeno e uma tigela – poderiam ser colocados sobre uma mesa em várias configurações. Um braço robótico observou pela primeira vez demonstrações humanas selecionadas aleatoriamente de como colocar a mesa com os objetos. Em seguida, os pesquisadores encarregaram o braço de configurar automaticamente uma mesa em uma configuração específica, em experimentos do mundo real e em simulação, com base no que tinha visto.

    Para ter sucesso, o robô teve que pesar muitas ordens de posicionamento possíveis, mesmo quando os itens foram removidos, empilhados ou escondidos propositalmente. Normalmente, tudo isso confundiria demais os robôs. Mas o robô dos pesquisadores não cometeu erros em vários experimentos do mundo real, e apenas alguns erros em dezenas de milhares de testes simulados.

    “A visão é colocar a programação nas mãos de especialistas no domínio, que podem programar robôs de maneiras intuitivas, em vez de descrever ordens a um engenheiro para adicioná-las ao seu código”, diz o primeiro autor, Ankit Shah, estudante de pós-graduação no Departamento de Aeronáutica. e Astronáutica (AeroAstro) e o Grupo de Robótica Interativa, que enfatiza que seu trabalho é apenas um passo no cumprimento dessa visão. “Dessa forma, os robôs não terão mais que realizar tarefas pré-programadas. Os trabalhadores da fábrica podem ensinar um robô a realizar múltiplas tarefas complexas de montagem. Os robôs domésticos podem aprender como empilhar armários, carregar a máquina de lavar louça ou pôr a mesa com as pessoas em casa.”

    Juntando-se a Shah no artigo estão Shen Li, estudante de pós-graduação do AeroAstro e do Interactive Robotics Group, e Julie Shah, líder do Interactive Robotics Group, professora associada do AeroAstro e do Laboratório de Ciência da Computação e Inteligência Artificial.

    Bots protegendo apostas

    Os robôs são planejadores precisos em tarefas com “especificações” claras que ajudam a descrever a tarefa que o robô precisa cumprir, considerando suas ações, ambiente e objetivo final. Aprender a pôr uma mesa observando demonstrações é cheio de especificações incertas. Os itens devem ser colocados em determinados locais, dependendo do cardápio e do local onde os convidados estão sentados, e em determinadas ordens, dependendo da disponibilidade imediata do item ou das convenções sociais. As actuais abordagens ao planeamento não são capazes de lidar com especificações tão incertas.

    Uma abordagem popular de planejamento é o “aprendizado por reforço”, uma técnica de aprendizado de máquina por tentativa e erro que os recompensa e penaliza por ações enquanto trabalham para concluir uma tarefa. Mas para tarefas com especificações incertas, é difícil definir recompensas e penalidades claras. Em suma, os robôs nunca aprendem totalmente o certo e o errado.

    O sistema dos pesquisadores, chamado PUnS (para Planejamento com Especificações Incertas), permite que um robô mantenha uma “crença” sobre uma gama de especificações possíveis. A própria crença pode então ser usada para distribuir recompensas e penalidades. “O robô está essencialmente protegendo suas apostas em termos do que se pretende em uma tarefa e realizando ações que satisfaçam sua crença, em vez de fornecermos a ele uma especificação clara”, diz Ankit Shah.

    O sistema é construído sobre “lógica temporal linear” (LTL), uma linguagem expressiva que permite o raciocínio robótico sobre resultados atuais e futuros. Os pesquisadores definiram modelos em LTL que modelam várias condições baseadas no tempo, como o que deve acontecer agora, deve acontecer eventualmente e deve acontecer até que algo mais ocorra. As observações do robô de 30 demonstrações humanas para preparar a mesa produziram uma distribuição de probabilidade em 25 fórmulas LTL diferentes. Cada fórmula codificava uma preferência – ou especificação – ligeiramente diferente para definir a tabela. Essa distribuição de probabilidade se torna sua crença.

    “Cada fórmula codifica algo diferente, mas quando o robô considera várias combinações de todos os modelos e tenta satisfazer tudo junto, acaba fazendo a coisa certa”, diz Ankit Shah.

    Seguindo critérios

    Os pesquisadores também desenvolveram vários critérios que orientam o robô no sentido de satisfazer toda a crença sobre essas fórmulas candidatas. Um, por exemplo, satisfaz a fórmula mais provável, que descarta todo o resto, exceto o modelo com maior probabilidade. Outros satisfazem o maior número de fórmulas únicas, sem considerar a sua probabilidade global, ou satisfazem várias fórmulas que representam a probabilidade total mais elevada. Outra simplesmente minimiza o erro, de modo que o sistema ignora fórmulas com alta probabilidade de falha.

    Os designers podem escolher qualquer um dos quatro critérios para predefinir antes do treinamento e do teste. Cada um tem o seu próprio compromisso entre flexibilidade e aversão ao risco. A escolha dos critérios depende inteiramente da tarefa. Em situações críticas de segurança, por exemplo, um projetista pode optar por limitar a possibilidade de falha. Mas onde as consequências da falha não são tão graves, os projetistas podem optar por dar aos robôs maior flexibilidade para tentar abordagens diferentes.

    Com os critérios definidos, os pesquisadores desenvolveram um algoritmo para converter a crença do robô – a distribuição de probabilidade apontando para a fórmula desejada – em um problema de aprendizagem por reforço equivalente. Este modelo enviará um ping ao robô com uma recompensa ou penalidade por uma ação realizada, com base na especificação que ele decidiu seguir.

    Em simulações pedindo ao robô para colocar a mesa em diferentes configurações, ele cometeu apenas seis erros em 20 mil tentativas. Em demonstrações do mundo real, mostrou um comportamento semelhante ao modo como um humano executaria a tarefa. Se um item não estivesse inicialmente visível, por exemplo, o robô terminaria de preparar o resto da mesa sem o item. Então, quando o garfo fosse revelado, ele o colocaria no lugar apropriado. “É aí que a flexibilidade é muito importante”, diz Ankit Shah. “Caso contrário, ele ficaria preso ao esperar colocar um garfo e não terminaria o resto da configuração da mesa.”

    Em seguida, os pesquisadores esperam modificar o sistema para ajudar os robôs a mudar seu comportamento com base em instruções verbais, correções ou na avaliação do usuário sobre o desempenho do robô. “Digamos que uma pessoa demonstre a um robô como colocar uma mesa em apenas um lugar. A pessoa pode dizer: 'faça a mesma coisa para todos os outros pontos' ou 'coloque a faca antes do garfo aqui'”, diz Ankit Shah. “Queremos desenvolver métodos para que o sistema se adapte naturalmente para lidar com esses comandos verbais, sem precisar de demonstrações adicionais.”

    Referências:

    “Planejamento com especificações incertas (PUnS)” por Ankit Shah, Shen Li e Julie Shah, 28 de fevereiro de 2020, IEEE.
    DOI: 10.1109/LRA.2020.2977217

    “Inferência bayesiana de especificações de tarefas temporais a partir de demonstrações” por Ankit Shah, Pritish Kamath, Julie A. Shah e Shen Li, Advances in Neural Information Processing Systems 31 (NIPS 2018), Processos NIPSβ.

    Deixe Uma Resposta