Pesquisadores divulgam nova técnica para tornar mais rápido o aprendizado de robôs de redes neurais

Equipe foi capaz de ensinar uma garra robótica a manipular objetos sem ter que treiná-la explicitamente para reconhecer os objetos primeiro

4:30 pm - 04 de outubro de 2021

Pesquisadores da Universidade de Washington e da Nvidia divulgaram uma nova técnica que promete acelerar o processo de aprendizagem dos robôs movidos por redes neurais, que dependem de várias demonstrações de uma mesma tarefa na simulação antes de começar a executar as ações na prática.

De acordo com informações do site The Register, os pesquisadores da Universidade de Washington e da Nvidia estão usando um sistema conhecido como “CLIPort“. Com a nova técnica, a equipe foi capaz de ensinar um agarrador de robô como manipular objetos sem ter que treiná-lo explicitamente para reconhecer os objetos primeiro.

Esse processo costuma ser lento. Para ensinar os robôs movidos a redes neurais a reconhecer e manipular objetos é necessário um longo período de coleta até que reconheçam os objetos e façam o movimento com precisão.

“Apresentamos o CLIPort, um agente de aprendizagem de imitação condicionado à linguagem que combina o amplo entendimento semântico (o quê) do CLIP com a precisão espacial (onde) do Transporter”, de acordo com o artigo da equipe no arXiv.

“Nossa estrutura de ponta a ponta é capaz de resolver uma variedade de tarefas de mesa especificadas por linguagem, desde empacotar objetos invisíveis até dobrar panos, tudo sem nenhuma representação explícita de poses de objeto, segmentações de instância, memória, estados simbólicos ou estruturas sintáticas”.

O novo sistema significa que robôs baseados em CLIPort podem ser ajustados em novas tarefas com “muito poucos dados”, dizem os pesquisadores.

O modelo é composto de duas partes, segundo a publicação: CLIP, uma rede neural desenvolvida pela OpenAI treinada em imagens e textos extraídos da internet, e uma rede transportadora para classificar pixels e detectar relações espaciais entre objetos.

Uma vez que o CLIP já está pré-treinado para identificar objetos e descrevê-los em texto, os pesquisadores podem dar instruções ao robô em texto e ele identificará automaticamente a que se referem, diz a publicação.

“Ao contrário dos detectores de objetos existentes, o CLIP não se limita a um conjunto predefinido de classes de objetos”, disse Mohit Shridhar, primeiro autor do artigo e aluno de doutorado na Universidade de Washington, ao The Register.

“E, ao contrário de outros modelos de linguagem de visão, não é restrito por um pipeline de cima para baixo que detecta objetos com caixas delimitadoras ou segmentações de instância. Isso nos permite abrir mão do paradigma tradicional de treinamento de detectores explícitos para panos, alicates, quadrados de tabuleiro de xadrez, hastes de cereja e outras coisas arbitrárias”.

Segundo Shridhar, existem outros sistemas semelhantes que usam classificadores de imagem pré-treinados como CLIP, mas eles não são treinados com tantos tipos de objetos.

O robô pode empilhar uma série de blocos em uma ordem de cor específica no treinamento e aprender a realizar a mesma tarefa em blocos de cores diferentes que nunca viu antes. No entanto, ele ainda requer mais de uma centena de demonstrações em vídeo antes de ser capaz de fazer algo com bastante sucesso.

“Os recursos do CLIPort são limitados apenas às ações mostradas durante as demonstrações de treinamento. Se ele for treinado para ‘empilhar dois blocos’ e você pedir ‘fazer uma torre de 5 blocos’, ele não saberá como fazê-lo. Todos os verbos também estão intimamente ligados às demonstrações de treinamento, no sentido de que não farão nada além das habilidades de ação aprendidas durante o treinamento”, acrescentou Shridhar.

O CLIPort é projetado especificamente para manter os humanos no circuito, adicionou o pesquisador. Dessa forma, o robô aprenderá com demonstrações e a partir de comandos, de um especialista humano, durante a execução.

Com informações de The Register

Tags: