KAIST (presidente Kwang Hyung Lee) anunciou no dia 25 que uma equipe de pesquisa liderada pelo professor Jemin Hwangbo, do Departamento de Engenharia Mecânica, desenvolveu uma tecnologia de controle de robô quadrúpede que pode andar robustamente com agilidade, mesmo em terrenos deformáveis, como praias arenosas.
A equipe de pesquisa do professor Hwangbo desenvolveu uma tecnologia para modelar a força recebida por um robô ambulante no chão feito de materiais granulares como areia e simulá-la por meio de um robô quadrúpede. Ademais, a equipe trabalhou em uma estrutura de rede neural artificial que é adequada para tomar decisões em tempo real necessárias para se adaptar a vários tipos de terreno sem informações prévias enquanto caminha ao mesmo tempo e aplicou-a ao aprendizado por reforço. Espera-se que o controlador de rede neural treinado expanda o escopo de aplicação de robôs quadrúpedes, provando sua robustez na mudança de terreno, como a capacidade de se mover em alta velocidade mesmo em uma praia arenosa e caminhar e girar em solos macios como um ar colchão sem perder o equilíbrio.
Esta pesquisa, com Ph.D. O aluno Soo-Young Choi do Departamento de Engenharia Mecânica da KAIST como primeiro autor, foi publicado em janeiro no Ciência Robótica. (Título do artigo: Aprendendo locomoção quadrúpede em terreno deformável).
O aprendizado por reforço é um método de aprendizado de IA usado para criar uma máquina que coleta dados sobre os resultados de várias ações em uma situação arbitrária e utiliza esse conjunto de dados para executar uma tarefa. Como a quantidade de dados necessária para o aprendizado por reforço é tão vasta, um método de coleta de dados por meio de simulações que aproxima os fenômenos físicos no ambiente real é amplamente utilizado.
Em particular, controladores baseados em aprendizado no campo de robôs ambulantes foram aplicados a ambientes reais após o aprendizado por meio de dados coletados em simulações para executar com sucesso controles de caminhada em vários terrenos.
No entanto, como o desempenho do controlador baseado em aprendizado diminui rapidamente quando o ambiente real apresenta alguma discrepância do ambiente de simulação aprendido, é importante implementar um ambiente semelhante ao real na etapa de coleta de dados. Portanto, para criar um controlador baseado em aprendizado que possa manter o equilíbrio em um terreno deformado, o simulador deve fornecer uma experiência de contato semelhante.
A equipe de pesquisa definiu um modelo de contato que previu a força gerada no contato a partir da dinâmica de movimento de um corpo caminhando com base em um modelo de força de reação do solo que considerou o efeito de massa adicional de meios granulares definidos em estudos anteriores.
Ademais, ao calcular a força gerada a partir de um ou vários contatos em cada intervalo de tempo, o terreno deformado foi simulado com eficiência.
A equipe de pesquisa também introduziu uma estrutura de rede neural artificial que prevê implicitamente as características do solo usando uma rede neural recorrente que analisa dados de séries temporais dos sensores do robô.
O controlador aprendido foi montado no robô ‘RaiBo’, que foi construído manualmente pela equipe de pesquisa para mostrar uma caminhada em alta velocidade de até 3,03 m/s em uma praia arenosa onde os pés do robô estavam completamente submersos na areia. Mesmo quando aplicado em terrenos mais duros, como campos gramados e uma pista de corrida, ele foi capaz de funcionar de forma estável, adaptando-se às características do solo sem qualquer programação adicional ou revisão do algoritmo de controle.
Ademais, ele girou com estabilidade a 1,54 rad/s (aproximadamente 90° por segundo) em um colchão de ar e demonstrou sua rápida adaptabilidade mesmo na situação em que o terreno repentinamente tornou-se macio.
A equipe de pesquisa demonstrou a importância de fornecer uma experiência de contato adequada durante o processo de aprendizagem em comparação com um controlador que assumiu o solo rígido e provou que a rede neural recorrente proposta modifica o método de caminhada do controlador de acordo com as propriedades do solo.
Espera-se que a metodologia de simulação e aprendizado desenvolvida pela equipe de pesquisa contribua para que os robôs realizem tarefas práticas, pois expande a gama de terrenos em que vários robôs ambulantes podem operar.
O primeiro autor, Suyoung Choi, disse: “Foi demonstrado que fornecer um controlador baseado em aprendizado com uma experiência de contato próximo com o solo deformante real é essencial para a aplicação em terrenos deformantes”. Ele acrescentou que “o controlador proposto pode ser usado sem informações prévias sobre o terreno, portanto pode ser aplicado a vários estudos de caminhada de robôs”.
Esta pesquisa foi realizada com o apoio do Samsung Research Funding & Incubation Center da Samsung Electronics.
Com informações de Science Daily.