Um robô funciona de maneira bem diferente de um cachorro biológico; tem motores em vez de músculos e, em geral, é muito mais rígido. Mas, graças a este trabalho de tradução, Laikago aprendeu a se mover como um canino da vida real. Além disso, sua marcha aprendida é mais rápida que a marcha mais rápida fornecida pelo fabricante do robô - embora, para ser justo, ainda não seja tão estável. O novo sistema pode ser o primeiro passo (desculpe) para robôs que aprendem a se mover não graças à codificação exaustiva, mas assistindo a vídeos de animais correndo e pulando.

"A desvantagem do tipo de abordagem manual é que não é realmente escalável para todas as habilidades que queremos que um robô execute", diz o pesquisador da IA ​​Jason Peng, principal autor de um novo artigo que descreve o sistema. "Precisamos de longas horas de engenharia para apresentar as diferentes estratégias".

Com essa nova abordagem, os algoritmos de aprendizado por reforço executam grande parte desse trabalho. Embora os dois sejam quadrúpedes, o corpo do robô é bem diferente do corpo do cachorro. Portanto, nas simulações de computador, a versão digital do robô precisa descobrir como imitar o movimento da versão digital do cachorro, sem copiar diretamente seu mecânica. “Então, o que o algoritmo de aprendizado por reforço faz é tentar encontrar uma maneira que permita ao robô estar o mais próximo possível do movimento de referência original”, diz Peng.

A imagem pode conter: Guindaste de construção

O Guia WIRED para Robôs

Tudo o que você queria saber sobre autômatos macios, duros e não-assassinos.

O algoritmo tenta movimentos aleatórios e recebe uma "recompensa" digital se se aproximar do movimento de referência do cão - basicamente uma mensagem positiva que diz isso foi bom, faça esse tipo de coisa novamente. Se tentar algo que não é tão quente, obtém um "demérito" digital -não faça esse tipo de coisa novamente. Com esse sistema de recompensa, durante muitas iterações, o robô simulado aprende a se mover como o cachorro.

O próximo desafio é conhecido como sim-to-real; isto é, pegar o que o sistema aprendeu em simulação e fazê-lo funcionar em um robô físico. Isso é complicado porque uma simulação é uma versão imperfeita e altamente simplificada do mundo real. Massa e atrito são representados com a maior precisão possível, mas não perfeitamente. As ações do robô simulado no mundo digital não mapeiam precisamente os movimentos do robô real no laboratório.

Cortesia do Google

Portanto, Peng e seus colegas construíram não uma simulação definitiva de robô, mas uma gama de possibilidades para o comportamento do robô. Eles randomizaram o atrito na simulação, por exemplo, e ajustaram a latência entre quando você envia um comando ao robô e quando ele realmente executa a ordem. "A idéia é que, se treinarmos a simulação com diversidade suficiente, ela poderá aprender um conjunto de estratégias suficientemente bom, de modo que uma dessas estratégias funcione no mundo real", diz Peng.