Revista Quanta
1º de fevereiro de 2023
Jeffrey Fisher para a revista Quanta
Escritor Colaborador
1º de fevereiro de 2023
Imagine que seu vizinho ligue para pedir um favor: você poderia alimentar seu coelho de estimação com algumas fatias de cenoura? Fácil o suficiente, você pensaria. Você pode imaginar a cozinha deles, mesmo que nunca tenha estado lá - cenouras na geladeira, uma gaveta com várias facas. É um conhecimento abstrato: você não sabe exatamente como são as cenouras e facas do seu vizinho, mas não levará uma colher a um pepino.
Os programas de inteligência artificial não podem competir. O que parece uma tarefa fácil para você é um grande empreendimento para os algoritmos atuais.
Um robô treinado em IA pode encontrar uma faca e uma cenoura especificadas escondidas em uma cozinha familiar, mas em uma cozinha diferente não terá as habilidades abstratas para ter sucesso. "Eles não se generalizam para novos ambientes", disse Victor Zhong, aluno de pós-graduação em ciência da computação da Universidade de Washington. A máquina falha porque simplesmente há muito para aprender e um espaço muito vasto para explorar.
O problema é que esses robôs – e agentes de IA em geral – não têm uma base de conceitos para construir. Eles não sabem o que é uma faca ou uma cenoura, muito menos como abrir uma gaveta, escolher uma e cortar fatias. Essa limitação se deve em parte ao fato de que muitos sistemas avançados de IA são treinados com um método chamado aprendizado por reforço, que é essencialmente autodidata por meio de tentativa e erro. Agentes de IA treinados com aprendizado por reforço podem executar muito bem o trabalho para o qual foram treinados, no ambiente em que foram treinados. Mas mude o trabalho ou o ambiente e esses sistemas geralmente falharão.
Para contornar essa limitação, os cientistas da computação começaram a ensinar conceitos importantes às máquinas antes de liberá-los. É como ler um manual antes de usar um novo software: você pode tentar explorar sem ele, mas aprenderá muito mais rápido com ele. "Os seres humanos aprendem por meio de uma combinação de fazer e ler", disse Karthik Narasimhan, cientista da computação da Universidade de Princeton. "Queremos que as máquinas façam o mesmo."
O novo trabalho de Zhong e outros mostra que preparar um modelo de aprendizado dessa maneira pode sobrecarregar o aprendizado em ambientes simulados, tanto online quanto no mundo real com robôs. E isso não apenas faz com que os algoritmos aprendam mais rápido, mas também os guia para habilidades que, de outra forma, nunca aprenderiam. Os pesquisadores querem que esses agentes se tornem generalistas, capazes de aprender qualquer coisa, desde xadrez até compras e limpeza. E à medida que as demonstrações se tornam mais práticas, os cientistas acham que essa abordagem pode até mudar a forma como os humanos podem interagir com os robôs.
"Tem sido um grande avanço", disse Brian Ichter, cientista pesquisador em robótica do Google. "É inimaginável o quão longe ele chegou em um ano e meio."
À primeira vista, o aprendizado de máquina já foi notavelmente bem-sucedido. A maioria dos modelos normalmente usa aprendizado por reforço, onde os algoritmos aprendem obtendo recompensas. Eles começam totalmente ignorantes, mas tentativa e erro eventualmente se tornam tentativa e triunfo. Agentes de aprendizado por reforço podem facilmente dominar jogos simples.
Considere o videogame Snake, no qual os jogadores controlam uma cobra que cresce mais à medida que come maçãs digitais. Você quer que sua cobra coma mais maçãs, fique dentro dos limites e evite colidir com seu corpo cada vez mais volumoso. Esses resultados claros de certo e errado fornecem um feedback positivo bem recompensado do agente da máquina, de modo que tentativas suficientes podem levá-lo de "noob" a High Score.
Mas suponha que as regras mudem. Talvez o mesmo agente deva jogar em uma grade maior e em três dimensões. Enquanto um jogador humano pode se adaptar rapidamente, a máquina não pode, por causa de duas fraquezas críticas. Primeiro, o espaço maior significa que leva mais tempo para a cobra tropeçar nas maçãs, e o aprendizado diminui exponencialmente quando as recompensas se tornam escassas. Em segundo lugar, a nova dimensão fornece uma experiência totalmente nova, e o aprendizado por reforço se esforça para generalizar a novos desafios.