Modelos de inteligência artificial já podem aprender sem ajuda de cérebros humanos

O mais importante nessa descoberta é que os algoritmos criados pela IA são melhores que os criados pelos melhores times de cientistas

Por Fernando Reinach – Estadão – 02/01/2026

Cientistas do laboratório de IA da Google, em Londres, publicaram uma descoberta que é um avanço importante no objetivo de tornar os modelos de inteligência artificial independentes de cérebros humanos. Parece complicado, mas é fácil de explicar.

Tudo gira em torno de um processo chamado aprendizado por reforço. Esse é um processo usado por todos os seres vivos para aprender interagindo com o ambiente. Você já deve ter visto aqueles filmes em que um leão se aproxima agachado de uma gazela. Ele fica quieto e vai diminuindo a distância até que em um momento preciso ele pula e corre em direção à presa. Algumas vezes ele não alcança, em outras parece moleza e a refeição está garantida.

A questão é como o leão decide o momento e a distância exata em que as chances de capturar a presa são ideais. Se ele se aproximar muito antes de dar o bote, a presa percebe e foge. Já se ele der o bote de muito longe, seguramente a presa escapa. Se houvesse uma escola para leões, o professor explicaria o tempo de resposta da gazela, sua aceleração e velocidade máxima, a velocidade e aceleração do leão, e através de algumas equações ensinaria ao leão a distância ideal. Mas não existem escolas para leões e sabemos que eles aprendem usando o aprendizado por reforço.

Funciona assim: um jovem leão tenta caçar por tentativa e erro. Se ele pula muito cedo perde a caça e não ganha o prêmio (a comida). Se pular muito tarde também perde o prêmio. E assim, por tentativa e erro, sempre recompensado quando acerta e punido (fica sem comida) quando erra, ele acaba aprendendo utilizando o método do aprendizado por reforço. Os humanos usam esse método o tempo todo, basta observar uma criança aprendendo a andar.

Para você

No aprendizado por reforço, um agente (o leão) decide a ação que vai tomar (pular), testando diferentes possibilidades e sendo punido ou recompensado de acordo com uma regra (a captura da presa). Após inúmeros erros e acertos, ele acaba aprendendo.

Agora, vamos ver como o aprendizado por reforço funciona em um sistema de IA. Imagine que eu esteja desenvolvendo um sistema de IA para o Waze achar o caminho mais rápido entre dois pontos na cidade de São Paulo. E ele deve aprender usando o aprendizado por reforço.

Aliás, foi esse o método usado para desenvolver os sistemas que jogam xadrez. O agente (um carro imaginário) tenta chegar do ponto A ao ponto B na cidade seguindo o mapa das ruas (a ação). Mas ele vai se locomover ao acaso e dificilmente chegará ao destino se o programador não definir como o agente vai ser punido ou recompensado dependendo do seu sucesso.

O sistema mais simples de punir e recompensar é dar nota dez se chegar e zero se não chegar. Dá para ver que esse sistema de premiação não ajuda muito. É preciso criar regras mais precisas para premiar e punir. Por exemplo, posso dar pontos se o carro for na direção certa e retirar pontos se o carro for na direção errada. Posso punir o uso de contramão e premiar o uso de avenidas. E assim por diante. Todas essas regras são chamadas do algoritmo que norteia o aprendizado por reforço. Quanto melhor o algoritmo, mais rápido o treinamento, e melhor o resultado da aprendizagem.

Ao contrário do que acontece com o leão, onde o algoritmo de punição e recompensa já está no cérebro do animal tendo sido selecionado durante milhões de anos, nos sistemas de IA esses algoritmos, como o descrito para treinar o Waze, são sempre criados por seres humanos que vão aperfeiçoando as regras que permitem a punição e a recompensa. Até agora, nenhum sistema da IA conseguia descobrir a melhor regra sozinho. Esses algoritmos dependiam de um grupo de cérebros humanos para serem criados.

A novidade impressionante é que esses cientistas da Google descobriram um método que permite aos sistemas de IA criarem seus próprios algoritmos de recompensa e punição. É como se agora, para treinar o Waze, você indicasse o objetivo (chegar de A a B) e, quando o sistema perguntasse qual o método de recompensa e punição, você dissesse, descubra você, sozinho. O mais importante nessa descoberta é que os algoritmos criados pela inteligência artificial são melhores que os criados pelos melhores times de cientistas.

Em suma, os sistemas de inteligência artificial deixaram de depender de cérebros humanos para essa atividade. Estão ficando tão independentes de cérebros humanos quanto uma criança, que não precisa da ajuda do cérebro do pai ou da mãe para aprender a andar. Os sistemas de IA estão ficando, aos poucos, independentes de nós. É um caminho sem volta.

Mais informações: Discovering state-of-the-art reinforcement learning algorithms. Nature https://doi.org/10.1038/s41586-025-09761-x 2025

Biólogo, PHD em Biologia Celular e Molecular pela Cornell University e autor de “A Chegada do Novo Coronavírus no Brasil”; “Folha de Lótus, Escorregador de Mosquito”; e “A Longa Marcha dos Grilos Canibais”

Modelos de inteligência artificial já podem aprender sem ajuda de cérebros humanos – Estadão

Se você tiver interesse e ainda não estiver inscrito para receber diariamente as postagens de O Novo Normal, basta clicar no link: https://chat.whatsapp.com/GeLUPi5zQ2582nGKD6JFey para WhatsApp e https://t.me/joinchat/SS-ZohzFUUv10nopMVTs-w para Telegram. Este é um grupo restrito para postagens diárias de Evandro Milet. Além dos artigos neste blog, outros artigos de Evandro Milet com outras temáticas, publicados nos fins de semana no Portal ES360, encontram-se em http://evandromilet.com.br/

Acesse o link abaixo para entrar no meu grupo do WhatsApp onde publico meus artigos semanais e entrevistas que faço no rádio e TV(em renegociação), sempre na temática inovação e negócios: https://chat.whatsapp.com/HqlJjC80rJ0Bu9lmsZgw5B

Sugestão: Se estiver procurando alguém para implementar uma solução de IA com agentes e SLM veja a Aumo | Transformamos dados em soluções de IA avançadas

Se tiver interesse em gêmeos digitais para a indústria procure a Neo Vision – Captura Digital da Realidade

O mais importante nessa descoberta é que os algoritmos criados pela IA são melhores que os criados pelos melhores times de cientistas

Para você

Compartilhe isso:

Relacionado

Deixe um comentário Cancelar resposta