O lado manual da inteligência artificial

Cezar Taurion – Neofeed – 26/01/2022

É preciso treinar os dados para que eles se tornem “inteligentes”. E isso é feito ainda de forma “manual”. Novas técnicas tentam driblar essa limitação. O problema? O custo econômico é enorme

A evolução do machine learning (ML) tem sido rápida. Estamos saindo da fase do hype, em que de forma entusiasmada imaginávamos que as coisas seriam meio mágicas e estamos entrando no mundo real, descobrindo o que pode e o que não pode (ou não deve) ser feito.

A jornada tem sido bem mais longa e tortuosa que pensávamos no início. Questões como ética, vieses e a amplitude de uso aplicações de reconhecimento facial começaram a ser discutidos com intensidade. Sinal claro de maturidade.

Mas, na verdade, estamos engatinhando no uso dos algoritmos de ML. Provavelmente, daqui a cinco ou dez anos, o cenário será muito diferente do que é hoje. Métodos que atualmente consideramos no estado-da-arte ficarão desatualizados e outros, que são incipientes ou simples protótipos, poderão ser o novo mainstream.

Difícil fazer previsões, mas analisando as publicações e pesquisas, alguns sinais começam a aparecer aqui e ali, nos permitindo fazer algumas observações.

O modelo atual de aprendizado supervisionado, com demanda de massivos volumes de dados, acaba gerando uma concentração excessiva e indesejável em poucas empresas, as Big Techs, que dispõem capital financeiro para “treinar” algoritmos cada vez mais sofisticados e complexos.

No aprendizado supervisionado, os modelos de ML aprendem a partir de conjuntos de dados que os humanos organizam e rotulam de acordo com categorias predefinidas. O termo “aprendizagem supervisionada” vem do fato de que “supervisores” humanos preparam os dados com antecedência.

É assim que treinamos sistemas de reconhecimento facial ou de análise de imagens médicas. Indiscutivelmente que o processo de rotular manualmente milhões de imagens é extremamente caro, demorado e complicado. A necessidade de que os humanos devem rotular os dados manualmente antes que os modelos de ML possam analisá-los tornou-se um grande gargalo para os projetos.

Além disso, esses modelos orientam-se apenas pelos conceitos e categorias que os pesquisadores identificaram com antecedência, não conseguindo explorar e absorver as informações latentes, relacionamentos e implicações existentes nos conjuntos de dados, que não tenham sido previamente rotulados ou classificados.

Observamos também que existem diversas aplicações em setores de negócio que não dispõem de grandes volumes de dados. O aprendizado supervisionado tem seu espaço, mas precisamos de alternativas.

Assim, vemos o crescimento dos modelos de aprendizado não supervisionado. O aprendizado não supervisionado é uma técnica de ML em que, de forma simplificada, os algoritmos aprendem a partir dos dados sem rótulos ou orientação prévias fornecidos por humanos.

O próprio Yann LeCun, um dos “pais” do ML. já disse que “a próxima revolução da inteligência artificial não será supervisionada”. Na verdade, ele usa o termo “aprendizagem auto-supervisionada”.

Como funciona o modelo de aprendizagem não supervisionada? Em tese é simples: o sistema aprende sobre algumas partes do mundo com base em outras partes do mundo.

Ao observar o comportamento, os padrões e os relacionamentos entre entidades, por exemplo, palavras em um texto ou pessoas em um vídeo, o sistema inicia um processo de compreensão geral de seu ambiente.

Esse modelo reflete mais de perto a maneira como nós, humanos, aprendemos sobre o mundo: por meio de exploração e inferências abertas, sem a necessidade dos volumes imensos de dados necessários na aprendizagem supervisionada.

Uma criança reconhece um cachorro, mesmo de cor e raça diferentes, sem necessidade de ver previamente milhares de cachorros. Uns poucos que ele vê já é suficiente para reconhecer os demais. Uma das vantagens desse modelo é que sempre haverá muito mais dados não rotulados do que dados rotulados no mundo.

Já vemos casos concretos de uso desse modelo. O AlphaZero, da DeepMind, é um exemplo. O paper “AlphaZero: Shedding new light on chess, shogi, and Go” nos dá uma boa ideia do como ele faz.

Mais recentemente vimos essa abordagem causando grande impacto no processamento de linguagem natural. A NLP tem mostrado grandes progressos graças a uma nova arquitetura de aprendizagem não supervisionada conhecida como Transformer, que se originou no BERT do Google há poucos anos. O artigo “Transformers from Scratch” dá uma boa explicação sobre o conceito desses modelos.

O lançamento do GPT-3 pela OpenAI estabeleceu um novo padrão no NLP: pode escrever poesia, gerar código de computação, redigir memorandos de negócios, escrever artigos sobre si mesmo e por aí.

O questionamento que faço é que construir uma plataforma dessas é muito cara e quem vai ser provedor delas serão também as Big Techs.

Recentemente, a Microsoft e a Nvidia anunciaram que treinaram um dos maiores e mais sofisticados modelos de linguagem de IA até hoje: o Megatron-Turing Natural Language Generation (MT-NLP). O MT-NLP contém 530 bilhões de parâmetros e consegue uma alta precisão em um amplo conjunto de tarefas, incluindo compreensão de leitura e inferências de linguagem natural.

Construir um modelo desse não sai barato. O treinamento ocorreu em 560 servidores Nvidia DGX A100, cada um contendo 8 GPUs Nvidia A100 80GB. Estima-se seu custo em vários milhões de dólares.

No início de outubro do ano passado, os pesquisadores da Alibaba colocaram no ar o M6-10T, um modelo de linguagem contendo 10 trilhões de parâmetros (cerca de 57 vezes o tamanho da GPT-3 da OpenAI) treinado em 512 GPUs Nvidia V100 por 10 dias.

O custo do uso do V100 mais barato disponível por meio do Google Cloud Platform era de US $ 2,28 por hora, o que equivaleria a mais de US$ 300 mil (US$ 2,28 por hora multiplicado por 24 horas em 10 dias) – mais do que a maioria das equipes de pesquisas e principalmente startups podem dispor.

Estima-se que a DeepMind, subsidiária do Google, gastou US$ 35 milhões treinando seu sistema para aprender o jogo de tabuleiro Go. Devido aos altos custos de treinamento, a OpenAI decidiu não corrigir um bug que foi detectado ao implementar o seu GPT-3, porque o custo do retreinamento simplesmente era inviável. O custo inicial já tinha sido de mais de US$ 4 milhões.

Claramente estamos diante de um desafio. Com o crescente do aumento dos custos econômicos e ambientais, a evolução do ML precisará encontrar novas maneiras de aumentar o desempenho, sem continuar no ritmo atual de mais e mais demandas crescentes de computação e custos.

No rumo atual vai se tornar sua evolução vai praticamente ficar limitado as Big Techs, as únicas que têm capacidade financeira e computacional para criar e treinar esses modelos.

Cezar Taurion é VP de Inovação da CiaTécnica Consulting, e Partner/Head de Digital Transformation da Kick Corporate Ventures. Membro do conselho de inovação de diversas empresas e mentor e investidor em startups de IA. É autor de nove livros que abordam assuntos como Transformação Digital, Inovação, Big Data e Tecnologias Emergentes. Professor convidado da Fundação Dom Cabral, PUC-RJ e PUC-RS

O lado manual da inteligência artificial

Se você tiver interesse e ainda não estiver inscrito para receber diariamente as postagens de O Novo Normal, basta clicar no link: https://chat.whatsapp.com/ICFvu2V5bCu67L6KwXc6ZD (09) para WhatsApp ou https://t.me/joinchat/SS-ZohzFUUv10nopMVTs-w para Telegram. Este é um grupo restrito para postagens diárias de Evandro Milet. Além dos artigos neste blog, outros artigos de Evandro Milet com outras temáticas, publicados nos fins de semana em A Gazeta, encontram-se em http://evandromilet.com.br/

Compartilhe isso:

Relacionado

Deixe um comentário Cancelar resposta