Conheça o DALL-E, inteligência artificial que cria qualquer imagem a partir de uma descrição de texto

Novas tecnologias que misturam linguagem e imagens poderiam servir a artistas gráficos. Preocupação é que acelere também campanhas de desinformação

Por Cade Metz, do NYT/O Globo 14/04/2022

SÃO FRANCISCO – No OpenAI, um dos laboratórios de Inteligência Artificial mais ambiciosos do mundo, os pesquisadores estão desenvolvendo tecnologia que permite criar imagens digitais simplesmente descrevendo o que você deseja ver.

Eles chamam o sistema de DALL-E em alusão tanto a “WALL-E”, o filme de animação de 2008 sobre um robô autônomo, quanto a Salvador Dalí, o pintor surrealista.

A OpenAI, apoiada por US$ 1 bilhão em financiamento da Microsoft, ainda não está compartilhando a tecnologia com o público em geral. Mas, recentemente, Alex Nichol, um dos pesquisadores por trás do sistema, demonstrou como ele funciona.

Nichol pediu ao sistema “um bule em forma de abacate”, digitando as palavras em uma tela de computador praticamente vazia. Ele criou 10 imagens distintas de um bule de abacate verde-escuro, algumas com caroço e outras sem.

“DALL-E é bom em abacates”, disse Nichol.

A inteligência Artificial DALL-E pode criar qualquer desenho a seu comando Foto: OPENAI / NYT

Quando ele digitou “gatos jogando xadrez”, o sistema colocou dois gatinhos fofos de cada lado de um tabuleiro de jogo de xadrez com 32 peças alinhadas entre eles. Quando pediu “um ursinho de pelúcia tocando trompete debaixo d’água”, uma imagem mostrou pequenas bolhas de ar subindo da ponta da trombeta do urso em direção à superfície da água.

DALL-E, inteligência artificial que cria qualquer imagem a seu comando. Foto: OPENAI / NYT

Não para por aí. DALL-E também pode editar fotos. Quando Nichol apagou a trombeta do ursinho de pelúcia e pediu um violão, um violão apareceu entre os braços peludos.

Uma equipe de sete pesquisadores passou dois anos desenvolvendo a tecnologia, que a OpenAI planeja eventualmente oferecer como uma ferramenta para pessoas como artistas gráficos, fornecendo novos atalhos e novas ideias à medida que criam e editam imagens digitais.

Os programadores de computador já utilizam o Copilot, uma ferramenta baseada em tecnologia similar da OpenAI, para gerar trechos de código de software.

Mas para muitos especialistas, DALL-E é preocupante. À medida que esse tipo de tecnologia continua a melhorar, dizem eles, pode ajudar a espalhar desinformação pela internet, alimentando o tipo de campanha on-line que pode ter ajudado a influenciar a eleição presidencial dos EUA em 2016, por exemplo.

Resultado do DALL-E para comando de imagem de ‘cão Shiba Inu vestindo uma boina e gola alta preta’ Foto: Reprodução

“Poderia usá-lo para coisas boas, mas certamente poderia usá-lo para todo o tipo de outras aplicações malucas e preocupantes, e isso inclui falsificações profundas”, como fotos e vídeos enganadores, disse Subbarao Kambhampati, professor de ciência da computação na Universidade do Arizona.

Há 50 anos, os principais laboratórios de IA do mundo construíram sistemas que podiam identificar objetos em imagens digitais e até gerar imagens por conta própria, incluindo flores, cães, carros e rostos.

Alguns anos mais tarde, criaram sistemas que poderiam fazer o mesmo com linguagem escrita, resumindo artigos, respondendo a perguntas, gerando tweets e até escrevendo posts em blogues.

Agora, os pesquisadores estão combinando essas tecnologias para criar novas formas de IA. DALL-E é um avanço notável porque faz malabarismos entre linguagem e imagens e, em alguns casos, capta a relação entre os dois.

“Agora podemos usar vários fluxos de informações que se cruzam para criar tecnologia cada vez melhor”, disse Oren Etzioni, CEO do Allen Institute for Artificial Intelligence, um laboratório de inteligência artificial em Seattle.

Rede neural

Mas a tecnologia não é perfeita. Quando Nichol pediu a DALL-E para “colocar a Torre Eiffel na lua”, ele não entendeu muito bem a ideia. Ele colocou a lua no céu por cima da torre. Quando ele pediu “uma sala cheia de areia”, produziu uma cena que mais parecia um canteiro de obras do que uma sala de estar.

Mas quando Nichol ajustou um pouco seus pedidos, adicionando ou subtraindo algumas palavras aqui ou ali, forneceu o que ele queria. Quando ele pediu “um piano em uma sala cheia de areia”, a imagem parecia mais uma praia em uma sala de estar.

O DALL-E, inteligência artificial, criou uma sala chei ade areia com um piano atendendo a um comando Foto: OPENAI / NYT

DALL-E é o que os pesquisadores de inteligência artificial chamam de rede neural, um sistema matemático livremente modelado na rede de neurônios no cérebro. Essa é a mesma tecnologia que reconhece os comandos falados em smartphones e identifica a presença de pedestres enquanto carros autônomos percorrem as ruas da cidade.

Uma rede neural aprende competências analisando grandes quantidades de dados. Ao identificar padrões em milhares de fotos de abacate, por exemplo, ele pode aprender a reconhecer um abacate.

O DALL-E procura padrões ao analisar milhões de imagens digitais, bem como legendas de texto que descrevem o que cada imagem representa. Desta forma, aprende a reconhecer as ligações entre as imagens e as palavras.

Quando alguém descreve uma imagem para DALL-E, ele gera um conjunto de recursos-chave que essa imagem pode incluir. Uma característica pode ser a linha na borda de uma trombeta. Outra pode ser a curva na parte superior da orelha de um ursinho de pelúcia.

Em seguida, uma segunda rede neural, chamada de modelo de difusão, cria a imagem e gera os pixels necessários para realizar esses recursos.

A versão mais recente do DALL-E com um novo trabalho de pesquisa descrevendo o sistema, gera imagens de alta resolução que, em muitos casos, parecem fotos.

Embora o DALL-E muitas vezes não consiga compreender o que alguém descreveu e às vezes destrua a imagem que produz, o OpenAI continua aprimorando a tecnologia. Os pesquisadores geralmente podem refinar as habilidades de uma rede neural alimentando-a com quantidades ainda maiores de dados.

Eles também podem construir sistemas mais poderosos aplicando os mesmos conceitos a novos tipos de dados. O Allen Institute criou recentemente um sistema que pode analisar áudio, bem como imagens e texto.

Depois de analisar milhões de vídeos do YouTube, incluindo faixas de áudio e legendas, ele aprendeu a identificar momentos específicos em programas de TV ou filmes, como um cachorro latindo ou uma porta se fechando.

Especialistas acreditam que os pesquisadores continuarão a aprimorar esses sistemas. Em última análise, esses sistemas podem ajudar as empresas a melhorar os mecanismos de busca, assistentes digitais e outras tecnologias comuns, bem como automatizar novas tarefas para artistas gráficos, programadores e outros profissionais.

Mas há ressalvas para esse potencial. Os sistemas de IA podem mostrar preconceito contra mulheres e pessoas de cor, em parte porque aprendem suas habilidades a partir de enormes conjuntos de textos, imagens e outros dados on-line que mostram preconceito.

Eles podem ser usados para gerar pornografia, discurso de ódio e outros materiais ofensivos. E muitos especialistas acreditam que a tecnologia acabará tornando tão fácil criar desinformação que as pessoas terão que ser céticas em relação a quase tudo o que veem on-line.

“Nós podemos forjar texto. Podemos colocar texto na voz de alguém. E podemos forjar imagens e vídeos”, disse Etzioni. “Já existe desinformação on-line, mas a preocupação” é que isso leve a desinformação a novos níveis.

A OpenAI está mantendo uma rédea curta no DALL-E. Não permitiria que pessoas de fora usassem o sistema por conta própria. Ele coloca uma marca d’água no canto de cada imagem que gera.

https://oglobo.globo.com/economia/tecnologia/conheca-dall-inteligencia-artificial-que-cria-qualquer-imagem-partir-de-uma-descricao-de-texto-25466718

Se você tiver interesse e ainda não estiver inscrito para receber diariamente as postagens de O Novo Normal, basta clicar no link: https://chat.whatsapp.com/K1U45yDfYImHFuptNvpBhT (06) para WhatsApp ou https://t.me/joinchat/SS-ZohzFUUv10nopMVTs-w para Telegram. Este é um grupo restrito para postagens diárias de Evandro Milet. Além dos artigos neste blog, outros artigos de Evandro Milet com outras temáticas, publicados nos fins de semana em A Gazeta, encontram-se em http://evandromilet.com.br/

Rede neural

Compartilhe isso:

Relacionado

Deixe um comentário Cancelar resposta