OpenAI lança ChatGPT Images 2.0 em busca de imagens mais fiéis à realidade
A OpenAI quer mudar a dinâmica dos geradores de imagem por inteligência artificial fazendo-os parar para pensar. Com o lançamento do ChatGPT Images 2.0 nesta quarta-feira, 22, a empresa apresenta um gerador que, antes de produzir qualquer pixel, reflete sobre o que irá apresentar ao usuário em seguida. A ideia é que imagens mais "sofisticadas" e com "níveis de especificidade e fidelidade" sejam entregues após o envio de prompts.
O modelo subjacente traz uma novidade estrutural: ao ativar o modo de raciocínio, o sistema planeja a composição visual internamente, verifica relações espaciais, conta objetos e só então começa a renderizar. É a mesma lógica dos modelos de linguagem que "pensam antes de responder", mas agora aplicada à geração de imagens. A nova versão consegue reproduzir até 8 imagens de uma única vez.
"Ela pode não somente conceitualizar imagens mais sofisticadas, como verdadeiramente trazer essa visão à vida de forma efetiva, ser capaz de seguir instruções, preservar detalhes pedidos, e renderizar os elementos refinados que com frequência quebram modelos de imagem: textos pequenos, iconografia, elementos de interface do usuário, composições densas, e restrições estilísticas sutis, tudo com resolução de até 2K", declarou a empresa.
O que muda na prática
Para usuários dos planos pagos Plus, Pro, Business e Enterprise, o modo de raciocínio libera capacidades adicionais. O gerador pode consultar a web em tempo real para buscar referências e dados durante a criação, o que muda especialmente o desempenho em infográficos, diagramas e materiais educativos que exigem precisão factual, não apenas estética.
Outra funcionalidade destacada é a geração em série, que compreende múltiplos pedidos individualmente. A OpenAI exibe como exemplos práticos páginas de mangá, fotos de textos feitos à mão, fotografias que aparentam ser de câmeras digitais, páginas feitas a partir de design gráfico e mais. Conforme detalha a empresa, todos os casos demonstrados reforçam que consistência entre quadros é tão importante para ela quanto a qualidade individual de cada um.
Até pouco tempo atrás, pedir para um modelo criar o cardápio de um restaurante era uma receita para neologismos culinários involuntários. O Images 2.0 ataca esse problema em duas frentes. A primeira é técnica: o modelo gera imagens com resolução de até 2K e lida melhor com elementos densos. A segunda é geográfica: a OpenAI destaca avanços expressivos na renderização de textos em alfabetos que não sejam latinos, com melhorias específicas para japonês, coreano, chinês, hindi e bengali — línguas que somam mais de dois bilhões de falantes nativos e que historicamente saíam deformadas em geradores de imagem ocidentais.
Como acessar o ChatGPT Images 2.0
A nova IA de imagens da OpenAI está disponível a partir de hoje para todos os usuários do ChatGPT e do Codex, mas as funções avançadas de raciocínio ficam restritas às assinaturas pagas. O modelo também está disponível via API para desenvolvedores, com precificação variável conforme resolução e qualidade da saída.
Nenhum comentário disponível no momento.
Comentários
Deixe seu comentário abaixo: