Talvez você se lembre de quando, há alguns meses, metade da internet começou a criar imagens no estilo do Studio Ghibli com o ChatGPT para publicá-las nas redes sociais. A “mágica” por trás daquela febre era o novo modelo de geração de imagens da OpenAI. Pouco depois, nossa atenção já estava em outro lugar: na dificuldade de distinguir da realidade algumas imagens criadas com o Nano Banana Pro.
O novo modelo generativo do Google virou o assunto do momento e, em alguns cantos da internet, foi eleito como superior à ferramenta da OpenAI. Mas a corrida ainda está sendo disputada, com os gigantes da tecnologia buscando com afinco a liderança da IA. Como era de se esperar, a empresa liderada por Sam Altman respondeu. Nesta terça-feira, ela lançou um novo ChatGPT Images, que chega trazendo várias melhorias para os usuários.
A edição como elemento-chave
Um dos grandes desafios históricos das ferramentas de geração de imagens sempre foi a edição pontual de elementos específicos. O novo ChatGPT Images, impulsionado pelo modelo GPT Image 1.5, aponta diretamente para resolver essa limitação, permitindo modificar apenas aquilo que nos interessa, desde um objeto específico até a iluminação, a composição ou até mesmo a aparência das pessoas. Isso abre a porta para combinar elementos ou introduzir mudanças muito específicas sem precisar refazer a imagem inteira, algo que, até agora, costumava ser um ponto fraco nesse tipo de modelo.
Com o modelo anterior, não era raro encontrar longos tempos de espera até que a imagem fosse concluída. Em alguns casos, sobretudo no celular, a geração chegava a ser interrompida se mudássemos de aplicativo no meio do processo. Esta atualização promete imagens até quatro vezes mais rápidas. E, em nossos testes, comprovamos que o salto é real, com tempos de geração sensivelmente menores e uma experiência muito mais fluida.
Veja a seguir alguns dos exemplos compartilhados pela OpenAI, acompanhados da tradução do prompt para o português.
“Paisagem de Los Angeles em um skate, fotografada com o seguinte estilo: fotografia de rua documental do final dos anos 90, filmada em filme colorido de 35 mm, câmera telemétrica Leica estilo M com lente de 35 mm, paleta de cores Kodak Portra 400, luz natural, contraste suave, cores realistas e apagadas, grão de filme incorporado, leve suavidade nas bordas, enquadramento espontâneo de observação, sem HDR, sem nitidez digital moderna, sem iluminação cinematográfica.”
“Faça com que a camisa dele seja vermelha, o boné amarelo, o limite de velocidade 15 e o caminhão seja um caminhão de bombeiros.”
“Combine os dois homens e o cachorro em uma fotografia de estilo cinematográfico dos anos 2000, na qual eles aparecem entediados em uma festa de aniversário infantil.”
Outro dos aspectos em que o ChatGPT Images dá um salto é nas transformações criativas. Basta enviar uma foto própria e acompanhá-la de um prompt simples para obter, em questão de segundos, resultados surpreendentemente convincentes. Vale ressaltar que essa ideia não é completamente nova. Na verdade, é uma das virtudes mais destacadas do Nano Banana, um modelo que nosso colega Javier Lacort pôde testar a fundo e que já apontava nessa direção.
Vejamos alguns exemplos que nós mesmos criamos com o ChatGPT Images.
Imagem original:
“Crie uma imagem deste homem, mas na Times Square, em Nova York, com roupas, aparência, ambiente etc. que sejam críveis para o inverno de 2025”.
“Coloque essa pessoa de corpo inteiro em uma cidade japonesa durante uma noite chuvosa, com néons, reflexos no chão e estética cyberpunk”.
“Transforme este homem em um samurai japonês de corpo inteiro, com armadura tradicional e katanas, em um ambiente histórico realista, sem elementos modernos.”
“Use a imagem deste homem para criar um anúncio da Mora europeia dos anos 90. Represente o sujeito de corpo inteiro.”
Precisão como bandeira e melhorias no texto. A OpenAI também enfatiza a melhoria da precisão. Quantas vezes já pedimos algo específico e recebemos exatamente o contrário, ou percebemos que o modelo não entendeu bem a instrução? Parte desse problema, segundo a empresa, deve ficar para trás. Se fornecermos indicações detalhadas, o sistema deverá ser capaz de respeitá-las com maior fidelidade. Além disso, houve um reforço na geração de texto dentro das imagens, um aspecto fundamental para criar cartazes, anúncios promocionais e outros conteúdos em que a tipografia e a mensagem são tão importantes quanto a própria imagem.
Adeus às imagens amareladas?
Durante muito tempo, uma das formas mais simples de identificar se uma imagem havia sido gerada com o ChatGPT era o seu estilo. Essas criações costumavam se destacar por tonalidades quentes, com um acabamento cremoso e certo predomínio de amarelos, o que acabou se tornando uma marca registrada. No entanto, tudo indica que essa característica ficou para trás, a menos que seja indicada de forma explícita no prompt.
Isso pode ser visto tanto nas imagens que nós mesmos geramos quanto na comparação compartilhada pela OpenAI, em que o novo resultado se afasta claramente desse visual tão característico das primeiras gerações.
A OpenAI confirmou que o novo modelo de geração de imagens do ChatGPT está sendo disponibilizado para todos os usuários, inclusive aqueles que utilizam contas gratuitas. Se você usa o aplicativo móvel, é bem provável que ele já esteja ativo. Você vai perceber assim que abrir o app, com um aviso convidando a começar a criar imagens. Além disso, foi adicionado um novo item na barra lateral, chamado Images.
O mais interessante dessa seção não é apenas o fato de encontrarmos todas as imagens que criamos em um único lugar. O realmente útil é a quantidade de sugestões disponíveis para começar a criar sem precisar pensar em um prompt do zero. Basta escolher um estilo de que gostemos, enviar uma imagem ou tirar uma selfie e deixar que o sistema faça o resto.
Imagens | OpenAI
Este texto foi traduzido/adaptado do site Xataka Espanha.
Ver 0 Comentários