A tecnologia está em constante evolução, e a Google continua a ser uma das empresas na vanguarda desta transformação. A mais recente inovação da gigante tecnológica é o Google Whisk, uma ferramenta experimental que promete revolucionar a forma como criamos e manipulamos imagens através da inteligência artificial.
Ao contrário dos tradicionais geradores de imagens que dependem de descrições textuais, o Whisk utiliza imagens como ponto de partida, oferecendo uma experiência mais intuitiva e acessível para os criadores visuais.
Uma Nova Abordagem à Criação de Imagens
O Google Whisk é construído sobre o modelo de IA generativa Imagen 3 da Google. Este modelo permite que os utilizadores introduzam três imagens como inputs: uma para o sujeito, outra para o cenário e uma última para o estilo.
A partir destas imagens, o Whisk gera automaticamente uma nova imagem que combina os elementos fornecidos. Esta abordagem elimina a necessidade de criar descrições textuais detalhadas, tornando o processo de criação mais direto e menos dependente de habilidades linguísticas.
Como Funciona o Google Whisk?
Ao introduzir imagens na interface web do Whisk, o modelo Gemini da Google analisa cada uma delas e gera legendas detalhadas. Estas legendas são então utilizadas pelo modelo Imagen 3 para criar uma imagem correspondente.
Por exemplo, se introduzir uma imagem de um carro como sujeito, uma paisagem rural como cenário e um estilo aquarela, o Whisk irá gerar uma imagem que combina estes elementos de forma criativa.
Exploração Visual Intuitiva
Uma das grandes vantagens do Whisk é a sua capacidade de remixar imagens de forma intuitiva. A interface permite que os utilizadores especifiquem detalhes adicionais baseados em texto para ajustar os resultados.
Além disso, é possível introduzir novas imagens de origem ou simplesmente experimentar com diferentes combinações para encontrar inspiração. Os resultados aparecem em pares, facilitando a comparação e seleção das melhores criações.
Limitações e Potencial de Refinamento
Embora o Whisk seja projetado para minimizar a necessidade de prompts textuais, a Google oferece a opção de refinar as legendas geradas. Isto é importante porque os resultados nem sempre correspondem exatamente às expectativas dos utilizadores.
A Google explica que o Whisk captura a essência do sujeito, mas não uma réplica exata, o que pode resultar em variações inesperadas na altura, peso, penteado ou tom de pele do sujeito gerado.
Disponibilidade e Futuro do Google Whisk
Atualmente, o Google Whisk está disponível apenas para utilizadores nos Estados Unidos, e pode ser experimentado gratuitamente através do navegador web. A Google está a recolher feedback dos utilizadores para refinar e desenvolver futuros produtos de IA, tornando o Whisk uma ferramenta em constante evolução.
Em suma, o Google Whisk representa uma nova era na criação de imagens com inteligência artificial, oferecendo uma abordagem mais acessível e intuitiva para criadores visuais. Com base no feedback inicial, a Google descreve o Whisk como “uma nova ferramenta criativa” destinada à “exploração visual rápida, não a edições pixel-perfeitas”. À medida que a tecnologia continua a evoluir, é emocionante imaginar as possibilidades que o Whisk e ferramentas semelhantes poderão trazer para o mundo da criatividade digital.
Fonte: Techradar