ChatGPT supera Gemini, Copilot e Claude? Especialistas questionam métricas

Quando nos aventuramos no universo digital, somos frequentemente confrontados com uma miríade de assistentes virtuais, os conhecidos chatbots. Estas entidades baseadas em Inteligência Artificial (IA) nascem da promessa de facilitar a nossa vida, seja a esclarecer dúvidas, a programar ou mesmo a criar conteúdo.

Mas, perante tantas opções, como ChatGPT, Copilot, Gemini, Claude, entre outros, qual o mais adequado para as nossas necessidades?

A resposta parece simples, mas é tudo menos definitiva. Tipicamente, escolhemos um chatbot porque “funciona bem” para o que precisamos, mas esta convicção abre espaço a dúvidas: existirá um melhor? A verdade é que, mesmo com uma panóplia de benchmarks destinados a avaliar o desempenho destes modelos de IA, a distância entre essas métricas e a experiência real do utilizador pode ser muito grande. O que é uma boa resposta para uns, pode não ser para outros.

Esta incerteza é realçada por publicações como o Toms Guide, que apontam para as afirmações muitas vezes subjetivas e de difícil verificação das empresas ao lançarem os seus novos modelos de IA. Frases como “capacidades melhoradas” surgem sem qualquer explicação do que realmente foi melhorado. Afinal, não sabemos se o Gemini escreve melhor código que o ChatGPT ou o Copilot, ou se o ChatGPT Plus, uma versão paga, vale realmente a pena pela qualidade das suas respostas. E no que toca à geração de imagens realistas de rostos humanos, a subjetividade e as preferências pessoais têm um peso ainda mais significativo.

O A.I. Index, um estudo detalhado da Universidade de Stanford, destaca que a IA já supera os humanos em determinadas tarefas, mas não em todas. Além disso, aponta que os modelos atuais de IA saturaram os benchmarks existentes, como ImageNet ou SQuAD, que já não são suficientes para medir as suas capacidades. Como resposta, estão a ser desenvolvidas provas mais exigentes, como a SWE-bench para geração de código ou a HaluEval para analisar se os modelos “alucinam”.

No entanto, surge uma métrica que está a ganhar importância entre os utilizadores: a “pontuação ELO”. Esta não mede o desempenho em benchmarks, mas sim a satisfação dos utilizadores. Plataformas como o Chatbot Arena Leaderboard, onde qualquer pessoa pode votar no seu chatbot favorito, estão a tornar-se valiosas para monitorizar o avanço destes modelos de IA.

Um exemplo recente foi o lançamento de Claude 3 Opus, da Anthropic, que, em benchmarks, pareceu superar até o GPT-4 em alguns cenários. No entanto, o mais relevante foi a sua pontuação ELO no Chatbot Arena Leaderboard, indicando que os utilizadores preferem Claude 3 Opus ao GPT-4, pelo menos naquele momento.

Esta preferência dos utilizadores é cada vez mais um fator decisivo na escolha de um chatbot em detrimento de outro. Embora em áreas como a dos processadores os benchmarks possam dar uma ideia clara do desempenho esperado, com os modelos de IA a situação é bem mais complexa, o que se revela um problema que não parece ter uma solução imediata.

Ao refletir sobre o papel dos chatbots na nossa interação diária com a tecnologia, torna-se evidente que, apesar dos avanços, ainda estamos a navegar em águas turvas quando se trata de avaliar a sua eficácia. Os benchmarks, embora úteis, não capturam toda a experiência do utilizador, e a introdução de métricas como a pontuação ELO reflete uma mudança de paradigma rumo a uma avaliação mais humanizada e subjetiva.

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui