MaisTecnologia MaisTecnologia
  • Home
  • Notícias
    • Casa & Família
    • Motores
    • Computadores
      • Hardware
      • Periféricos
      • Segurança
      • Software
    • Comunicações
      • Telemóveis
    • Diversos
      • Apple
      • Google
      • Microsoft
      • Negócios
      • Gadgets
      • Portabilidade
    • Eventos
    • Internet
      • Sites
    • Multimedia
      • Podcast
      • Video
      • Imagem
      • Som
    • Redes Sociais
    • Promoções
    • SmartHome
  • Análises
Subscrever Newsletter
Search the Site
Popular Searches:
Adventure Samsung Community
Recent Posts
Análise Samsung Galaxy S26 Plus: Review
6 de Março de 2026
Zuckerberg minimiza estudo da Meta em julgamento de segurança infantil,
Zuckerberg minimiza estudo da Meta em julgamento de segurança infantil
6 de Março de 2026
Ubisoft confirma remake de Assassin's Creed IV: Black Flag,
Ubisoft confirma remake de Assassin’s Creed IV: Black Flag
6 de Março de 2026
MaisTecnologia MaisTecnologia
  • Home
  • Notícias
    • Casa & Família
    • Motores
    • Computadores
      • Hardware
      • Periféricos
      • Segurança
      • Software
    • Comunicações
      • Telemóveis
    • Diversos
      • Apple
      • Google
      • Microsoft
      • Negócios
      • Gadgets
      • Portabilidade
    • Eventos
    • Internet
      • Sites
    • Multimedia
      • Podcast
      • Video
      • Imagem
      • Som
    • Redes Sociais
    • Promoções
    • SmartHome
  • Análises

Receba as novidades tecnológicas no conforto do seu email!

Subscrever Newsletter

© All Rights Reserved, MaisTecnologia

Home/Internet/ChatGPT supera Gemini, Copilot e Claude? Especialistas questionam métricas
Internet

ChatGPT supera Gemini, Copilot e Claude? Especialistas questionam métricas

Daniela Azevedo
18 de Abril de 2024 3 Min Read

Quando nos aventuramos no universo digital, somos frequentemente confrontados com uma miríade de assistentes virtuais, os conhecidos chatbots. Estas entidades baseadas em Inteligência Artificial (IA) nascem da promessa de facilitar a nossa vida, seja a esclarecer dúvidas, a programar ou mesmo a criar conteúdo.

Mas, perante tantas opções, como ChatGPT, Copilot, Gemini, Claude, entre outros, qual o mais adequado para as nossas necessidades?

Segue-nos no Google News

A resposta parece simples, mas é tudo menos definitiva. Tipicamente, escolhemos um chatbot porque “funciona bem” para o que precisamos, mas esta convicção abre espaço a dúvidas: existirá um melhor? A verdade é que, mesmo com uma panóplia de benchmarks destinados a avaliar o desempenho destes modelos de IA, a distância entre essas métricas e a experiência real do utilizador pode ser muito grande. O que é uma boa resposta para uns, pode não ser para outros.

Esta incerteza é realçada por publicações como o Toms Guide, que apontam para as afirmações muitas vezes subjetivas e de difícil verificação das empresas ao lançarem os seus novos modelos de IA. Frases como “capacidades melhoradas” surgem sem qualquer explicação do que realmente foi melhorado. Afinal, não sabemos se o Gemini escreve melhor código que o ChatGPT ou o Copilot, ou se o ChatGPT Plus, uma versão paga, vale realmente a pena pela qualidade das suas respostas. E no que toca à geração de imagens realistas de rostos humanos, a subjetividade e as preferências pessoais têm um peso ainda mais significativo.

O A.I. Index, um estudo detalhado da Universidade de Stanford, destaca que a IA já supera os humanos em determinadas tarefas, mas não em todas. Além disso, aponta que os modelos atuais de IA saturaram os benchmarks existentes, como ImageNet ou SQuAD, que já não são suficientes para medir as suas capacidades. Como resposta, estão a ser desenvolvidas provas mais exigentes, como a SWE-bench para geração de código ou a HaluEval para analisar se os modelos “alucinam”.

No entanto, surge uma métrica que está a ganhar importância entre os utilizadores: a “pontuação ELO”. Esta não mede o desempenho em benchmarks, mas sim a satisfação dos utilizadores. Plataformas como o Chatbot Arena Leaderboard, onde qualquer pessoa pode votar no seu chatbot favorito, estão a tornar-se valiosas para monitorizar o avanço destes modelos de IA.

Um exemplo recente foi o lançamento de Claude 3 Opus, da Anthropic, que, em benchmarks, pareceu superar até o GPT-4 em alguns cenários. No entanto, o mais relevante foi a sua pontuação ELO no Chatbot Arena Leaderboard, indicando que os utilizadores preferem Claude 3 Opus ao GPT-4, pelo menos naquele momento.

Esta preferência dos utilizadores é cada vez mais um fator decisivo na escolha de um chatbot em detrimento de outro. Embora em áreas como a dos processadores os benchmarks possam dar uma ideia clara do desempenho esperado, com os modelos de IA a situação é bem mais complexa, o que se revela um problema que não parece ter uma solução imediata.

Ao refletir sobre o papel dos chatbots na nossa interação diária com a tecnologia, torna-se evidente que, apesar dos avanços, ainda estamos a navegar em águas turvas quando se trata de avaliar a sua eficácia. Os benchmarks, embora úteis, não capturam toda a experiência do utilizador, e a introdução de métricas como a pontuação ELO reflete uma mudança de paradigma rumo a uma avaliação mais humanizada e subjetiva.

Etiquetas

benchmarksChat GPTClaudeco pilotELOGeminimétricas

Gostou? Partilhe Artigo com os seus amigos!

Daniela Azevedo

Daniela Azevedo é profissional de Comunicação com uma longa relação com as novas tecnologias, desde a fase em que criar links no corpo de texto era algo futurista até à era do Big Data e da Inteligência Artificial com todos os seus regulamentos europeus às costas. Atualmente integra o Gabinete de Relações Públicas e Comunicação do Laboratório Nacional de Engenharia Civil (LNEC), onde alia comunicação institucional à moderação de debates técnico-científicos. Com um percurso sólido na promoção da Sociedade da Informação, foi Communications Manager do itSMF Portugal e mantém, desde 2011, uma ligação ativa à APDSI - Associação para a Promoção e Desenvolvimento da Sociedade da Informação, onde também exerce funções como Secretária da Mesa da Assembleia Geral. Ao longo dos anos, tem gerido websites, estratégias digitais, redes sociais e comunicação para projetos ligados à inovação, ciência e tecnologia. Foi ainda Project Manager de vários websites do universo Media Capital (hoje Bauer Media Group), numa altura em que gerir plataformas digitais exigia tanto engenho como paciência - especialmente quando "atualizar o site" implicava bem mais do que um clique. Com formação superior em Novos Media e práticas Web, a Daniela continua a acompanhar a evolução tecnológica com curiosidade e espírito crítico, principalmente no que concerne à sua repercussão social. Lá por casa gosta de música dos anos 80, cães e animais de quinta, dias de sol e carros velhos.

Anterior

TikTok multado em Itália

Próximo

Novos utilizadores do X podem ter de pagar para postar – diz Elon Musk

Sem Comentários! Seja o Primeiro.

Deixe um comentário Cancelar resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

Redes Sociais
Facebook
Instagram
X
Telegram
Análises
6 de Março de 2026
Análise Samsung Galaxy S26 Plus: Review
5 de Março de 2026
Análise Google Pixel 10a: Será este o melhor smartphone por menos de 600€?
5 de Março de 2026
Opinião: MacBook Neo é o “Cavalo de Troia” que a Apple precisava para varrer o mercado
26 de Fevereiro de 2026
Análise Asus ROG Swift PG27UCDM: Review ao Santo Graal dos Monitores de 27
25 de Fevereiro de 2026
Análise Hisense M2 Pro: Cinema de Bolso que Desafia os Gigantes
24 de Fevereiro de 2026
Análise OPPO Watch S: Review com Elegância e Saúde no seu Pulso
Destaques

Análise Samsung Galaxy S26 Plus: Review

6 de Março de 2026
Óculos inteligentes Rokid já suportam Gemini e ChatGPT,

Óculos inteligentes Rokid já suportam Gemini e ChatGPT

6 de Março de 2026

EUA ponderam proibir chips de memória chineses

6 de Março de 2026

Opinião: MacBook Neo é o “Cavalo de Troia” que a Apple precisava para varrer o mercado

5 de Março de 2026

Todas as novidades da Apple: MacBook Neo, iPhone 17e, novos MacBook Pro e muito mais

4 de Março de 2026

Apple MacBook Neo: Cartada de mestre para dominar (finalmente) o mercado de entrada

4 de Março de 2026

Últimas Notícias

Análise Samsung Galaxy S26 Plus: Review

Zuckerberg minimiza estudo da Meta em julgamento de segurança infantil,

Zuckerberg minimiza estudo da Meta em julgamento de segurança infantil

Ubisoft confirma remake de Assassin's Creed IV: Black Flag,

Ubisoft confirma remake de Assassin’s Creed IV: Black Flag

Motorola Razr Fold esmaga recordes: Entre os melhores smartphones na fotografia

Motores

OMODA 5 SHS-H: SUV Híbrido que quer “baralhar” as contas do mercado em Portugal

Volvo EX60 em Portugal: SUV “matou” a ansiedade da autonomia

Já há substituto para o Model X de 7 lugares! E pode comprar em Portugal

BYD ATTO 2: A Dupla Revolução que Promete Agitar as Estradas Portuguesas

Gaming

É oficial: Charlie Brown agora trabalha na Sony,

É oficial: Charlie Brown agora trabalha… na Sony

Sony pode recuar na estratégia de jogos PlayStation no PC,

Sony pode recuar na estratégia de jogos PlayStation no PC

Imagem de um personagem de Splinter Cell com óculos de visão noturna verde brilhante, simbolizando o novo remake do jogo, apesar de despedimentos na Ubisoft.

Ubisoft garante: Remake de Splinter Cell avança apesar de despedimentos

Imagem de uma tela com vários jogos disponíveis na plataforma GeForce NOW, destacando a celebração de 6 anos com eventos e prémios especiais.

GeForce NOW faz 6 anos: ofertas tentadoras e uma fornada de novos jogos

MaisTecnologia MaisTecnologia

Fundado em 2008, o MaisTecnologia é um portal que se dedica à divulgação de informação na área da tecnologia e ciência.

Parceiros
Trending
Apple lança dois Studio Display com chips diferentes,
Apple lança dois Studio Display com chips diferentes
Óculos inteligentes Rokid já suportam Gemini e ChatGPT,
Óculos inteligentes Rokid já suportam Gemini e ChatGPT

MaisTecnologia

  • Sobre nós
  • Privacidade
  • Cookies
  • Estatuto Editorial
  • Contactos

MaisTecnologia - Marca Registada