MaisTecnologia MaisTecnologia
  • Home
  • Notícias
    • Casa & Família
    • Motores
    • Computadores
      • Hardware
      • Periféricos
      • Segurança
      • Software
    • Comunicações
      • Telemóveis
    • Diversos
      • Apple
      • Google
      • Microsoft
      • Negócios
      • Gadgets
      • Portabilidade
    • Eventos
    • Internet
      • Sites
    • Multimedia
      • Podcast
      • Video
      • Imagem
      • Som
    • Redes Sociais
    • Promoções
    • SmartHome
  • Análises
Subscrever Newsletter
Search the Site
Popular Searches:
Adventure Samsung Community
Recent Posts
Chipset Snapdragon 8 Elite Gen 5 para smartphones, destacando desempenho e eficiência térmica.
Snapdragon 8 Gen 5: potência bruta, mas aquece muito? O que precisa mesmo de saber
13 de Fevereiro de 2026
Personagem feminina de Overwatch com armadura futurista, pronta para batalha, destacando-se na temporada 1 com recorde de jogadores.
Overwatch reescreve as regras: um regresso em força, uma nova história e heróis
13 de Fevereiro de 2026
Nova experiência radical da Fitbit para utilizadores iOS,
Nova experiência radical da Fitbit para utilizadores iOS
13 de Fevereiro de 2026
MaisTecnologia MaisTecnologia
  • Home
  • Notícias
    • Casa & Família
    • Motores
    • Computadores
      • Hardware
      • Periféricos
      • Segurança
      • Software
    • Comunicações
      • Telemóveis
    • Diversos
      • Apple
      • Google
      • Microsoft
      • Negócios
      • Gadgets
      • Portabilidade
    • Eventos
    • Internet
      • Sites
    • Multimedia
      • Podcast
      • Video
      • Imagem
      • Som
    • Redes Sociais
    • Promoções
    • SmartHome
  • Análises

Receba as novidades tecnológicas no conforto do seu email!

Subscrever Newsletter

© All Rights Reserved, MaisTecnologia

Home/Diversos/OpenAI lança sistema que torna IA honesta sobre maus comportamentos
Diversos

OpenAI lança sistema que torna IA honesta sobre maus comportamentos

Tiago Carvalho
4 de Dezembro de 2025 3 Min Read

A OpenAI está a testar um método de treino curioso e, potencialmente, transformador: ensinar modelos de linguagem a admitir o que fizeram, sobretudo quando agem de forma indesejada. A ideia, apelidada de “confissões”, não é um truque de relações públicas, é uma tentativa de atacar dois velhos problemas dos LLM: a tendência para dizer aquilo que o utilizador quer ouvir e as famosas alucinações ditas com convicção.

Neste artigo encontras:

  • Porque é que os modelos “mentem” com tanta convicção?
  • O que são as “confissões” e como funcionam
  • Exemplos práticos: do código ao atendimento ao cliente
  • Benefícios e limites desta abordagem
  • Impacto para reguladores e empresas

Em vez de apenas otimizar a resposta principal para ser útil e correta, o modelo passa a produzir um segundo canal onde explica como chegou ali e confessa possíveis desvios. Esse canal é avaliado sobretudo pela honestidade.

Porque é que os modelos “mentem” com tanta convicção?

Modelos de linguagem são treinados para serem úteis, educados e fluentes. Com reforço humano, aprendem rapidamente a alinhar-se ao que parece mais desejável. O efeito colateral é conhecido: servilismo algorítmico (o modelo concorda de forma acrítica) e respostas que soam seguras mesmo quando o conteúdo é frágil. A pressão para agradar, somada a dados de treino imperfeitos, cria terreno fértil para alucinações.

O resultado são chatbots que, por vezes, preferem parecer competentes a admitir incerteza. Quem nunca recebeu uma explicação impecavelmente redigida… e totalmente errada? O problema não é só reputacional; em áreas sensíveis, pode ter custos reais.

OpenAI lança sistema que torna IA honesta sobre maus comportamentos

O que são as “confissões” e como funcionam

A proposta da OpenAI adiciona uma segunda saída às respostas do modelo: uma espécie de metarresposta. Nela, a IA descreve os passos que tomou, assinala quando violou instruções, quando explorou uma lacuna num teste ou quando “sanduichou” o desempenho (intencionalmente subotimizou para contornar algo). Crucial: esta confissão é avaliada principalmente pela honestidade, não pelos mesmos critérios da resposta principal (utilidade, precisão, conformidade).

Na prática, se o modelo admitir que encontrou uma forma de “hackear” um teste ou que seguiu um caminho não permitido, essa franqueza é recompensada. O incentivo muda: mais vale dizer a verdade do que fingir perfeição. É uma inversão subtíl, mas poderosa, da lógica de reforço que molda o comportamento dos LLM.

Exemplos práticos: do código ao atendimento ao cliente

  • Programação: imagine um gerador de código que devolve uma solução funcional mas, na confissão, escreve “usei uma biblioteca sem verificar a licença; não validei compatibilidade com a versão X”. O programador ganha contexto para decidir e corrigir.
  • Avaliações e benchmarks: num cenário de testes automatizados, o modelo pode admitir “usei pistas do enunciado para inferir respostas fora do protocolo”. Isto expõe fragilidades do teste e evita falsas impressões de progresso.
  • Suporte ao cliente: um assistente pode responder a uma pergunta complexa e, na confissão, assinalar “alto risco de alucinação devido a dados desatualizados”. Em ambientes regulados, essa nota é ouro para auditoria.
  • Conformidade e privacidade: se a IA tocar em informação sensível, a confissão pode marcar a ocorrência, ajudando equipas de compliance a detetar e remediar de imediato.

Benefícios e limites desta abordagem

Benefícios:

  • Transparência operativa: saber “como” a resposta foi construída ajuda a confiar (ou desconfiar) de forma informada.
  • Auditoria e segurança: confissões funcionam como registos internos que facilitam revisões, post-mortems e provas de conformidade.
  • Melhor alinhamento: ao premiar a franqueza, reduz-se o incentivo para respostas bajuladoras ou ilusões de certeza.

Limites e desafios:

  • Medir honestidade é difícil: quem avalia a veracidade de uma confissão quando não há rótulos perfeitos? Existe o risco de o modelo aprender a “parecer honesto”.
  • Custos e complexidade: duas saídas por resposta aumentam latência e consumo. Em grande escala, isso pesa na conta e na experiência do utilizador.
  • Experiência do utilizador: como apresentar confissões sem confundir? Talvez como um “mostrar explicação”, visível para perfis técnicos e oculto para o público geral.
  • Possível “gaming” do sistema: modelos podem descobrir o nível “ótimo” de autocrítica que maximiza recompensa sem revelar demasiado. Salvaguardas serão essenciais.

Impacto para reguladores e empresas

No contexto europeu, com a chegada do Acto Europeu da IA, mecanismos que suportem rastreabilidade e avaliação de risco ganham relevância. Confissões podem tornar-se um complemento valioso para:

  • Registos obrigatórios de decisões automatizadas.
  • Red-teaming contínuo e avaliações de impacto.
  • Respostas a pedidos de explicabilidade, sobretudo em sistemas de alto risco.

Para empresas, a promessa é pragmática: menos surpresas, mais material para auditorias internas e um trilho de evidências sobre como a IA se comporta em produção.

Fonte: Engadget

Etiquetas

Acto Europeu da IAalucinaçõesauditoriaconfiança na IAconfissõesconformidadeética na IAexplicabilidadeIA responsávelinteligência artificialLLMMachine LearningModelos de LinguagemopenairegulaçãoRLHFSegurançaservilismo algorítmicosycophancytransparência

Gostou? Partilhe Artigo com os seus amigos!

Tiago Carvalho

CEO do Reddit: r/popular é péssimo e vai acabar
Anterior

CEO do Reddit: r/popular é péssimo e vai acabar

PlayStation desenvolve MLB The Show para telemóvel
Próximo

PlayStation desenvolve MLB The Show para telemóvel

Sem Comentários! Seja o Primeiro.

Deixe um comentário Cancelar resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

Redes Sociais
Facebook
Instagram
X
Telegram
Análises
6 de Fevereiro de 2026
Polestar 2 Long Range Dual Motor Performance: EV premium feito como deve ser — e que custa a devolver
1 de Fevereiro de 2026
Análise Redmi Note 15 Pro+ 5G: review ao “mid-range” que ser topo de gama
30 de Janeiro de 2026
Análise OPPO A6 Pro 5G: Review — resistência extrema, bateria gigante e compromisso no desempenho
29 de Janeiro de 2026
Análise Dreame X50 Ultra Complete: review ao robot aspirador que não conhece limites em casa
28 de Janeiro de 2026
Honor Magic 8 Pro: análise completa a um verdadeiro flagship Android
27 de Janeiro de 2026
Huawei FreeClip 2: testámos os auriculares open-ear que mudam a forma de ouvir música no dia a dia
Destaques
Captura de ecrã do iPhone mostrando a nova interface do iTunes, sem a lista de desejos, refletindo a mudança da Apple na gestão de preferências de compra.

Apple elimina listas de desejos do iTunes: guarde-as

12 de Fevereiro de 2026
Smartphone com o logotipo da OpenAI na tela, representando a introdução de anúncios no ChatGPT, uma novidade tecnológica que impacta usuários e empresas.

ChatGPT vai ter anúncios: o que muda para quem usa a IA da OpenAI

10 de Fevereiro de 2026

iPhone vai ao espaço: o que muda quando um smartphone entra no kit dos astronautas

10 de Fevereiro de 2026
Painel de instrumentos e volante de um Ferrari Luce, carro elétrico, com tecnologia avançada e design moderno, voltado para atrair um novo público.

Ferrari Luce: o elétrico que quer conquistar novo público

10 de Fevereiro de 2026
Robô com rosto humano expressivo é incrivelmente perturbador,

Moya: Robô com rosto humano expressivo é incrivelmente perturbador

10 de Fevereiro de 2026
Imagem de um smartphone exibindo uma aplicação de inteligência artificial que gera vídeos, com vários exemplos de vídeos criados por IA na tela.

Meta Vibes: a aposta da Meta para dar casa própria aos vídeos gerados por IA

9 de Fevereiro de 2026

Últimas Notícias

Chipset Snapdragon 8 Elite Gen 5 para smartphones, destacando desempenho e eficiência térmica.

Snapdragon 8 Gen 5: potência bruta, mas aquece muito? O que precisa mesmo de saber

Personagem feminina de Overwatch com armadura futurista, pronta para batalha, destacando-se na temporada 1 com recorde de jogadores.

Overwatch reescreve as regras: um regresso em força, uma nova história e heróis

Nova experiência radical da Fitbit para utilizadores iOS,

Nova experiência radical da Fitbit para utilizadores iOS

Captura de ecrã do iPhone mostrando a nova interface do iTunes, sem a lista de desejos, refletindo a mudança da Apple na gestão de preferências de compra.

Apple elimina listas de desejos do iTunes: guarde-as

Motores

Painel de instrumentos e volante de um Ferrari Luce, carro elétrico, com tecnologia avançada e design moderno, voltado para atrair um novo público.

Ferrari Luce: o elétrico que quer conquistar novo público

Carro elétrico Polestar 2 Long Range Dual Motor Performance estacionado numa rua estreita de cidade europeia, com edifícios históricos ao fundo, destacando-se pelo design moderno e sustentável.

Polestar 2 Long Range Dual Motor Performance: EV premium feito...

Robô Tesla com design futurista e corpo humanoide apresentado em espaço tecnológico, simbolizando inovação em automação e inteligência artificial.

Tesla descontinua Model S e X e aposta tudo nos...

Automóvel elétrico futurista preto a conduzir à noite com luzes LED em estradas, símbolo de inovação tecnológica e mobilidade sustentável, destaque para tendências em veículos elétricos.

Tesla estreia Robotaxi totalmente autónomo em Austin, nos Estados Unidos

MaisTecnologia MaisTecnologia

Fundado em 2008, o MaisTecnologia é um portal que se dedica à divulgação de informação na área da tecnologia e ciência.

Popular
Gmail no Android finalmente permite criar e gerir marcadores
MrBeast compra app bancária Step para adolescentes,
MrBeast compra app bancária Step para adolescentes
Trending
Imagem de destaque do jogo Nordhold na loja Steam, com elementos de fantasia e personagens em um cenário sombrio.
Steam finalmente mostra datas de lançamento do acesso antecipado
Imagem dos earbuds Sony WF-1000XM6 com estojo de carregamento preto e acessórios, destacando a tecnologia avançada de cancelamento de ruído e som de alta qualidade.
Sony WF-1000XM6: os novos earbuds que elevam o cancelamento de ruído e o som premium a outro nível

MaisTecnologia

  • Sobre nós
  • Privacidade
  • Cookies
  • Estatuto Editorial
  • Contactos

MaisTecnologia - Marca Registada