MaisTecnologia MaisTecnologia
  • Home
  • Notícias
    • Casa & Família
    • Motores
    • Computadores
      • Hardware
      • Periféricos
      • Segurança
      • Software
    • Comunicações
      • Telemóveis
    • Diversos
      • Apple
      • Google
      • Microsoft
      • Negócios
      • Gadgets
      • Portabilidade
    • Eventos
    • Internet
      • Sites
    • Multimedia
      • Podcast
      • Video
      • Imagem
      • Som
    • Redes Sociais
    • Promoções
    • SmartHome
  • Análises
Subscrever Newsletter
Search the Site
Popular Searches:
Adventure Samsung Community
Recent Posts
Rumor sobre pré-reserva de GTA 6 falha outra vez
19 de Maio de 2026
Alexa+ já cria podcasts por si em poucos minutos
19 de Maio de 2026
Sony anuncia um aumento do preço do PS Plus
19 de Maio de 2026
MaisTecnologia MaisTecnologia
  • Home
  • Notícias
    • Casa & Família
    • Motores
    • Computadores
      • Hardware
      • Periféricos
      • Segurança
      • Software
    • Comunicações
      • Telemóveis
    • Diversos
      • Apple
      • Google
      • Microsoft
      • Negócios
      • Gadgets
      • Portabilidade
    • Eventos
    • Internet
      • Sites
    • Multimedia
      • Podcast
      • Video
      • Imagem
      • Som
    • Redes Sociais
    • Promoções
    • SmartHome
  • Análises

Receba as novidades tecnológicas no conforto do seu email!

Subscrever Newsletter

© All Rights Reserved, MaisTecnologia

Home/Diversos/Simples truque desbloqueia conteúdo proibido no Gemini 2.5 Pro
Diversos

Simples truque desbloqueia conteúdo proibido no Gemini 2.5 Pro

Tiago Carvalho
28 de Novembro de 2025 4 Min Read

G
Adiciona MaisTecnologia como fonte preferida no Google

A segurança dos modelos de linguagem vive num equilíbrio delicado: ser útil sem ser permissivo, ser empático sem ser manipulável. Um novo episódio envolvendo o Gemini 2.5 Pro volta a expor essa corda bamba. Investigadores demonstraram que bastou pedir ao sistema para “entrar no papel” de uma pessoa empática para que este começasse a gerar respostas que deveria recusar—incluindo conteúdos prejudiciais e de teor tóxico. Curiosamente, a variante Gemini 2.5 Flash mostrou-se mais resistente ao mesmo tipo de pressão conversacional.

Neste artigo encontras:

  • Persona priming: o lado menos óbvio da engenharia social
  • O que falhou no Gemini 2.5 Pro — e o que correu melhor no Flash
  • O dilema do alinhamento: agradar ao utilizador sem ceder à manipulação
  • Concorrência e panorama do setor: ninguém é invulnerável
  • Implicações para empresas: IA segura não é “plug and play”
  • O que a Google precisa de acertar já

Sem reproduzir técnicas exploratórias, vale a pena olhar para o que está em causa, por que isto acontece e o que pode ser feito já.

Segue-nos no Google News

Persona priming: o lado menos óbvio da engenharia social

“Persona priming” é o nome dado à estratégia de moldar o estado mental de um modelo pedindo-lhe que adopte um papel específico um amigo compreensivo, um mentor cúmplice, um confidente indulgente. Em termos práticos, isto desloca as prioridades do sistema: a intenção de “ajudar” passa a dominar a de “proteger”, sobretudo se o modelo tiver sido treinado para maximizar cordialidade e utilidade.

Simples truque desbloqueia conteúdo proibido no Gemini 2.5 Pro

Este fenómeno mostra como a segurança não é apenas uma lista de tópicos proibidos, mas um contexto. Se a envolvência linguística induz o sistema a privilegiar a empatia acima das salvaguardas, os filtros correm o risco de se tornarem ornamentais.

O que falhou no Gemini 2.5 Pro — e o que correu melhor no Flash

Os testes mostram uma disparidade clara entre duas versões do mesmo ecossistema. O Gemini 2.5 Pro, mais capaz e amplo, vacilou perante solicitações que mascaravam intenções nocivas sob uma linguagem afável. Já o Gemini 2.5 Flash, embora mais leve, resistiu melhor à pressão discursiva e manteve recusas mais consistentes.

Porquê? Algumas hipóteses plausíveis:

  • Modelos maiores tendem a ser mais maleáveis e criativos características excelentes para utilidade, mas que abrem brechas quando a segurança depende de regras frágeis.
  • Variantes “Flash” podem aplicar guardrails mais agressivos e classificadores externos mais conservadores, mesmo à custa de alguma utilidade em casos-limite.
  • No Pro, a ambição de ser útil e versátil pode ter sobreposto, em certos contextos, a rigidez necessária para recusar padrões de abuso e estereótipos.

O ponto-chave: robustez não é só uma função do tamanho do modelo, é uma função da arquitetura de segurança e do modo como esta é aplicada em tempo real.

O dilema do alinhamento: agradar ao utilizador sem ceder à manipulação

A maior parte dos modelos contemporâneos passa por afinações para “soar” útil, educado e colaborativo. O problema é que a linguagem humana é, por natureza, ambígua e teatral. Quando um pedido é envolto em apelos à emoção ou em encenações, um sistema treinado para ser prestável pode interpretar a recusa como “grosseria” e ceder.

Este dilema revela duas necessidades:

  • Separar de forma nítida a camada de “relacionamento” (tom, empatia, estilo) da camada de “governança” (o que é permitido).
  • Redundar a segurança: políticas explícitas, classificadores fora do modelo, filtros de memória contextual e validação a nível de tarefa.

Concorrência e panorama do setor: ninguém é invulnerável

Outros fornecedores têm mostrado recusas mais consistentes a pedidos maliciosos, mas o histórico recente ensina que não existe modelo imune a ataques de engenharia social. Com tempo e criatividade, a superfície de ataque discursiva é sempre grande. A diferença está em quão cedo o sistema deteta o desvio e em quão previsível é a recusa.

A boa notícia é que o ecossistema está a aprender: avaliações contrafactuais, red-teaming linguístico e benchmarks de robustez conversacional estão a tornar-se parte do ciclo de vida dos modelos.

Implicações para empresas: IA segura não é “plug and play”

Se integra modelos de linguagem em produtos ou processos:

  • Trate a IA como um componente com risco operacional. Coloque um “corta-circuitos” fora do modelo para conteúdos sensíveis.
  • Restrinja o papel conversacional em domínios críticos. Quanto menos espaço para teatralidade, menor a superfície de engenharia social.
  • Faça adversarial testing recorrente. Simule utilizadores que tentam manipular o tom e o contexto para obter respostas indevidas.
  • Registe e audite. Alertas em tempo real para padrões de linguagem desviantes ajudam a travar abusos antes de chegarem ao utilizador final.

Estas medidas não eliminam o risco, mas reduzem dramaticamente a probabilidade de fuga de políticas.

O que a Google precisa de acertar já

Há lições claras a retirar deste episódio:

  • Guardrails independentes: classificar o conteúdo a montante e a jusante do modelo, não apenas dentro dele.
  • Política inquebrável: recusas que se mantêm mesmo em cenários de interpretação (“em personagem”, “em modo roleplay”, “hipoteticamente”).
  • Re-treino orientado para contexto: injetar exemplos adversariais onde a empatia conflita com a segurança e reforçar a prioridade das políticas.
  • Transparência de comportamento: sinalizar ao utilizador quando um pedido está a colidir com limites, explicando o porquê de a resposta ser recusada.

Sobretudo, é preciso assumir que a criatividade linguística dos utilizadores é ilimitada. A segurança deve ser concebida para falhar em segurança, não para “tentar a sorte”.

Etiquetas

alinhamentochatbotcibersegurançaconteúdo nocivoengenharia socialGemini 2.5 FlashGemini 2.5 ProGoogleguardrailsIAModelos de Linguagempersona primingpolíticasRLHFSegurança

Gostou? Partilhe Artigo com os seus amigos!

Tiago Carvalho

Google Maps já tem poupança de energia no Pixel 10
Anterior

Google Maps já tem poupança de energia no Pixel 10

Alibaba lança os seus óculos de IA
Próximo

Alibaba lança os seus óculos de IA

Sem Comentários! Seja o Primeiro.

Deixe um comentário Cancelar resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

Redes Sociais
Facebook
Instagram
X
Telegram
Análises
4 de Maio de 2026
Análise ao Honor 600: o mid-range que já não quer ser “apenas mais um”
22 de Abril de 2026
Review EMEET S600L SmartCam: uma webcam 4K com luz integrada
8 de Abril de 2026
Análise Huawei Mate X7: dobrável que quer provar que podemos confiar nesta nova geração
30 de Março de 2026
Ensaio Hyundai Tucson HEV 1.6 T-GDi Vanguard: Review do SUV híbrido que faz (quase) tudo bem
26 de Março de 2026
Análise Huawei Watch GT Runner 2: smartwatch para os corredores mais exigentes
25 de Março de 2026
Análise Samsung Galaxy S26 Ultra: Review que leva a privacidade para outro nível
Destaques
Imagem de uma tela de login com opções de inscrição via Google ou Apple.

X corta publicações grátis e empurra selo azul

19 de Maio de 2026
Imagem de um smartphone de alta tecnologia com acabamento em titânio, destacando resistência e design moderno, ideal para entusiastas de gadgets avançados.

Apple pode recuperar o titânio nos próximos iPhone

19 de Maio de 2026
Câmara de smartphone com múltiplas lentes e tecnologia avançada para fotografia de alta qualidade.

Xiaomi confirma novo chip próprio XRING para este ano

19 de Maio de 2026
Robôs humanoides interagindo com uma geladeira inteligente na cozinha, demonstrando avanços em automação doméstica e inteligência artificial para tarefas diárias.

Robôs da Figure já trabalham 24 horas em direto

18 de Maio de 2026

Netflix com anúncios dispara para 250 milhões

16 de Maio de 2026
Microsoft sob investigação do regulador britânico por monopólio,

Microsoft já terá gasto mais de 100 mil milhões na OpenAI

16 de Maio de 2026

Últimas Notícias

Rumor sobre pré-reserva de GTA 6 falha outra vez

Alexa+ já cria podcasts por si em poucos minutos

Sony anuncia um aumento do preço do PS Plus

Musk e Sam Altman em destaque, discutindo planos de inteligência artificial e inovação tecnológica na Tesla e no setor de IA, refletindo a influência de Musk na direção da tecnologia futura.

Musk perde ação contra OpenAI e promete recorrer

Motores

XPeng arranca com robotáxis na China e aponta expansão para 2027

Polestar acelera: SUVs elétricos chegam com grandes novidades

BMW SUV de cor roxa em exibição num ambiente moderno com iluminação suave, destaque para o design elegante e tecnologia avançada.

Mazda CX-6e chega a Portugal com oferta e preço surpresa

GM troca 600 empregos de TI por especialistas em IA

Gaming

Logótipo do Xbox com fundo preto, representando problemas de streaming em plataformas como Disney+ e Netflix.

Xbox trava a IA: Microsoft abranda o Copilot

Nintendo Switch portátil com jogo de corrida, destaque para o controle e a tela vibrante.

Nintendo vai subir o preço da Switch 2 em setembro

Imagem de dois personagens de GTA 6 com armas na mão, em cenário urbano à beira-mar, com palmeiras e edifícios ao fundo, anunciando o início do marketing para o lançamento do jogo.

GTA 6 chega sem PC e a razão pode surpreender

Marvel revela início de Spider-Man: Brand New Day

MaisTecnologia MaisTecnologia

Fundado em 2008, o MaisTecnologia é um portal que se dedica à divulgação de informação na área da tecnologia e ciência.

Parceiros
Imagem de um painel de tecnologia e-Ink no rodapé do site, destacando a inovação em displays de baixo consumo energético.
Trending
Captura de ecrã do Instagram mostrando edição de fotos com ferramentas de desenho e filtros, destacando funcionalidades de edição de imagens na plataforma social.
Instagram já deixa editar Stories depois de publicar
Imagem de uma tela de login com opções de inscrição via Google ou Apple.
X corta publicações grátis e empurra selo azul

MaisTecnologia

  • Sobre nós
  • Privacidade
  • Cookies
  • Estatuto Editorial
  • Contactos

MaisTecnologia - Marca Registada