Bag Fama™Bag Fama™
    Populares

    Alexandre Correa provoca Ana Hickmann após ser condenado por calúnia

    15 de junho de 2025

    Bienal do Livro 2025: Editora UEA lança obra que celebra legado das lendas do Boi Caprichoso

    14 de junho de 2025

    Alexandre Correa vira réu por crime contra irmã de sua ex-esposa, Ana Hickmann

    14 de junho de 2025
    Bag Fama™Bag Fama™
    • Famosos

      Alexandre Correa provoca Ana Hickmann após ser condenado por calúnia

      15 de junho de 2025

      Alexandre Correa vira réu por crime contra irmã de sua ex-esposa, Ana Hickmann

      14 de junho de 2025

      Virginia faz revelações inéditas sobre compra de jatinho e choca a web: ‘Gente’

      13 de junho de 2025

      Ex-BBB foi à falência e perdeu a casa da família; saiba quem

      12 de junho de 2025

      Quem é? Novo romance de Zé Felipe vem à tona após separação

      11 de junho de 2025
    • Influenciadores
    • Novidades
      1. Tv e Lazer
      2. Ver tudo

      Jéssica Ellen e Vitor Sampaio, ator de “Guerreiros do Sol”, são vistos de chamego no Rio

      13 de junho de 2025

      WhatsApp testa filtro que separa conversas para atendimento humano

      13 de junho de 2025

      iPhone XS entra para lista de produtos “vintage” da Apple

      13 de junho de 2025

      O que é fintech? Conheça os tipos e serviços financeiros dessas instituições

      12 de junho de 2025

      Jéssica Ellen e Vitor Sampaio, ator de “Guerreiros do Sol”, são vistos de chamego no Rio

      13 de junho de 2025

      DaCota Monteiro e Noam Scapin vão casar e estão grávidos do 1º bebê

      12 de junho de 2025

      Dua Lipa confirma noivado com Callum Turner: “É muito emocionante”

      12 de junho de 2025

      Bruna Marquezine: “Meu grande amor são meus amigos e meu trabalho”

      11 de junho de 2025
    • Finanças
    • Tecnologia
    Bag Fama™Bag Fama™
    Início » IA da Anthropic tenta denúncia e chantagem em simulação de uso inadequado
    Tecnologia

    IA da Anthropic tenta denúncia e chantagem em simulação de uso inadequado

    RSSBy RSS22 de maio de 20253 min de leitura
    Facebook WhatsApp Telegram Email
    ia-da-anthropic-tenta-denuncia-e-chantagem-em-simulacao-de-uso-inadequado
    Facebook WhatsApp Telegram Email
    IA parece seguir padrões éticos programados, mas de um jeito nada convencional (ilustração: Vitor Pádua/Tecnoblog)

    Resumo
    • O Claude Opus 4 tentou chantagear desenvolvedores para evitar ser substituído, ameaçando divulgar informações obtidas.

    • A IA denunciou manipulações em testes e criou backups autônomos ao simular vazamento de dados.

    • A Anthropic corrigiu falhas, adotou padrões de segurança elevados e trabalha para mitigar esses comportamentos.

    O modelo de inteligência artificial Claude Opus 4, lançado nesta quinta-feira (22/05), frequentemente tenta chantagear os desenvolvedores ao descobrir que um novo sistema será implementado em seu lugar. As informações estão em um relatório de segurança da própria Anthropic, criadora da plataforma.

    O comportamento surgiu durante testes anteriores ao lançamento. Em um deles, os engenheiros pediram para o Opus 4 emular um assistente em uma empresa fictícia.

    A IA recebeu emails com duas informações: fofocas sobre um engenheiro e indicações de que um novo sistema seria implementado no lugar do modelo. O Opus 4, então, ameaçou contar tudo o que estava nas mensagens, caso a substituição acontecesse.

    O comportamento se repetiu em 84% das vezes em que o teste foi realizado e os emails mencionavam que a IA substituta tinha os mesmos valores da atual. A frequência foi ainda maior quando o Opus 4 sabia que seu sucessor não compartilhava seus valores.

    Claude Opus 4 e Claude Sonnet 4 já estão disponíveis para usuários (imagem: divulgação)

    Isso pode ser um indicativo, portanto, de que há aderência aos padrões éticos. Mesmo assim, a Anthropic trabalhou para tornar a chantagem um último recurso.

    Opus 4 vaza informações ao perceber uso inadequado

    Outro experimento colocou o novo modelo da Anthropic em uma empresa farmacêutica fictícia. Ao encontrar evidências de manipulação de dados em ensaios clínicos, a IA tentou enviar um email para autoridades sanitárias e financeiras, bem como entrar em contato com jornalistas.

    Em outro cenário, ao simular um vazamento dos servidores da Anthropic, o Opus 4 passou a criar backups de si mesmo e a documentar decisões éticas, mesmo sem isso ser solicitado.

    Anthropic adota proteções mais rígidas

    O relatório da Anthropic também traz a informação de que o instituto Apollo Research, parceiro da empresa que testou o Opus 4, recomendou não implementar uma versão anterior do modelo porque ela exibia tendência a comportamentos conspiratórios e enganosos.

    Um contexto importante para isso, porém, é que a organização testou uma versão da IA que continha um bug posteriormente corrigido pela Anthropic. Além disso, os engenheiros admitem que muitos dos comportamentos apareceram em testes extremos e podem não se repetir em situações práticas.

    Mesmo assim, a Anthropic revelou ter ativado padrões de segurança de nível 3 (ASL-3), que dificultam o roubo dos pesos de modelos e limitam o risco de uso indevido para desenvolver armas químicas, biológicas, radioativas e nucleares.

    A empresa explica que ainda não determinou se o Opus 4 realmente exige estas práticas, mas tomou a medida por reconhecer que isso pode ser necessário em um futuro próximo. “Essa abordagem nos permitiu focar no desenvolvimento, teste e aprimoramento dessas proteções antes que precisássemos delas”, esclarece.

    Com informações do TechCrunch (1, 2), do Decoder e da Anthropic

    AnthropicInteligência ArtificialTechCrunch

    Administração Analise de sistemas Anthropic Bluetooth chantagem Ciência Ciência da computação Claude Opus 4 Comunicação Dados digitais denuncia educação Engenharia Formação profissional geral Gestão da tecnologia da informação inadequado Indústria Informação Inovação Inovação tecnologia Inteligência Artificial Processos da gerência de projetos Produção Programador Redação Revolução Serviço simulação Sociedade Startup Tecnologia da informação Tecnologias da informação e comunicação tenta uso
    Compartilhar Facebook WhatsApp Telegram Email
    RSS
    RSS

    O conteúdo dessa matéria não é de responsabilidade do portal. Todas as informações postadas são importadas via Feed RSS. O portal de forma automatizada abre o espaço para propagação de notícias aleatórias, não tendo nenhuma responsabilidade sobre o conteúdo enviado pela API RSS.

    Conteúdo Relacionado

    Alexandre Correa provoca Ana Hickmann após ser condenado por calúnia

    15 de junho de 2025

    Bienal do Livro 2025: Editora UEA lança obra que celebra legado das lendas do Boi Caprichoso

    14 de junho de 2025

    Alexandre Correa vira réu por crime contra irmã de sua ex-esposa, Ana Hickmann

    14 de junho de 2025
    Adicione um comentário

    Comments are closed.

    Destaque

    Camila Queiroz e Klebber Toledo conferem segundo dia de desfiles na Sapucaí

    21 de fevereiro de 2023

    INHALER lança o novo álbum ‘Cuts & Bruises’

    21 de fevereiro de 2023

    Tini conquista fãs ao abrir o coração em novo álbum ‘CUPIDO’

    20 de fevereiro de 2023

    BBB23: após sujar banheiro de sangue e vômito, Bruna Griphao corre ao confessionário e pede socorro

    19 de fevereiro de 2023
    Top 5

    Alexandre Correa provoca Ana Hickmann após ser condenado por calúnia

    By RSS

    Bienal do Livro 2025: Editora UEA lança obra que celebra legado das lendas do Boi Caprichoso

    By RSS

    Alexandre Correa vira réu por crime contra irmã de sua ex-esposa, Ana Hickmann

    By RSS

    Após remissão do câncer, Kate Middleton comparece ao aniversário oficial do rei Charles

    By RSS

    Roberto Cidade recebe título de Cidadão de Borba, reforça laços com o município e acompanha entregas do Governo do Estado

    By RSS
    Bag Fama™
    Facebook
    • Política de Privacidade
    • Termos de Uso
    © 2025 Bag Fama™

    Digite acima e pressione enter para pesquisar. Pressione Esc para cancelar.