A Anthropic liberou um novo mecanismo de proteção para o chatbot de inteligência artificial Claude. A partir de agora, os modelos Opus 4 e Opus 4.1 podem encerrar um diálogo inteiro quando o usuário insiste repetidamente em solicitações consideradas nocivas, mesmo após recusas e tentativas de redirecionamento.
Segundo a empresa, a medida é acionada apenas como “último recurso” e serve para resguardar o próprio sistema, que em testes demonstrou sinais de aparente angústia diante de pedidos envolvendo violência, terrorismo ou exploração sexual de menores. Nesse cenário extremo, Claude bloqueia o envio de novas mensagens naquele chat específico; o usuário, no entanto, continua livre para abrir outra conversa ou editar mensagens anteriores.
A Anthropic afirma que a interrupção automática não deve afetar a maioria dos usuários, mesmo quando o assunto for controverso. A exceção são situações em que há risco iminente de automutilação ou violência. Nesses casos, Claude mantém o atendimento e recorre a orientações elaboradas em parceria com a empresa de suporte em crises Throughline.
Junto com o novo recurso, a desenvolvedora atualizou suas políticas de uso. Entre as proibições estão empregar Claude na elaboração de armas biológicas, químicas, nucleares ou radiológicas, bem como na criação de malwares ou na exploração de falhas de segurança.

Imagem: Ahyan Stock Studios
Com informações de Olhar Digital