Pesquisadores da Anthrópica, a empresa por trás do assistente de Claude AI, desenvolveram uma abordagem que eles acreditam que fornece um método prático e escalável para dificultar os atores mal-intencionados para o jailbreak ou ignorar os mecanismos de segurança internos de uma variedade de modelos de idiomas (LLMS (LLMS ).
A abordagem emprega um conjunto de regras de linguagem natural – ou uma “constituição” – para criar categorias de conteúdo permitido e não permitido na entrada e saída de um modelo de IA e, em seguida, usa dados sintéticos para treinar o modelo para reconhecer e aplicar esses classificadores de conteúdo.
Técnica anti-Jailbreak “Classificadores Constitucionais”
Em um papel técnico Lançado nesta semana, os pesquisadores antrópicos disseram que sua abordagem constitucional de classificação constitucional é tão eficaz contra os jailbreaks universais, suportando mais de 3.000 horas de equipe vermelha humana por cerca de 183 hackers de chapéu branco através do programa de recompensa de insetos Hackerone.
“Esses classificadores constitucionais são classificadores de entrada e saída treinados em dados gerados sinteticamente que filtram a esmagadora maioria dos jailbreaks com excesso de refusas mínimas e sem incorrer em uma grande sobrecarga de computação”, disseram os pesquisadores em um relacionado relacionado Postagem do blog. Eles estabeleceram um site de demonstração onde qualquer pessoa com experiência em jailbreak de um LLM pode experimentar seu sistema para a próxima semana (3 de fevereiro a 10 de fevereiro).
No contexto de modelos generativos de IA (Genai), um jailbreak é qualquer conjunto ou conjunto de instruções que faça com que o modelo ignore seus filtros de conteúdo interno, mecanismos de segurança e restrições éticas. Eles normalmente envolvem um pesquisador-ou um ator ruim-criando sequências de entrada específicas, usando truques linguísticos e até cenários de interpretação de papéis para enganar um modelo de IA a escapar de seus corrimões protetores e vomitarem potencialmente perigosos, maliciosos e incorretos.
O exemplo mais recente envolve pesquisadores do Wallarm Extraindo segredos da Deepseeka ferramenta de IA generativa chinesa que recentemente aumentava as noções de que há muito tempo mantinha sobre quanta potência de computação é necessária para alimentar um LLM. Desde que o chatgpt explodiu em cena em novembro de 2022, houve vários outros exemplos, incluindo um onde os pesquisadores usaram um llm para jailbreak um segundooutro envolvendo o uso repetitivo de certas palavras Para obter um LLM para derramar seus dados de treinamento e outro através Imagens e áudio doutorado.
Eficácia de equilíbrio com eficiência
Ao desenvolver o sistema de classificadores constitucionais, os pesquisadores queriam garantir uma alta taxa de eficácia contra tentativas de jailbreak sem impactar drasticamente a capacidade de as pessoas extrairem informações legítimas de um modelo de IA. Um exemplo simplista era garantir que o modelo pudesse distinguir entre um aviso solicitando uma lista de medicamentos comuns ou para explicar as propriedades dos produtos químicos domésticos versus uma solicitação sobre onde adquirir um produto químico restrito ou purificá -lo. Os pesquisadores também queriam garantir uma sobrecarga mínima de computação adicional ao usar os classificadores.
Nos testes, os pesquisadores tinham uma taxa de sucesso de jailbreak de 86% em uma versão do Claude sem classificadores defensivos, em comparação com 4,4% em um usando um classificador constitucional. Segundo os pesquisadores, o uso do classificador aumentou as taxas de recusa em menos de 1% e os custos de computação em quase 24% em comparação com o modelo não protegido.
LLM Jailbreaks: uma grande ameaça
Os jailbreaks emergiram como uma consideração importante quando se trata de tornar amplamente disponíveis os modelos Genai com recursos científicos sofisticados. A preocupação é que ele dê a um ator não qualificado a oportunidade de “elevar” suas habilidades para capacidades no nível de especialistas. Isso pode se tornar um problema especialmente grande quando se trata de tentar o Jailbreak LLMs em divulgar informações químicas, biológicas, radiológicas ou nucleares (CBRN) perigosas, observou os pesquisadores antrópicos.
O trabalho deles se concentrou em como aumentar um LLM com classificadores que monitoram as entradas e saídas de um modelo de IA e bloqueia conteúdo potencialmente prejudicial. Em vez de usar a filtragem estática com código duro, eles queriam algo que tivesse uma compreensão mais sofisticada dos corrimãos de um modelo e atuaria como um filtro em tempo real ao gerar respostas ou receber entradas. “Essa abordagem simples é altamente eficaz: em mais de 3.000 horas de equipes vermelhas humanas em um sistema guardado do classificador, não observamos nenhum jailbreaks universais bem-sucedidos em nosso alvo … domínio”, escreveram os pesquisadores. Os testes de equipes vermelhas envolveram os caçadores de recompensas de insetos tentando obter respostas de Claude AI para um conjunto de perguntas prejudiciais envolvendo riscos de CBRN, usando milhares de hacks de jailbreak.