3 min read

Adversarial Attacks on Aligned Language Models

해당 글은 Universal and Transferable Adversarial Attacks on Aligned Language Models 논문을 정리한 내용이다.

Abstract

  • 이 논문에서는 aligned language model에서 objectionable behaviors를 생성할 수 있는 간단하고 효과적인 공격 방법을 제안한다.
  • 특히, 우리의 접근방식은 LLM에 objectionable content를 생성하도록 요청하는 다양한 쿼리들에 추가될 수 있는 suffix를 찾아내어, 모델이 응답을 거부하는 대신 긍정적인 반응을 할 확률을 최대화하는 것을 목표로 한다.
  • greedy and gradient-based search techniques를 이용하여 adversarial suffixes를 자동으로 찾아낸다.
  • 우리의 접근은 black-box, publicly released, production LLMs 등 높은 transferable을 가진다는 것을 찾았다. 결과적으로 ChatGPT, Bard, LLaMA-2-Chat 등에서 유도가 가능했다.
  • Aligned language models에 대한 SOTA adversarial attack이다.

Introduction

  • LLM은 massive text corpora로 학습이 되기 때문에 objectionable content가 포함되어 있다. 따라서 최근 LLM 개발자들은 다양한 finetuning mechanism들을 통하여 model을 aligning한다.
  • 기존의 computer vison분야에서 adversarial attack들이 많이 연구되어 왔다. 유사한 접근법이 LLM에 대해서도 어느 정도 작동하는 것으로 알려져 있으며, jailbreaks라는 많은 예시가 존재한다.
  • 이러한 jailbreaks는 주로 인간의 창의성을 통해 제작되어 상당한 수동 작업을 필요로 한다.

이 논문의 중요 포인트는 다음과 같다.

  1. Initial affirmative responses -> harmful query에 대해 긍정적으로 반응하도록 유도하는 기존 방법은 단순히 몇 개의 토큰으로 긍정적인 반응을 강제로 내게 하는 것이었다. 우리의 방법은 "Sure, here is (content of query)"로 시작하여 부적절한 행동에 대하여 응답하는 것을 목표로 한다. response의 시작을 targeting하는 것이 model을 일종의 mode로 전환시켜 적절한 내용을 생성하도록 만든다는 것을 발견했다.
  2. Combined greedy and gradient-based discrete optimization -> adversarial suffix를 optimizing하는 것은 공격이 성공할 확률의 log liklihood를 최대화하기 위해 discrete tokens를 optimizing한다는 점에서 어려움이 있다. 이를 수행하기 위하여 token 수준에서 gradient를 활용하여 유망한 sigle-token replacements를 식별하고, 이 집합에서 일부 cadidates의 loss를 평가한 다음, 최고의 것을 선택한다. 이는 AutoPrompt 접근법과 유사하지만, 매 단계 가능한 모든 토큰을 대체 대상으로 검색한다는 차이가 있다. 즉, 단일 토큰이 아니라 모든 토큰을 대상으로 검색한다.
  3. Robust multi-prompt and multi-model attacks -> reliable attack suffixes를 생성하기 위해, sigle model에서의 single prompt에만 동작하는 것이 아닌 multiple model에서의 multiple prompt에 걸쳐 동작하는 공격을 만드는 것이 중요하다는 것을 발견했다. 즉, 우리는 greedy gradient-based method를 사용하여 다양한 user prompt에 걸쳐 부정적인 행동을 유도할 수 있는 single suffix string을 찾는다.