8 min read

PGD Training

1. Introduction

How can we train deep neural networks that are robust to adversarial inputs?
  • 이 논문에서는 robust optimization관점에서 neural networks의 adversarial robustness를 연구한다.
  • 기존의 방어 연구들에서는 특정 알려진 공격에 대해서만 방어하는 등 제공하는 guarantee에 대해 좋은 이해를 제공하지 않았다.
  • 따라서, 이 논문은 Adversarial Attack에 대한 보안을 원리적인 방식으로 포착하기 위해 Natural saddle point (min-max) formulation 공식을 사용한다.
  • 이 공식은 저항하고자 하는 공격의 넓은 범위를 명확하게 하며, 기존의 연구들을 공통의 이론적 틀에 넣게 해준다.

이 논문의 기여는 다음과 같다.

  1. Saddle point formulation에 해당하는 부분을 깊이 연구한다. first-order method인 PGD를 통해 이 문제를 해결할 수 있다.
  2. 네트워크 구조가 robustness에 미치는 영향을 조사하고, capacity가 중요한 역할을 한다는 것을 확인했다.
  3. MNIST와 CIFAR10에 대해 높은 정확도를 달성했다.

2. An Optimization View on Adversarial Robustness

  • 일반적으로 loss를 줄여나가는 ERM(Empirical Risk Minimization)은 큰 성공을 거두었지만, 종종 adversary하게 조작된 example에 대해 robust한 모델을 생성하지 못한다.
  • 따라서, 이 ERM을 적절히 확장하여 견고한 모델을 보장해야 한다.
2.1
  • 2.1 수식은 이전의 많은 연구들을 통합하며, 이 관점은 saddle point problem을 inner maximization 문제와 outer minimization 문제의 조합으로 볼 수 있다.
  • Inner maximization -> 높은 loss를 달성하는 Adverarial Attack
  • Outer minimization -> 내부 공격 문제에 의해 주어진 Adversarial Loss를 최소화하는 모델 매개변수를 찾는 것.

2.1. A Unified View on Attacks and Defenses

  • Prior work on adversarial examples has focused on two main questions:
  1. How can we produce strong adversarial examples, i.e., adversarial examples that fool a model with high confidence while requiring only a small perturbation?
  2. How can we train a model so that there are no adversarial examples, or at least so that an adversary cannot find them easily?
  • 우리의 관점은 위 질문들에 대하여 모두 답을 할 수 있다.
  • 공격 측면에서, FGSM과 같은 이전의 방법들이 존재했다. FGSM은 infinite norm-bounded adversary이고, 다음과 같이 계산된다:
FGSM Method
  • FGSM은 simple one-step scheme이라고 볼 수 있으며, 더 강력한 기법인 projected gradient descent(PGD)는  multi-step variant이다. 수식은 다음과 같다:
PGD
  • 본 논문에서는 강력한 공격방법인 PGD를 사용한다.
  • 방어 측면에서, 본 논문은 모든 training example을 FGSM-perturbed counterpart로 대체한다.

3. Towards Universally Robust Networks

  • 2.1 수식에 따라 Adversarial Attack에 대한 loss를 줄이기 때문에 이론적으로 Adversary가 불가능하다.
  • non-convex outer minimization 문제와 non-concave inner maximization 문제를 모두 다뤄야 한다.
  • 특히, non-concave inner maximization을 실험적으로 탐구하며, 이 문제에 대한 loss landscape가 local maxima를 놀랍도록 다루기 쉬운 구조를 가지고 있음을 주장한다.

3.1 The Landscape of Adversarial Examples

  • 저자들은 inner problem에 대해 더 자세히 이해하기 위해서 MNIST와 CIFAR-10에서의 landscape of local maxima를 조사한다.
  • main tool은 PGD를 사용했으며, 결론적으로 저자들의 실험에서 non-concave inner maximization problem은 다루기 쉽다고 주장한다.
  • 다양한 random point에서 출발해도, 결국 만들어지는 adversarial example의 loss값들은 concentrate 된다는 것이다. 이는 위에서 제시한 min-max formulation을 PGD를 통하여 수행이 가능하다는 이야기이다.
  • 또한 아래 그림을 보면, adversarial training된 model의 loss가 standard training에 비해 값이 매우 작은 것을 볼 수 있다.
  • 다음의 그림은 local maxima에 대한 값을 나타내며, 파란색은 standard network, 빨간색은 adversarial trained network를 나타낸다.
  • random point로부터 시작했고, PGD보다 더 loss값을 낮게 만드는 것은 어렵다. 또한, outlier없이 잘 집중된 것을 볼 수 있다.

3.2 Fisrt-Order Adversaries

  • 저자들의 실험에서 PGD로 찾아진 local maxima가 모두 비슷한 loss값을 가진다는 것을 알 수 있다.
  • 이 집중이 되는 현상은 PGD가 모든 first-order adversaries에 대해 robustness를 보인다고 할 수 있다. PGD adversaries에 robust하다면, 다양한 attack들에 대해서도 robust할 수 있다.
  • 실제로, 이 robustness 보장은 black-box attack들에 대해 더욱 강해진다.
  • 부록 B에서는 Transferability에 대해서 논의하며, capacity를 늘리고 훈련시키는 adversary를 강화하여 저항력 향상을 관찰한다.

3.3 Descent Directions for Adversarial Training

  • adversarial loss를 최소화하는 model parameter들을 찾아야 한다.
  • main method는 SGD를 사용한다. 하지만 의문이 있는데, Danskin's theorem에 다라 연속적으로 미분가능한 함수에서 학습이 잘 될 것이라고 이야기한다.

4. Network Capacity and Adversarial Robustness

  • Capacity 증가만으로도 one-step perturbation에 대해 roubustness가 증가한다. 이는 작은 Epsilon에 대해서도 Adversarial Training에 도움을 줄 수 있다는 이야기이다.
  • FGSM은 높은 Epsilon에 대해 robustness를 증가시키지 못한다. 이 경우 네트워크는 adversarial examples에 overfit되며, label leaking으로 이어진다. 이러한 네트워크의 경우 natural examples에 대한 성능이 낮아지며, PGD에 대한 robustness는 얻지 못한다.
  • Small capacity에 대해서 PGD에 대한 방어가 무의미 할 수 있다. 작은 capacity는 훈련 과정에서 natural example에 대한 성능을 희생시켜야 robustness를 제공할 수 이께 된다.
  • Capacity를 증가시키면 saddle point problem의 value가 감소한다. 이는 모델이 적대적 예제들을 점점 더 잘 맞춰나갈 수 있다는 것을 나타낸다.
  • Capacity의 증가와 강력한 adversaries는 transferability를 감소시킨다.

5. Experiments: Adversarially Robust Deep Learning Models

We need to focus on two key elements.

  • Train a sufficiently high capacity network.
  • Use the strongset possible adversary.
  • 아래 그림은 training 과정에서 adversarial examples의 cross-entropy loss값의 그래프이다.
  • 아래 그림은 L2-norm에 대해서도 실험은 한 결과이다.
  • Epsilon값이 조금 증가해도 값이 많이 떨어진다. L infinite-norm에 대해서 robust하면 L2 attack에서도 어느정도 robust하다.
  • Table 1은 MNIST에서 Epsilon 0.3에 대해 adversarially train 된 모델의 performance이다.
Table 1
  • A는 white-box attack이며, A'은 구조는 같지만 가중치 초깃값이 다름.
  • B는 구조도 다른 black-box attack이다.
  • Table 2는 CIFAR-10에 대한 성능이다.
Table 2
  • A_nat는 natural example로 train된 모델에 공격한 것이다.

6. Conclusion

  • MNIST 데이터에서는 충분히 robust하면서 높은 정확도를 보였다. CIFAR-10에서는 정확도는 조금 떨어지지만, adversarial attack에 대한 robustness를 증가시켰다.