-
Adversarial Example에 대한 Survey 논문을 최근 읽고 있어서, 이에 대해 정리하고자 합니다.
각 기법에 대한 내용은 필수적인 내용만 최소한으로 작성하고자 합니다.
L-BFGS Attack은 가장 고전적인 공격기법 중 하나입니다.
image recognition tasks를 타깃으로 하였습니다.
이 공격 기법의 목적은 minimal perturbation을 찾는 것입니다.
식으로 나타내면 다음과 같습니다.
arg minr||r||2i.e., r=x′−x
위에서 r을 찾는 것이 목표입니다.
이를 L-BFGS Attack을 통해서 찾고자 한다.
L-BFGS는 다음 값을 minimize하는 x′ 를 찾으려 합니다. 즉, Train을 할 때 Loss가 다음처럼 되는 것이지요.
optimize 해야하는 값이 다음 식에 해당하는 값입니다.
c||r||2+L(x′,t) such that x′∈[0,1]
||r||의 값과 Loss 값을 더해서, 두 값을 작게 만드는 x′을 찾게 되면, 앞서 말했던 목적을 달성하게 되고, 이를 반복하여 f(x′)!=y 를 만족하는 x′을 찾게 되면 조건에 만족하는 adversarial example을 생성할 수 있습니다.
처음 들어보면 생소하긴 할 텐데, 위 식을 이해할 때 다음 그림을 참고하면 이해하기 편합니다.
L-BFGS optimization 위 그림으로 표현한 것이 L-BFGS 최적화에 대한 것이고,
Attack의 경우에는 정확히 위 방법을 사용 하되, optimization의 loss를 true label인 y가 아니라 target label인 t로 하고, ||r||2 을 loss에 추가하여 target label과 loss를 줄이는 동시에 perturbation의 값도 최소화 하고자 하는 방법이다.
이 글의 바탕이 되는 논문은 다음 논문입니다. 서베이 논문으로 간단히 나와있습니다.
'Study > Paper Review' 카테고리의 다른 글