Defense methods for convolutional neural networks against adversarial attacks

DSpace Repository

A- A A+

Defense methods for convolutional neural networks against adversarial attacks

Show simple item record

dc.contributor Universidade Federal de Santa Catarina
dc.contributor.advisor Baldissera, Fabio Luis
dc.contributor.author Zago, João Gabriel
dc.date.accessioned 2021-08-23T14:05:07Z
dc.date.available 2021-08-23T14:05:07Z
dc.date.issued 2021
dc.identifier.other 371965
dc.identifier.uri https://repositorio.ufsc.br/handle/123456789/226929
dc.description Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2021.
dc.description.abstract Mesmo com seu sucesso na classificação de imagens, as redes neurais convolucionais são frágeis com relação a pequenas perturbações inseridas nas imagens que tal modelo deve classificar: pequenas alterações nos valores de alguns dos \textit{pixels} da sua entrada podem resultar em uma classificação de saída completamente diferente. Tais imagens intencionalmente perturbadas para enganar o classificador são conhecidas como exemplos adversários. A vulnerabilidade das redes neurais convolucionais com respeito aos exemplos adversários levanta um alerta com relação a utilização destes modelos em aplicações que necessitam de garantias de segurança: que envolvem risco a vida, ambiental, ou tem implicações financeiras. Esta dissertação contém dois métodos complementares e computacionalmente baratos que buscam auxiliar a aliviar e eliminar tal vulnerabilidade. a) uma nova estratégias que reduz a efetividade de ataques adversários, ofuscando as saídas da rede neural a partir da adição de perturbações controladas, não necessitando de nenhum tipo de treinamento; e b) um método que emprega a lei de Benford para distinguir imagens sem perturbação de exemplos adversários, provendo uma proteção extra que age nas entradas de um classificador vulnerável. O primeiro método de defesa desenvolvido (a) não somente reduz a taxa de sucesso, mas também força a adição de uma perturbação de maior magnitude por parte do atacante. O estudo conduzido em (b) indicou que: 1) imagens adversárias possuem uma tendência de desviar de forma significativa com respeito a lei de Benford, em comparação com imagens que não foram perturbadas; 2) há um incremento deste desvio com o aumento da perturbação inserida; e 3) em alguns casos é possível identificar ataques em andamento através de um monitoramento deste desvio, o que torna possível o desligamento do atacante antes que o mesmo complete a sua operação e crie um exemplo adversário. Por fim, pelo fato de ambos os métodos propostos serem ortogonais, é esperada uma maior proteção contra ataques adversários ao se utilizar ambos simultaneamente.
dc.description.abstract Abstract: Despite its success in image classification, Convolutional Neural Networks (CNN) are still fragile to small perturbations in the input images they have to classify: slight changes in the values of some pixels might result in completely different network outputs. Such images purposefully perturbed to deceive a classifier are known as adversarial images. This vulnerability of CNN to adversarial images raises concerns in safety-sensitive applications: involving life-threatening, environmental, or financial implications. This thesis proposes two computationally cheap and complementary methods to help circumvent and alleviate this fragility of CNN: a) a novel strategy that reduces the success of adversarial attacks by obfuscating the softmax output, which does not require any network training; and b) a method that employs Benford's Law for distinguishing transformed natural images from transformed adversarial ones at the pixel level, providing an extra shield acting at the input layer of vulnerable CNN. The defense we developed in (a) not only decreases the attack success rate but also forces the attack algorithm to insert larger perturbations in the input images. The study conducted in (b) indicates that: 1) adversarial images tend to deviate significantly more from Benford's distribution than unaltered images; 2) this deviation increases with the magnitude of the perturbation; 3) in some cases, it is possible to identify ongoing attacks by online monitoring this deviation, making it possible to turn off the classifier for the particular requester before it completes an attack. Finally, these two methods are orthogonal in that we expect the CNN classifier to get better protection against attacks while using them simultaneously. en
dc.format.extent 66 p.| il., gráfs., tabs.
dc.language.iso eng
dc.subject.classification Engenharia de sistemas
dc.subject.classification Automação
dc.subject.classification Redes neurais (Computação)
dc.title Defense methods for convolutional neural networks against adversarial attacks
dc.type Dissertação (Mestrado)
dc.contributor.advisor-co Saad, Rodrigo Tacla


Files in this item

Files Size Format View
PEAS0369-D.pdf 4.336Mb PDF View/Open

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account

Statistics

Compartilhar