Projeto de Mestrado - Adversarial Attacks
- Victor Hugo Germano
- há 10 horas
- 3 min de leitura
Enfim, o fim do mestrado. O curso está chegando ao fim, estas últimas semanas eu estive trabalho no Capstone Project, que é a principal entrega para o fim do curso.
Escolhi fazer este trabalho sozinho, como uma forma de me desafiar e atacar um tema que me interesso: Ataques Adversariais, uma forma de avaliar a robustez de modelos através de um processo de maximização do erro que os modelos apresentam durante o processo de predição.
Aqui está o resumo do trabalho:
O Projeto Final AAI-590 da Universidade de San Diego, no programa de Mestrado em Inteligência Artificial Aplicada, tem como foco ataques adversariais contra o Whisper, o modelo de reconhecimento automático de fala da OpenAI. Utilizando múltiplas abordagens adversariais, implementamos o Projected Gradient Descent (PGD), a Perturbação Adversarial Universal (UAP) e o método Carlini-Wagner (CW) direcionado, com o objetivo de explorar as vulnerabilidades do Whisper a “ruídos inteligentes” intencionais que podem afetar as capacidades do modelo. A principal conclusão é que o Whisper permanece vulnerável no cenário digital de white-box. Ataques não direcionados alteram significativamente a saída da transcrição, ataques direcionados podem forçar uma frase específica em um pequeno conjunto de avaliação, e uma perturbação universal pode generalizar entre múltiplas locuções. Ao mesmo tempo, os ataques mais bem-sucedidos na implementação atual frequentemente operam em níveis de SNR mais audíveis do que o alvo ideal original, de modo que a eficácia e a imperceptibilidade continuam sendo o principal trade-off.
Infelizmente (dadas as restrições do projeto), nenhum dos ataques implementados atingiu plenamente a faixa ideal de 35 a 45 dB de SNR necessária para que o ruído seja verdadeiramente imperceptível. Os ataques direcionados são os mais audíveis. Isso indica que, embora a vulnerabilidade seja real em pipelines digitais e em cenários de transcrição em lote, é possível pensar em ataques que afetem diretamente o resultado de transcrições usando o modelo (Whysper)
Agora, no domínio digital, como em transcrição em lote, processamento via API e gravações telefônicas, esse risco é mais do que concreto. Uma perturbação que pode ser incorporada diretamente nos arquivos de áudio antes de chegarem ao modelo tornam esse ataque em um vetor escalável e difícil de detectar por sistemas automatizados. No entanto, a principal limitação atual é a imperceptibilidade: em níveis de aproximadamente 11 dB de SNR, um ouvinte cuidadoso ainda consegue perceber a presença de ruído adversarial. Isso revela um trade-off técnico importante entre a eficácia do ataque e sua discrição perceptiva.
Do ponto de vista de segurança, sistemas baseados em reconhecimento automático de fala ainda precisam de mecanismos robustos de defesa contra manipulações adversariais, especialmente em ambientes onde os dados de entrada não são confiáveis. É possível se precaver? com certeza: estratégias como detecção de anomalias acústicas, treinamento adversarial e filtragem pré-processamento podem ser caminhos promissores.
Um aspecto importante deste trabalho é seu potencial de aplicação positiva. Com o desenvolvimento adequado, essas técnicas podem auxiliar jornalistas, ativistas e defensores da privacidade a atuarem como observadores críticos contra vigilância indevida e violações de direitos. No contexto da promoção de leis de proteção de dados e da proteção de denunciantes (whistleblowers), tais ferramentas podem fortalecer práticas de investigação e ampliar a liberdade de expressão, permitindo que indivíduos se protejam contra sistemas automatizados de monitoramento.
Desapareci nos últimos meses devido ao empenho no programa, e outras viagens a trabalho. Agora espero retomar o conteúdo nesse canal.



Comentários