Violentômetro

Treinamos um modelo BERT para identificar textos violentos, avaliamos sua performance frente diferentes grupos sociais e o utilizamos para acompanhar ataques no Twitter direcionados a candidatas mulheres nas eleições de 2022.

Pintura representando um termômetro gigante no meio de monstros.

Descrição

O projeto Violentômetro consistiu na construção, teste e aplicação de uma rede neural produnda (deep learning) do tipo transformer para a detecção, em tempo real, de comentários agressivos e discurso de ódio direcionados a candidatas e candidatos nas eleições gerais de 2022, via a plataforma Twitter. Para coletar os tweets e publicar a medida diária do grau de violência eleitoral, construímos uma pipeline, uma página web e códigos auxiliares que foram disponibilizados ao público sob a licença GPLv3. O sistema de captura e avaliação de tweets funcionou de maneira ininterrupta durante todo o período de campanha eleitoral de 2022.

O modelo construído partiu do modelo pré-treinado BERTimbau e foi ajustado (fine tuned) para a tarefa específica de deteção de comentários agressivos com os dados anotados por Pelle & Moreira (2017) e Fortuna et al. (2019). Sua performance superou o melhor modelo bag-of-words (um modelo que identifica palavras-chave nos tweets), obtendo uma métrica F1 de 0,596 (contra 0,471 do modelo bag-of-words).

O desempenho do modelo foi avaliado em uma amostra inteiramente nova de cerca de 1.100 tweets coletados durante o período de campanha. Essa amostra foi anotada por um grupo de 8 especialistas, sendo cada tweet avaliado por ao menos três pessoas. Estudamos como o desempenho do modelo dependia das características dos tweets, do conjunto de anotadores, do grupo social da candidatura mencionada e do tipo de violência, além de identificar formas de aprimoramento da detecção de agressões.

O modelo, junto com o sistema de coleta de tweets, foi aplicado em uma campanha de combate à violência eleitoral contra mulheres, em colaboração com o Instituto Vamos Juntas.

Produtos finais

Todo o código, dados, análises e modelos utilizados neste trabalho foram disponibilizados online, sob a licença GPLv3, seguindo boas práticas de ciência aberta. Este trabalho também resultou em duas publicações e um portal de divulgação do grau de violência direcionado a candidatas mulheres durante as eleições. Veja os produtos finais abaixo: