Treinamos um modelo BERT para identificar textos violentos, avaliamos sua performance frente diferentes grupos sociais e o utilizamos para acompanhar ataques no Twitter direcionados a candidatas mulheres nas eleições de 2022.
O projeto Violentômetro consistiu na construção, teste e aplicação de uma rede neural produnda (deep learning) do tipo transformer para a detecção, em tempo real, de comentários agressivos e discurso de ódio direcionados a candidatas e candidatos nas eleições gerais de 2022, via a plataforma Twitter. Para coletar os tweets e publicar a medida diária do grau de violência eleitoral, construímos uma pipeline, uma página web e códigos auxiliares que foram disponibilizados ao público sob a licença GPLv3. O sistema de captura e avaliação de tweets funcionou de maneira ininterrupta durante todo o período de campanha eleitoral de 2022.
O modelo construído partiu do modelo pré-treinado BERTimbau e foi ajustado (fine tuned) para a tarefa específica de deteção de comentários agressivos com os dados anotados por Pelle & Moreira (2017) e Fortuna et al. (2019). Sua performance superou o melhor modelo bag-of-words (um modelo que identifica palavras-chave nos tweets), obtendo uma métrica F1 de 0,596 (contra 0,471 do modelo bag-of-words).
O desempenho do modelo foi avaliado em uma amostra inteiramente nova de cerca de 1.100 tweets coletados durante o período de campanha. Essa amostra foi anotada por um grupo de 8 especialistas, sendo cada tweet avaliado por ao menos três pessoas. Estudamos como o desempenho do modelo dependia das características dos tweets, do conjunto de anotadores, do grupo social da candidatura mencionada e do tipo de violência, além de identificar formas de aprimoramento da detecção de agressões.
O modelo, junto com o sistema de coleta de tweets, foi aplicado em uma campanha de combate à violência eleitoral contra mulheres, em colaboração com o Instituto Vamos Juntas.