Código de monitoramento automático do Diário Oficial da União e modelo de ranqueamento das matérias por relevância
DOUTOR é um código aberto em python que acessa o Diário Oficial da União (DOU) periodicamente, salva todos os artigos em uma base de dados e publica em canais do Slack artigos selecionados com base em uma lista de critérios e palavras-chave. Esse código foi disponibilizado no github. O projeto foi apresentado como um estudo de caso na 18th Iberian Conference on Information Systems and Technologies e publicado no proceedings da conferência sob o título "Overseeing Government with AI: Lessons learned from a Brazilian experience".
Atualização: Em janeiro de 2023, a Imprensa Nacional passou a utilizar o serviço da CloudFare para bloquear acessos automatizados à página do DOU. Por esse motivo, o código de captura não consegue mais coletar as matérias. Recomendo utilizar a API da Imprensa Nacional para acessar as matérias do DOU.
O DOUTOR serve de primeira etapa para a produção de um boletim diário criado pelo Gabinete Compartilhado que publica em grupos abertos do Whastapp os atos mais relevantes do governo federal. Seu papel é monitorar a cada meia hora o site da Imprensa Nacional e capturar tudo o que é publicado. Todas as matérias publicadas são então filtradas por um modelo de machine learning, também disponibilizado no github, que seleciona apenas aquelas mais relevantes. Com esse modelo, o monitoramento manual só precisa ser feito em 10% ou menos das mais de 500 matérias publicadas diariamente.
O modelo de aprendizagem de máquina utilizado no boletim foi, posteriormente, aprimorado e apresentado em um tutorial no ICEDEG 2023 - Ninth International Conference on eDemocracy & eGovernment. O tutorial, junto com o modelo aprimorado, está disponível no github: https://github.com/cewebbr/text_ranking_in_gov.