DOUTOR

Código de monitoramento automático do Diário Oficial da União e modelo de ranqueamento das matérias por relevância

Jornal com título 'Diário Oficial'

Descrição

DOUTOR é um código aberto em python que acessa o Diário Oficial da União (DOU) periodicamente, salva todos os artigos em uma base de dados e publica em canais do Slack artigos selecionados com base em uma lista de critérios e palavras-chave. Esse código foi disponibilizado no github. O projeto foi apresentado como um estudo de caso na 18th Iberian Conference on Information Systems and Technologies e publicado no proceedings da conferência sob o título "Overseeing Government with AI: Lessons learned from a Brazilian experience".

Gráfico de barra com contribuições de cada causa mortis.

Atualização: Em janeiro de 2023, a Imprensa Nacional passou a utilizar o serviço da CloudFare para bloquear acessos automatizados à página do DOU. Por esse motivo, o código de captura não consegue mais coletar as matérias. Recomendo utilizar a API da Imprensa Nacional para acessar as matérias do DOU.

O DOUTOR serve de primeira etapa para a produção de um boletim diário criado pelo Gabinete Compartilhado que publica em grupos abertos do Whastapp os atos mais relevantes do governo federal. Seu papel é monitorar a cada meia hora o site da Imprensa Nacional e capturar tudo o que é publicado. Todas as matérias publicadas são então filtradas por um modelo de machine learning, também disponibilizado no github, que seleciona apenas aquelas mais relevantes. Com esse modelo, o monitoramento manual só precisa ser feito em 10% ou menos das mais de 500 matérias publicadas diariamente.

Gráfico de barra com contribuições de cada causa mortis. Gráfico de barra com contribuições de cada causa mortis.

Ranqueamento de matérias com IA

O modelo de aprendizagem de máquina utilizado no boletim foi, posteriormente, aprimorado e apresentado em um tutorial no ICEDEG 2023 - Ninth International Conference on eDemocracy & eGovernment. O tutorial, junto com o modelo aprimorado, está disponível no github: https://github.com/cewebbr/text_ranking_in_gov.