Ciência aplicada à vida
Ciência de dados é a aplicação de métodos nativos da pesquisa científica
— estatística, algoritmos, análise de dados e modelagem matemática —
em questões práticas do mundo não-acadêmico. O cientista de dados combina as matérias
de programação, matemática, estatística, e visualização de dados com experiência em análise de dados
e conhecimento do tema em questão para trazer entendimento do assunto (e.g. o que leva pessoas a não
comparecerem a uma consulta médica), previsões de acontecimentos futuros (e.g. como cada parlamentar irá
se posicionar em relação a um projeto de lei) e otimizações de processos (e.g. classificação automática
de documentos em temas).
Ciência de dados em etapas
O processo de trabalho do cientista de dados pode envolver as seguintes tarefas:
- Captura de dados
As informações necessárias para a realização de um estudo podem estar disponíveis na internet de forma organizada ou não.
No segundo caso, o cientista de dados pode realizar uma raspagem de dados, isto é, a extração dos dados presentes
em páginas na web.
- Exploração e tratamento dos dados
Na grande maioria das vezes, os dados brutos estão desorganizados, não-padronizados, possuem erros, inconsistências
e lacunas. Portanto, o primeiro passo do trabalho é organizar e limpar os dados. Nessa etapa, o cientista de dados aproveita
para explorar e conhecer os dados.
- Modelagem e análise estatística
Uma vez limpos, os dados podem ser analisados com ferramentas estatísticas e modelados com matemática ou
métodos de aprendizagem de máquina para se descobrir padrões, estabelecer relações entre variáveis, fazer previsões,
classificar dados e testar hipóteses.
- Visualização dos dados
Os resultados podem ser apresentados de maneira gráfica e interativa via construção de painéis que combinam diferentes
tipos de gráficos e ficam disponíveis online.
- Automatização do processo
Ao final, todo o processo aqui descrito — da captura à modelagem e visualização — pode ser automatizado
para que ele possa ser repetido com o mínimo de esforço e atualizado com a chegada de novos dados.
Todas as etapas descritas acima são realizadas via programação de computadores.
Aplicação a questões políticas e sociais
Além de aplicações comerciais e na indústria, a ciência de dados pode ser utilizada na política e para o bem público de diversas formas. Por exemplo:
- Caracterizando o interesse, posicionamento e afinidade de parlamentares;
- Monitorando e fiscalizando de forma automática as ações governamentais;
- Detectando possíveis fraudes em eleições, licitações, e contratos;
- Identificando estudantes com alto risco de abandonarem a escola;
- Agilizando o atendimento da população por órgãos públicos;
- Determinando as consequências e a efetividade de políticas públicas.