Edição especial: Ciências Humanas
Este curso é destinado a pesquisadores das Ciências Humanas que desejam aprender conceitos fundamentais de Ciência de Dados aplicados à pesquisa acadêmica. Utilizando uma abordagem prática e acessível, o curso trata das bases da ciência de dados, desde definições e conceitos teóricos até exercícios e implementações de código, através da linguagem de programação Python.
- Introduzir conceitos fundamentais de Ciência de Dados;
- Desenvolver habilidades práticas de organização, tabulação e limpeza de dados;
- Apresentar noções básicas de programação em Python focadas na solução de problemas reais de pesquisa;
- Explicar conceitos estatísticos comumente utilizados em pesquisa;
- Criar visualizações para comunicar resultados.
O curso está organizado em três módulos principais:
- Conceitos fundamentais sobre dados e sua importância na pesquisa;
- O que é Ciência de Dados e como pode beneficiar pesquisas;
- Introdução à programação e conceitos básicos (variáveis, tipos de dados, estruturas);
- Programação interativa com Google Colab;
- Primeiros passos com Python.
- Princípios de organização de dados em planilhas;
- Importação e exportação de dados com pandas;
- Exploração inicial de conjuntos de dados;
- Limpeza e transformação de dados.
- Análise exploratória de dados;
- Estatística descritiva;
- Medidas de correlação;
- Princípios de visualização de dados;
- Criação de gráficos básicos;
- União entre análise e visualização.
- Google Colab;
- Google Planilhas.
- pandas;
- matplotlib/seaborn;
- scipy.
- Cada módulo está contido em uma pasta. Clique na pasta correspondente para acessar o material completo;
- Os materiais contidos em cada módulo estão em pastas com suas respectivas descrições: os Jupyter Notebooks na 📁notebooks de cada módulo, os conjuntos de dados na 📁 dados e as planilhas na 📁 planilhas;
- O arquivo
README
de cada pasta corresponde ao material escrito completo relacionado àquele módulo; - As referências citadas ao longo do material escrito e nos notebooks podem ser encontradas no arquivo
bibliography.bib
.
Agradeço à Nayla Chagas (@nhawlao) por aceitar o convite para colaborar neste projeto e por contribuir de forma brilhante no Módulo de Organização e pré-processamento. Sua expertise em engenharia de dados foi essencial para a qualidade do material.
Este trabalho faz parte da minha atuação como Embaixador da Rede Brasileira de Reprodutibilidade (RBR) e só se tornou realidade graças ao apoio e à infraestrutura do Laboratório Multiusuário de Informática e Documentação Linguística (LAMID).
Se você utilizar este material, agradecemos a atribuição adequada. Você pode fazê-lo das seguintes maneiras, dependendo do contexto:
- Link para o repositório e menção aos autores
Material baseado no curso "Ciência de Dados para Pesquisa" por Túlio Sousa de Gois e Nayla Sahra Santos das Chagas
Disponível em: https://github.com/tuliosg/CDP
- Citação formal
@software{gois_2025_15384287,
author = {Gois, Túlio Sousa and
Chagas, Nayla Sahra Santos},
title = {Ciência de Dados para Pesquisa},
month = may,
year = 2025,
publisher = {Zenodo},
version = {v1.0},
doi = {10.5281/zenodo.15384287},
url = {https://doi.org/10.5281/zenodo.15384287},
swhid = {swh:1:dir:9aef7b4d4b890b410cc8e51b565bd15ea30e46c7
;origin=https://doi.org/10.5281/zenodo.15384286;vi
sit=swh:1:snp:56371c28e746ab411ad408be706b32a0fae7
f449;anchor=swh:1:rel:981843493a81f2b30c524b963522
0754bbdf30d1;path=tuliosg-CDP-1e0d845
},
}
- Conteúdo textual (arquivos
*.md
) está licenciado sob Creative Commons Attribution 4.0 (CC BY 4.0). - Código-fonte (Jupyter Notebooks) está licenciado sob a Licença MIT.