Skip to content

tuliosg/CDP

Repository files navigation

Ciência de Dados para Pesquisa

Edição especial: Ciências Humanas

Sobre o curso

Este curso é destinado a pesquisadores das Ciências Humanas que desejam aprender conceitos fundamentais de Ciência de Dados aplicados à pesquisa acadêmica. Utilizando uma abordagem prática e acessível, o curso trata das bases da ciência de dados, desde definições e conceitos teóricos até exercícios e implementações de código, através da linguagem de programação Python.

Objetivos

  • Introduzir conceitos fundamentais de Ciência de Dados;
  • Desenvolver habilidades práticas de organização, tabulação e limpeza de dados;
  • Apresentar noções básicas de programação em Python focadas na solução de problemas reais de pesquisa;
  • Explicar conceitos estatísticos comumente utilizados em pesquisa;
  • Criar visualizações para comunicar resultados.

Estrutura do curso

O curso está organizado em três módulos principais:

Módulo 1: Introdução à ciência de dados e Python

  • Conceitos fundamentais sobre dados e sua importância na pesquisa;
  • O que é Ciência de Dados e como pode beneficiar pesquisas;
  • Introdução à programação e conceitos básicos (variáveis, tipos de dados, estruturas);
  • Programação interativa com Google Colab;
  • Primeiros passos com Python.

Módulo 2: Organização e pré-processamento

  • Princípios de organização de dados em planilhas;
  • Importação e exportação de dados com pandas;
  • Exploração inicial de conjuntos de dados;
  • Limpeza e transformação de dados.

Módulo 3: Análise e visualização

  • Análise exploratória de dados;
  • Estatística descritiva;
  • Medidas de correlação;
  • Princípios de visualização de dados;
  • Criação de gráficos básicos;
  • União entre análise e visualização.

Ferramentas e recursos

Ambientes de trabalho

  • Google Colab;
  • Google Planilhas.

Bibliotecas Python

  • pandas;
  • matplotlib/seaborn;
  • scipy.

Navegação pelo repositório

  • Cada módulo está contido em uma pasta. Clique na pasta correspondente para acessar o material completo;
  • Os materiais contidos em cada módulo estão em pastas com suas respectivas descrições: os Jupyter Notebooks na 📁notebooks de cada módulo, os conjuntos de dados na 📁 dados e as planilhas na 📁 planilhas;
  • O arquivo README de cada pasta corresponde ao material escrito completo relacionado àquele módulo;
  • As referências citadas ao longo do material escrito e nos notebooks podem ser encontradas no arquivo bibliography.bib.

Agradecimentos

Agradeço à Nayla Chagas (@nhawlao) por aceitar o convite para colaborar neste projeto e por contribuir de forma brilhante no Módulo de Organização e pré-processamento. Sua expertise em engenharia de dados foi essencial para a qualidade do material.

Este trabalho faz parte da minha atuação como Embaixador da Rede Brasileira de Reprodutibilidade (RBR) e só se tornou realidade graças ao apoio e à infraestrutura do Laboratório Multiusuário de Informática e Documentação Linguística (LAMID).

Atribuição e Citação

Se você utilizar este material, agradecemos a atribuição adequada. Você pode fazê-lo das seguintes maneiras, dependendo do contexto:

  • Link para o repositório e menção aos autores
Material baseado no curso "Ciência de Dados para Pesquisa" por Túlio Sousa de Gois e Nayla Sahra Santos das Chagas
Disponível em: https://github.com/tuliosg/CDP
  • Citação formal
@software{gois_2025_15384287,
  author       = {Gois, Túlio Sousa and
                  Chagas, Nayla Sahra Santos},
  title        = {Ciência de Dados para Pesquisa},
  month        = may,
  year         = 2025,
  publisher    = {Zenodo},
  version      = {v1.0},
  doi          = {10.5281/zenodo.15384287},
  url          = {https://doi.org/10.5281/zenodo.15384287},
  swhid        = {swh:1:dir:9aef7b4d4b890b410cc8e51b565bd15ea30e46c7
                   ;origin=https://doi.org/10.5281/zenodo.15384286;vi
                   sit=swh:1:snp:56371c28e746ab411ad408be706b32a0fae7
                   f449;anchor=swh:1:rel:981843493a81f2b30c524b963522
                   0754bbdf30d1;path=tuliosg-CDP-1e0d845
                  },
}

Licença