Não é nenhuma novidade que dados públicos são fundamentais para a transparência, responsabilidade governamental e para a participação cidadâ. O acesso a esses dados empodera cidadãos, jornalistas, pesquisadores(as) e organizações da sociedade civil para analisar nossa realidade, monitorar o poder público e identificar problemas e possíveis soluções. Os dados nos ajudam a compreender melhor o mundo e fortalecem a democracia ao garantir que decisões importantes sejam tomadas com base em evidências e de forma transparente.
Porém, ainda existe uma barreira entre a população e o acesso e utilização dessas informações tão cruciais. Infelizmente, essa ferramenta tão poderosa para influenciar positivamente a sociedade ainda é para poucos(as).
Mas queremos e devemos mudar isso.
Este artigo foi criado para ajudar a diminuir, ao menos um pouco, essa barreira e ajudar pessoas a navegar melhor em um mundo cada vez mais orientado por dados. Faremos isso introduzindo algumas ferramentas criadas pela ONG Base dos Dados com o mesmo propósito, pensadas exatamente para trazer mais acessibilidade à essas informações que podem ajudar a compreender e melhorar a realidade da nossa sociedade.
Neste artigo, vamos falar sobre alguns conceitos básicos para começar uma análise de dados, como formular uma boa pergunta, onde encontrar dados e como acessar eles. É um artigo introdutório, mas que deve funcionar como um primeiro passo para quem quer desenvolver suas habilidades em análise de dados. Você encontra também no artigo vários links úteis para salvar e conferir conforme a sua necessidade. Boa leitura!
A Base dos Dados, ou BD, como chamamos carinhosamente, é uma organização não-governamental sem fins lucrativos e de código aberto que atua para universalizar o acesso a dados de qualidade. Fazemos isso através da criação de ferramentas inovadoras, da produção e difusão do conhecimento e da promoção de uma cultura de transparência e dados abertos.
Mas o que são essas ferramentas? Para resumir, o site da BD possui um mecanismo de busca que funciona como um grande catálogo de dados públicos. Imagine um Google só para bases de dados, com informações sobre os dados, de onde eles vêm, quem os publica e como acessar eles. Além disse, muitas dessas bases são disponibilizadas no que chamamos de datalake público, uma espécie de grande armazém de dados na núvem, por onde é possível consultar, cruzar e extrair esses dados de maneira rápida e prática. Em nosso datalake público, os dados já estão tratados e organizados, processo que costuma consumir horas de trabalho de quem costuma baixar esses dados nas suas fontes originais.
Clique aqui para conhecer mais a fundo esse processo e como contribuir com dados também.
Existem algumas maneiras diferentes de acessar os dados a BD, mas neste artigo vamos focar na mais simples: através de uma consulta SQL no datalake público.
Se quiser aprender como acessar nossos dados com Python ou R, veja nossa documentação por aqui.
Toda análise começa com uma boa pergunta. Mas não se engane, ter uma boa pergunta muitas vezes é mais difícil do que fazer a própria análise. Além disso, o processo de investigar e responder uma boa pergunta costuma gerar novas perguntas a serem respondidas e, sem foco num objetivo, é muito fácil se perder em um oceano de dados, informações e pontos de interrogação.
Por isso, tenha essas dicas em mentes na hora de formular a pergunta que vai guiar a sua análise:
Formular perguntas claras, específicas e mensuráveis vai te poupar tempo e te ajudar ser mais assertivo(a) no problema que sua análise busca solucionar.
Veja aqui algumas análises para se inspirar.
Como falamos anteriormente, parte do processe de elaborar e responder uma boa pergunta é saber quais dados estão disponíveis. Mas como e onde encontrar esses dados?
Muitas vezes não há como fugir de uma pesquisa na internet para saber quais sites e plataformas e governo possuem os dados que você precisa, mas a BD criou uma solução mais prática para te ajudar nisso: o nosso mecanismo de busca.
Pelo nosso site você consegue buscar conjuntos de dados através de palavras-chave, da mesma maneira que você busca informações no Google, por exemplo. Além disso, ele possui uma seleção de filtros que te ajudama delimitar sua busca. Você pode buscar dados sobre meio ambiente e selecionar apenas conjuntos que sejam disponibilizados pelo Ministério do Meio Ambiente.
Um filtro muito útil é o de Tabelas tratadas, isso porque ele seleciona apenas dados que já estejam tratados e organizados em nosso datalake público.
Uma vez que você já tenha encontrado um conjunto de dados no mecanismo de busca, você pode conferir na parte esquerda da página quais são as tabelas que compõem ele. Veja na imagem.
Além disso, você pode conferir quais colunas cada tabela possui e a descrição das informações que elas contém. Veja na imagem abaixo
Quando você tiver identificado o conjunto, a tabela e as colunas que precisa para sua análise, você pode partir para selecionar as colunas do seu interesse e clicar em Gerar Query. Esse botão vai montar uma query SQL para você acessar os dados através do BigQuery, um serviço de banco de dados em nuvem da Google que te permite fazer consultas direto do navegador com rapidez (mesmo consultas muito longas demoram apenas minutos para serem processadas), escala (o BigQuery escala magicamente para hexabytes se necessário) e economia (todo usuário possui 1 TB gratuito por mês para consulta aos dados). Para chegar até o BigQuery, utilize o botão "Acessar o BigQuery" da página, conforme a imagem abaixo. Não se esqueça de copiar o código disponibilizado para puxar apenas as colunas selecionadas com os códigos institucionais já traduzidos!
Antes de continuar, precisamos criar um projeto no Google Cloud, serviço de núvem da Google, através do próprio BigQuery. O projeto é a maneira que o Google tem de identificar suas atividades dentro das ferramentas que ele oferece. Para criar um projeto no Google Cloud basta ter um email cadastrado no Google. Siga as instruções abaixo:
A Google fornece 1 TB gratuito por mês de uso do BigQuery para cada projeto que você possui. Um projeto é necessário para ativar os serviços do Google Cloud, incluindo a permissão de uso do BigQuery. Pense no projeto como a "conta" na qual a Google vai contabilizar o quanto de processamento você já utilizou. Não é necessário adicionar nenhum cartão ou forma de pagamento — O BigQuery inicia automaticamente no modo Sandbox, que permite você utilizar seus recursos sem adicionar um modo de pagamento. Leia mais aqui.
Agora você precisa fixar o projeto da BD no seu BigQuery, é bem simples. Clique no botão Adicionar no canto superior esquerdo da tela, ao lado de “Explorer”, selecione a opção “marcar um projeto com estrela por nome” e adicione o nome do projeto da BD, que é "basedosdados", tudo minúsculo, e pronto. Veja:
Dentro do projeto existem dois níveis de organização dos dados, datasets (conjuntos de dados) e tables (tabelas), nos quais:
br_ibge_populacao
contém uma tabela municipio com a série histórica de população a nível municipal)br_bd_diretorios
)Abaixo vamos entender melhor como funciona a interface do BigQuery. Após criar o projeto, ele vai aparecer para você no canto superior esquerdo (1). Logo abaixo terá uma lista de Projeto fixos do BigQuery, dentre esses o basedosdados (2) — o ícone de pino azul indica que o projeto está fixado e poderá ser acessado sempre que você abrir o BigQuery. A seta à esquerda do nome basedosdados nos permite expandir a lista de todas as bases disponíveis na BD logo abaixo.
Sempre que abrirmos uma tabela no BigQuery teremos alguns itens que ficarão à mostra: a aba referente à tabela que selecionamos (3) que contém informações sobre a estrutura e descrição das colunas em Esquema (4) e também metadados da tabela em Detalhes (5).
Por fim, para visualizar os dados da tabela criamos uma nova Consulta (6), que irá abrir um novo Editor com a estrutura em SQL já com as informações da nossa tabela.
SQL é uma das linguagens de programação mais simples e poderosas para quem quer mexer com dados. Saber criar consultas eficientes com filtros, agregações e cruzamentos em SQL salva bastante tempo que você gastaria no Python ou R, por exemplo — e acredite, nós também amamos essas linguagens.
Usar o SQL para pré-processamento de dados é uma ótima saída para quem trabalha com grandes volumes de dados, e construir estatísticas descritivas também é bastante simples.
Vamos abordar aqui uma estrutura básica de consulta SQL. Mas você pode conferir nosso tutorial completo escrito ou em vídeo no YouTube.
Alguns comandos mais básicos de SQL são:
SELECT
: Seleciona as colunas que você vai usar
FROM
: Seleciona a tabela de origem dos dados
WHERE
: Coloca condições para filtrar os dados
Então, por exemplo, para consultas o nome, cargo e raça de candidatos(as) de um município e em um ano específico, podemos utilizar a consulta abaixo.
SELECT
ano,
id_municipio,
cargo,
nome,
raca,
genero
FROM
basedosdados.br_tse_eleicoes.candidatos
WHERE
ano = 2000
AND id_municipio = "3509502"
Veja o resultado dessa consulta na imagem abaixo
Observação importante: O ID Município do IBGE é um código numérico de sete dígitos utilizado pelo Instituto Brasileiro de Geografia e Estatística (IBGE) para identificar de forma única cada um dos municípios do Brasil. Você pesquisa o ID município da sua cidade no site do IBGE.
O resultado da consulta anterior é retornado no BigQuery em forma de tabela, que você pode exportar em um arquivo local (.csv, JSON ou para a área de transferência do seu computador) para explorar com com seu editor de planilha ou linguagem de programação preferida, ou ainda salvá-los em uma tabela do BigQuery ou Google Sheets, sem precisar fazer download da tabela. Basta clicar em Salvar Resultados ou Extrair Dados. Veja na imagem abaixo.
Pronto, agora você tem acesso aos dados que precisa para responder a sua pergunta.
Vale ressaltar que este é apenas o primeiro passo para uma análise completa e eficaz com dados públicos. O processo de aprendizado é tão longo quanto a nossa necessidade ou curiosidade. Existem inúmeras habilidades e ferramentas de análise de dados que você pode dominar com o tempo, mas tudo começa em saber como fazer uma boa pergunta e encontrar os dados que você precisa para respondê-la.
Abaixo você encontra uma seção com diversos links úteis para seu trabalho e aprendizado. Salve e ajude a compartilhar esse conhecimento.
Notou algo errado ou tem uma sugestão?
Contribua com a BD editando este artigo via pull request no nosso GitHub.