Introdução
Bem-vindo ao curso para iniciantes da Escola de Dados. Vamos tratar aqui dos aspectos básicos para a exploração e a visualização de dados e vamos descobrir como contar histórias com um conjunto de dados.
Neste módulo, a gente vai aprender por onde começar a busca por dados. Iniciamos com termos-chave sobre dados, termos como qualitativo, quantitativo, legível por computadores, dados discretos e contínuos, expressões que aparecem sempre no trabalho com dados.
Quase tudo começa com uma pergunta
A maioria das pessoas não explora dados somente por diversão. Elas têm uma história para contar ou um problema para resolver.
Geralmente você começa com uma pergunta na cabeça. Pode ser uma pergunta como “quantos dias de sol a minha cidade costuma ter?” ou “como o meu governo gasta os seus recursos, de onde eles vêm?”. Uma questão é um bom ponto de partida para uma exploração de dados. Ela fornece um foco e ajuda a detectar tendências interessantes nos dados. Identificar para quem a sua pergunta é importante também te ajuda a definir o seu público e a dar forma a sua história.
E dá para começar sem uma pergunta? Somente explorando? Se você achar algo que pareça interessante no seu conjunto de dados, você pode iniciar uma exploração como se isso fosse a sua pergunta-guia. Às vezes, tendências que aparecem nos dados podem ser explicadas com a busca pelas causas desses padrões. Essas são histórias que quase sempre valem a pena ser contadas.
Se você vai começar com uma pergunta ou não, você deve estar sempre de olhos abertos para padrões inesperados, resultados incomuns, qualquer coisa que te surpreenda. As histórias mais interessantes tendem a ser aquelas que não estamos procurando.
Tarefa: Pense numa pergunta que você gostaria de responder usando dados.
O que são dados?
Estamos rodeados de dados. Mas o que exatamente são dados? Dado é um valor atribuído a alguma coisa. Veja por exemplo a foto abaixo:

Bolas de golfe num mercado. Foto de Kaptain Kobold/Flickr (CC).
O que você pode dizer sobre essas bolas? Elas são bolas de golfe, correto? Logo, um dos primeiros dados que temos é que elas são usadas para o golfe, um tipo de esporte. Isso já nos ajuda a classificá-las numa taxonomia. Mas há mais coisas. Sabemos a cor delas: branca. A condição delas: usada. Todas têm um tamanho, há um número determinado delas, provavelmente elas têm uma valor monetário, e por aí vai.
Mesmo os objetos mais comuns levam com eles um monte de dados. Você, também. Você tem um nome (muitas pessoas tem um nome e um sobrenome), uma data de nascimento, peso, altura, nacionalidade e etc. Tudo isso são dados.
Pelo exemplo das bolas, já é possível ver que há diferentes tipos de dados. As duas principais categorias são:
Dados qualitativos: tudo que se refere à qualidade de algo. Uma descrição de cores, textura, uma descrição de experiências, uma entrevista. Tudo isso é dado qualitativo.
Dados quantitativos: dados que se referem a números. O número de bolas de golfe, o tamanho, o preço, a nota em uma prova e etc.
Há outras categorias com as quais você provavelmente vai se deparar:
Dados categóricos: são os que categorizam o item que você está descrevendo. A condição de “usadas” das bolas de golfe, por exemplo. Outros exemplos poderiam ser bolas novas, bolas quebradas e etc.
Dados discretos: são dados numéricos com brechas na sequência entre eles. Por exemplo, a contagem das bolas de golfe. Só pode haver um número inteiro de bolas de golfes (0,3 bolas seria impossível). Notas de prova e tamanhos de calçados são outros exemplos.
Dados contínuos: são dados em que todos os valores são possíveis. Não há brechas entre eles. O tamanho das bolas de golfes pode ser qualquer valor, 10,53 mm, 10,54 mm ou 10,536 mm. O tamanho do pé é outro exemplo, ao contrário do tamanho do calçado, que é um dado discreto.
Tarefa: Retome o exemplo das bolas de golfe e veja se você pode encontrar dados das diferentes categorias.
De dados para informação e conhecimento
Dados, quando coletados e estruturados, se tornam de repente bem mais úteis. Vamos ver isso na tabela abaixo:
Cor | Branco |
Categoria | Esporte – Golfe |
Condição | Usado |
Diâmetro | 43mm |
Preço (por bola) | R$1,00 |
Cada um dos valores não diz muito sozinho. Para ter informação dos dados, precisamos interpretá-los.
Vamos pegar o tamanho. Um diâmetro de 43 mm não nos fala muita coisa. Ele somente ganha significado quando o comparamos com outras coisas. Nos esportes há regras para equipamentos. O tamanho mínimo de uma bola para uma competição de golfe é 42,67 mm. OK. Podemos usar essa bola de golfe num campeonato. Isso é informação. Mas ainda não é conhecimento. Conhecimento é criado quando a informação é aprendida, aplicada e entendida.
Dados não estruturados x Dados estruturados
Dados para humanos
Uma frase simples como “temos cinco bolas de golfe brancas e usadas com um diâmetro de 43 mm a R$ 1 cada uma” pode ser fácil de ser entendida por um humano, mas para um computador não é. A frase é o que chamamos de dados não estruturados. Esses dados não têm uma estrutura fixa básica. Não fica claro na frase que palavra se refere a quê. Da mesma forma, PDFs e imagens escaneadas podem conter informações bem arrumadas para o olho humano, mas elas não são legíveis por computadores.
Dados para computadores
Computadores são bem diferentes de humanos. Pode ser extremamente difícil fazer computadores extraírem informações de determinadas fontes. Algumas tarefas fáceis para humanos ainda são difíceis de serem automatizadas com computadores. A interpretação de um texto apresentado como uma imagem é por exemplo um desafio para um computador. Se você quiser que o seu computador processe e analise os seus dados, ele tem que ser capaz de lê-los. Isso significa que os seus dados têm que estar estruturados, passíveis de serem lidos por computadores.
Um dos formatos mais usados para a troca de dados é o CSV, sigla em inglês para valores separados por vírgula. A frase sobre bolas de golfe citada acima poderia ficar assim em CSV:
“quantidade”, “cor”, “condicao”, “item”, “categoria”, “diametro (mm)”, “preco”
5,”branco”,”usada”,”bola”,”golfe”,43,0.5
Essa maneira é mais simples para o seu computador entender e pode ser lida diretamente por um programa de planilhas. Notem que as palavras estão entre aspas. Isso as diferencia como texto (valores “string” na linguagem dos computadores). Os números não têm aspas. Vale mencionar que há vários outros formatos que são estruturados e passíveis de serem lidos por computadores.