Cultura Analítica: Estatística Básica para Data Science

Estatística Básica para Data Science

Estatística básica deveria ser obrigação de todo mundo saber. Todo mundo que deseja trabalhar com data science pelo menos. Mas todas as pessoas deveriam saber o básico da estatística.

Saber ao menos os conceitos básicos da estatística mudam sua visão e percepção de mundo drasticamente, pois você percebe que a maioria das coisas acontecem de forma tendenciosa e com isso você pode tomar decisões mais assertivas, o que ajuda muito em todas área da sua vida.

A estatística foi sempre vista como a área das pesquisas, do censo, do IBGE, das eleições, de como ganhar na mega sena da virada e etc. Sim, tudo isso é verdade mas ao longo tempo esta área de conhecimento foi se expandindo e ajudando outras áreas a evoluírem através da coleta, organização, análise e interpretação dos dados gerados pelas mesmas.

A Importância de Saber Estatística Básica

Hoje em dia é dia é quase impossível imaginar o esporte sem um estatístico trabalhando ao lado dos atletas. No futebol, basquete, beisebol, vôlei, natação entre outros esporte estão literalmente movidos pela estatística.

Diversos clubes de futebol no Brasil criaram um departamento de análise de desempenho. Ou seja, um departamento de estatística que trabalha junto com a comissão técnica e os jogadores. Vide como o futebol está cada dia mais competitivo e analítico.

Quando falamos então de mercado financeiro, não há como tomar uma decisão sem olhar para um gráfico ou para o resultado do cruzamento de algumas fórmulas estatísticas. As áreas da saúde, entretenimento, empresas de seguro, varejo, telecomunicações, vendas, marketing, televisão, recursos humanos e etc, trabalham lado a lado com estatística todo santo dia.

Mas o crescimento avassalador da estatística veio com a internet. Exato a internet. Responsável por transformar o mundo, a internet criou centenas de possibilidades entre elas a geração absurda de dados. O chamado Big Data.

Empresas de todo mundo dos mais diversos segmentos de atuação geram dados todo segundo e claro, entender o que esse volume de dados está dizendo foi uma necessidade óbvia que surgiu.

Qual a melhor maneira de organizar, analisar, interpretar e demonstrar os dados coletados de diversas origens diferentes? Claro, a estatística. Este é o principal motivo pelo qual nasceu a ciência de dados ou como muitos preferem chamar a “data science”.

Neste artigo vamos passar por todos os conceitos básicos da estatística com exemplos práticos que servem de base para quem deseja se aprofundar não só em data science mas na estatística em si:

  1. O que é Estatística?
  2. As 3 Sub-Áreas da Estatística
  3. Estatística Básica para Data Science
  4. Glossário de Termos da Estatística Básica

1 – O que é Estatística?

Estatística ou ciência estatística é um conjunto de técnicas que permitem de forma sistemática organizar, descrever, analisar e interpretar dados coletados de diversas fontes com o objetivo de extrair conclusões dos mesmos.

A estatística no Data Science

A estatística é sem dúvida alguma um campo de conhecimento com aplicações em diversos setores.

A Wikipedia define a estatística como o estudo da coleta, análise, interpretação, apresentação e organização de dados (sejam eles dados estruturados ou não estruturados). Portanto, não é surpresa alguma que os cientistas de dados precisem saber estatísticas.

Você a diferença entre dados estruturados ou não estruturados? Se não sabe, descubra aqui.

Por exemplo, a análise de dados requer estatística descritiva e teoria da probabilidade, no mínimo. Esses conceitos ajudarão você (cientista de dados) a tomar melhores decisões de negócios com base em dados.

Os principais conceitos da estatística voltados à ciência de dados incluem distribuições de probabilidade, significância estatística, teste de hipóteses e regressão.

Se esses termos podem parecer complicados agora, mas não se preocupe ao longos destes artigo tudo fará mais sentido.

Apesar de ter diversas fórmulas e conceitos, a estatística é divida em 3 grandes sub-áreas, que são:

2 – As 3 Subáreas da Estatística

Como todas as área de conhecimento a estatística também é subdivida em subáreas. O intuito de subdividir é poder aplicar as técnicas para problemas ou necessidade mais especializadas, com isso, quando um problema é identificado recorre a determinada subárea agiliza na resolução do mesmo.

A 3 subáreas são: Estatística Descritiva, Estatística Inferencial e Probabilística.

Vamos passar por cada subárea com exemplos para facilitar no entendimento:

O que é Estatística Descritiva?

A estatística descritiva é a subárea da estatística responsável por organizar e descrever os dados que podem ser demonstrados em gráficos e tabelas.

Estatística descritiva é o termo dado à análise de dados que ajuda a descrever, mostrar ou resumir dados de maneira significativa, de modo que, por exemplo, os padrões possam emergir dos dados.

As estatísticas descritivas, no entanto, não nos permitem tirar conclusões além dos dados que analisamos ou chegar a conclusões sobre quaisquer hipóteses que possamos ter feito. Eles são simplesmente uma maneira de descrever nossos dados.

A estatística descritiva é divida em:

  • Medidas de Tendência Central
  • Medidas de Dispersão

O que é Estatística Inferencial?

Estatísticas inferenciais usam uma amostra aleatória de dados coletados de uma população para descrever e fazer inferências sobre a população. Estatísticas inferenciais são valiosas quando o exame de cada membro de uma população inteira não é conveniente ou possível.

Por exemplo, medir o diâmetro de cada prego que é fabricado em um moinho é impraticável. Você pode medir os diâmetros de uma amostra aleatória representativa de unhas. Você pode usar as informações da amostra para fazer generalizações sobre os diâmetros de todas as unhas.

O que é Estatística Probabilística?

A probabilidade é um número que varia de 0 (zero) a 1 (um) e que mede a chance de ocorrência de um determinado resultado. Quanto mais próxima de zero for a probabilidade, menores são as chances de ocorrer o resultado e quanto mais próxima de um for a probabilidade, maiores são as chances.

Todas as vezes que se estudam fenômenos de observações, cumpre-se distinguir o próprio fenômeno e o modelo matemático (determinístico ou probabilístico) que melhor o explique.

Os fenômenos estudados pela Estatística são fenômenos cujo resultado, mesmo em condições normais de experimentação variam de uma observação para outra, dificultando dessa maneira a previsão de um resultado futuro.

Para explicação desses fenômenos – fenômenos aleatórios – adota-se um modelo matemático probabilístico. Neste caso, o modelo utilizado será o cálculo das probabilidades.

3 – Estatística Básica para Data Science

Vamos entender os principais conceitos da estatistifica básica para que você tenha todo a base necessária para começar a se aprofundar em data science. Mas antes de entrarmos de cabeça na estatística, você o que é data science ou ciência de dados?

O Que é Data Science? A Famosa Ciência de Dados

Ciência de Dados ou Data Science é o estudo dos dados que serão transformados em informações para apoiar uma tomada de decisão futura.

Se você não sabe a diferença entre dado e informação clique aqui.

A ciência de dados analisa os dados de hoje e gera informações para o amanhã. Com a aplicação da ciência é dados é possível fazer previsões, antecipar tendências, fazer estimativas e etc.

A Ciência de Dados é formada por 3 grandes áreas de conhecimento que são: Tecnologia, Negócio e claro, a Estatística.

Temos um artigo aqui no blog onde explicamos detalhadamente o que é ciência de dados e como ela funciona.

Bom agora que já deixamos claro o que é ciência de dados, é hora de mergulhar na estatística.

Medidas de Tendência Central

Para começar vamos nos concentrar nos 2 subgrupos da estatística descritiva. Assim todos os conceitos serão abordados de modo gradativo e o aprendizado será mais rápido e produtivo.

As medidas de tendência central é subgrupo da estatística descritiva responsável por identificar o grau de concentração dos dados.

É dentro deste subgrupo onde encontramos a média aritmética, média geométrica, média harmônica, média ponderada, mediana e moda. Como estamos abordando os conceitos básicos neste artigo vamos ver como cálculos os valor abaixo:

Como calcular a Média Aritmética?

A média aritmética ou simplesmente média é a soma das observações de um conjunto de dados divida pelo número total de observações do conjunto. Por exemplo:

Conjunto (0,1,2,3,4,5,6,7,8,9)

Para saber a média dos números acima iremos somar todas as obervações, então iremos dividir por 10 é que total de números (observações) do conjunto (ou amostra). O cálculo é fica assim:

0+1+2+3+4+5+6+7+8+9 = 45

45 / 10 = 4,5

Para o exemplo acima o valor da média é 4,5.

Onde usamos a Média Aritmética?

Esta é a média mais utilizada em nosso dia-a-dia. Geralmente a média aritmética é usada em cálculos simples como por exemplo quando um professor precisa calcular a média de um aluno. Image que há 3 notas: prova trimestral, prova bimestral e a nota de um trabalho.  O professor irá somar as 3 notas e dividir por 3 para encontrar a média do aluno.

Outro exemplo é no mundo dos negócios. Qual a média de vendas que uma empresa faz todo mês? Podemos pegar os últimos 6 meses e então o número total de venda de cada mês. Como sabemos temos que somar os 6 totais de vendas e então dividir pelo número total de elemento do nosso conjuntos de dados, ou seja, o número de meses neste exemplo.

Como calcular a Média Ponderada?

A media ponderada ou média aritmética ponderada é utilizada para quando existem pesos diferentes para cada observação. Se você deseja aprender sobre data science, machine learning, inteligência artificial e principalmente deep learning, acredite em mim, saber calcular a média ponderada é essencial.

Conheça melhor o que é e como funciona o deep learning lendo nosso artigo sobre o assunto.

Um bom exemplo é o peso diferente entre provas. O peso da prova mensal é diferente do peso da prova semestral. A média aritmética ponderada é calculada da seguinte forma:

Temos que multiplicar cada valor do conjunto de dados pelo seu respectivo peso. Depois, iremos somar  todos os resultados desta multiplicação  que será dividida pela soma dos pesos.

Vamos ao clássico e eficiente exemplo com notas de prova:

Imagine que você tenha feito 3 provas:

Uma mensal, uma trimestral e outra semestral. As 3 notas vão de 0 à 10, porém os pesos das provas são diferentes. Isto é, a prova bimestral é mais importante que a prova trimestral e por sua vez é menos importante que a prova mensal. Para que isso possa ser calculado, iremos colocar pesos em cada prova.

A prova mensal terá peso 2 a prova trimestral terá peso 3 e a prova semestral terá peso 5. Imaginado que para a prova mensal sua nota 8, para a trimestral sua nota foi 9 e para a bimestral sua nota foi 7, vamos aplicar a formula da média ponderada citada à cima o exemplo fica assim:

(8 x 2) + (9 x 3) + (7 x 5) / 2 + 3 + 5

16 + 27 + 35 / 10

78 / 10 = 7,8

Para o exemplo acima o valor da média ponderada é 7,8.

Como calcular a Mediana?

É o valor central da variável que divide os dados ordenados ao meio. Ou seja, 50% para baixo e 50% para cima. Para calcular a mediana de uma amostra ou conjunto de dados primeiro temos de seguir 2 passos extremamente simples.

O primeiro passo é colocar os elementos da amostra de dados em ROL. Isto é, em ordem crescente ou decrescente. O segundo passo é contar o número de elementos da amostra e identificar se o total é par ou impar.

Tenha muita atenção no segundo passo, porque é muito importante saber se o conjunto tem um número impar de elementos, isso significa que temos só uma mediana, porém se o conjunto tem um número par, teremos que fazer alguns passos a mais. Tudo ficará mais claro com os exemplos abaixo:

Exemplo 1:

Conjunto (7,1,5,2,3,1,6)

Colocando os dados em ROL: (1,1,2,3,5,6,7)

Número total de elementos no conjunto de dados: 7 (ímpar)

Quando o total de elementos em um conjunto é impar aplicamos a seguinte formula: Total de elementos somando 1 e depois dividido por 2.

(7 + 1) /  2 = 4

Qual é quarto elemento do nosso conjunto de dados? (1,1,2,3,5,6,7)

Para o exemplo acima o valor da mediana é 3.

Exemplo 2:

Conjunto: (1,2,1,1,4,5,3,6)

Colocando os dados em ROL: (1,1,1,2,3,4,5,6)

Número total de elementos no conjunto de dados: 8 (par)

Quando o total de elementos em um conjunto é par aplicamos a seguinte formula: Total de elementos somando divido por 2. Simples né, então pegamos o elemento do conjunto referente a posição da divisão da formula e também o próximo elemento, totalizando 2 elementos. Para finalizar somamos eles 2 elementos e dividimos por 2 para ter o valor da mediana.

8 / 2 = 4

Qual é quarto elemento do nosso conjunto de dados? (1,1,1,2,3,4,5,6)

Qual é o próximo elemento ao nosso primeiro elemento (1,1,1,2,3,4,5,6)

Então os 2 elementos são: (1,1,1,2,3,4,5,6)

Agora ficou fácil: (2 + 3) / 2 = 2,5

Para o exemplo acima o valor da mediana é 2,5.

Como calcular a Moda?

Talvez a moda seja o valor mais fácil de identificar, já que a a moda é o valor que ocorre mais vezes é um determinado conjunto de dados. Simplesmente isso. Mas podemos ter um conjunto unimodal (com só uma moda), bimodal (conjunto com 2 modas), tri modal (conjunto com 3 modas) e assim por diante. Vamos aos exemplos:

Exemplo 1:

Conjunto: (3,5,3,6,8,3,4,3,6,9,1)

Qual o elemento que aparece mais vezes no conjunto acima? O número 3, ele aparece 4 vezes. Existe algum outro número que aparece 4 vezes ou mais? Não. Então este é um conjunto unimodal.

Exemplo 2:

Conjunto: (4,5,4,6,8,4,4,3,6,9,1,1,2,1,1)

Qual o elemento que aparece mais vezes no conjunto acima? O número 4, ele aparece 4 vezes, certo. Existe algum outro número que aparece 4 vezes ou mais? Sim.! Então este é um conjunto bimodal.

Exemplo 3:

Conjunto: (1,2,3,4,5,6,7,8,0)

Qual o elemento que aparece mais vezes no conjunto acima? Nenhum não é mesmo? Então temos um conjunto sem moda.

4 – Glossário de Termos Estatísticos

  • O que é uma população estatística?
  • O que é um conjunto de dados?
  • O que é uma amostra de dados?
  • O que é uma observação ou elemento?
  • O que significa colocar os dados em ROL?

O que é uma população estatística?

Uma população estatística é um conjunto de todos (ou a maior quantidade possível de) itens ou eventos de um determinado contexto. Por exemplo: A idade de todas as pessoas do Brasil, o nome e distância em relação a Terra de todos os planetas descobertos, conjunto de todas as mãos possíveis em um jogo de pôquer e etc)

Saiba mais sobre população estatística.

O que é conjunto de dados?

Um conjunto de dados ou dataset (termo frequentemente usado em data science) é uma coleção de dados normalmente tabulados. Alguns exemplos de conjuntos de dados são:

  1. Arquivos de planilha excel
  2. Tabelas de banco de dados
  3. Arquivos XML
  4. etc

Saiba mais sobre conjunto de dados.

O que é uma amostra de dados?

Uma amostra de dados é um conjunto de dados selecionados de uma população estatística. Geralmente, a população é muito grande, portanto é mais viável selecionar uma pequena parte da população para realizar algum tipo de análise. Este pequena parte da população é chama de amostra de dados.

Saiba mais sobre amostra de dados.

O que é um elemento ou uma observação de um conjunto de dados?

Um elemento ou uma observação é um dado isolado dentro uma amostra de dado. Ou seja, os elementos de uma amostra são conhecidos como pontos amostrais, unidades amostrais ou observações.

O que significa colocar os dados em ROL?

Colocar os dados em ROL significa simplesmente colocar todos os elementos de uma amostra em ordem crescente.

Conclusão

A estatística está em todo lugar, saber a estatística básica é essencial para qualquer profissional. Como dito no início do artigo empresas de todos os setores e as mais diversas áreas estão contratando estatísticos e data scientists (cientistas de dados) que fazer parte das suas equipes.

Para citar um caso de sucesso a integração de um estatístico no esporte pode citar o time inglês Liverpool. O Liverpool foi campeão da UEFA Champions League (Liga dos Campeões da UEFA) de 2019 com profissionais da estatística trabalhando lado a lado com o técnico Jugen Kloop e sua equipe de assistentes técnicos.

Caso tenha mais interesse em saber como a estatística ajudou o Liverpool a ser campeão da Liga dos Campeões, leia o artigo completo aqui.

Teremos mais artigos falando de estatística para data science em breve. Vamos nos aprofundar a cada conteúdo até que toda base seja construída.

Se você gostou deste artigo assista abaixo a primeira aula do mini curso de estatística básica do canal estatidados.

Referências: