Uma introdução de 30.000 pés à análise de dados e seus componentes fundamentais

Uma introdução de 30.000 pés à análise de dados e seus componentes fundamentais

15 de September, 2020 0 By António César de Andrade
Click to rate this post!
[Total: 0 Average: 0]


A análise de dados é o processo de inspeção, limpeza, transformação e modelagem de dados com o objetivo de descobrir informações úteis.

A análise de dados está em todos os lugares do mundo moderno: ela ajuda a informar a tecnologia que usamos, como o software é construído e as maneiras como os produtos são desenvolvidos.

Nesta postagem, abordarei os princípios básicos de análise de dados e como aplicá-los, fornecendo exemplos que você pode implantar para capturar e obter insights significativos de seus dados.

Também compartilharei exemplos de como a análise de dados está sendo usada em uma variedade de produtos com os quais você provavelmente está familiarizado – otimização de sites, aplicativos de saúde e dieta, agricultura e seguros, para citar alguns.

Se você compartilha minha crença de que os dados são um guia que pode informar suas decisões, vale a pena estudar mais.

Exemplos de perguntas

Primeiro, veja se você pode responder a essas perguntas.

Se isso não acontecer com facilidade, não se preocupe.

Vou orientá-lo sobre como aprender os fundamentos da análise de dados para que você possa abordar cada uma dessas questões com confiança.

O gerente de uma operação de varejo na Internet que vende um único produto descobriu que as pessoas que visitam o site compram o produto 26% das vezes. Ele também descobriu e que o comportamento dos clientes parece ser independente.

Suponha que exatamente 8 clientes em potencial visitam o site todos os dias. Imagine que o gerente está em um plano de incentivo que lhe paga $ 300 para qualquer dia em que o site gere três ou mais vendas. Caso contrário, seu salário é de $ 100 por dia.

uma. Qual é a probabilidade de ele ganhar US $ 300 em qualquer dia aleatório?

Resposta: ~ 35%

b. Qual é o valor esperado de seu pagamento em qualquer dia aleatório?

Resposta: $ 170

c. O gerente pode escolher entre dois esquemas de incentivos alternativos, pelos quais ele receberá (a) nenhum salário base, mas uma comissão de $ 75 por venda, ou (b) um salário fixo de $ 160 por dia, ou (c) o plano original descrito acima.

Qual plano ele deve selecionar se quiser maximizar o valor esperado de seus ganhos?

Resposta: o plano original

Noções básicas de análise de dados

Vamos examinar como pensar sobre os dados e desenvolver esses aprendizados para que você possa responder às perguntas acima.

O primeiro aspecto da análise de dados que devemos aprender é que existem diferentes tipos de dados. Simples, certo?

Com certeza é.

Os dados podem ser categóricos (sexo, localização e assim por diante) ou numéricos (número de clientes, usuários ativos e assim por diante).

Alguns dados são discretos (ou seja, o número de candidatos a emprego se candidatando a um emprego) e outros são contínuos (número infinito de resultados possíveis).

Antes de analisar os dados, reserve um momento para entender os tipos de dados que você possui.

Você tem dados contínuos ou discretos? Seus dados são categóricos ou numéricos?

Depois de responder a essas perguntas, você está pronto para se aprofundar.

Os dados têm três tipos principais de características:

  1. Os dados podem ser transversais. Isso significa que os dados são um instantâneo de um padrão ou tendência. Um exemplo são os resultados de uma pesquisa, como o censo nacional.
  2. Os dados podem ser uma série temporal. Um exemplo são minhas pontuações em testes, salários ganhos em um período de tempo, ou como as empresas medem e aplicar descontos ao longo do ano.
  3. Também há dados do painel. Um exemplo são os dados que uma empresa pode armazenar em um CRM. Os dados do painel permitem vários assuntos e vários pontos no tempo. Como o armazenamento está se tornando cada vez mais barato, essa forma de dados está se tornando mais comum.

Agora que você conhece os tipos de dados e as principais características dos dados, gostaria de fornecer uma visão geral de como os dados são distribuídos.

Dispersão: como os dados são organizados

Insights exclusivos podem ser obtidos observando a forma de seus dados.

Os dados podem ser organizados por meio de uma tendência central.

Para fazer isso, ordene seu conjunto de dados do menor para o maior.

Quando os dados estão bem alinhados, você pode começar a ver a dispersão pela primeira vez.

Ao ver como os dados estão espalhados, você pode calcular o intervalo dos dados subtraindo o maior valor do menor.

Se os dados tiverem uma grande faixa (a distância entre os valores mínimo e máximo), então é dito que eles têm alta dispersão.

Por último, você pode ver todos os dados disponíveis ou um instantâneo de um conjunto de dados. Você pode calcular facilmente a média, mediana e modo.

Pense na seguinte experiência de pensamento. Se você colocar sua mão em um pote de M & Ms e puxar um vermelho, o que você pode deduzir?

Provavelmente não muito. Vamos explicar o porquê definindo intervalos de confiança.

Intervalos de confiança

Um intervalo de confiança é um intervalo de valores que provavelmente inclui um valor populacional com um certo grau de confiança.

Normalmente, é expresso como uma porcentagem em que a média da população se situa entre um intervalo inferior e superior.

De volta ao nosso exemplo de M&M.

Imagine que você fez esta atividade (puxar um M&M de um jarro de imagens) uma quantidade infinita de vezes e obteve o mesmo resultado. Em outras palavras, você só viu M & Ms vermelhos. O que você poderia dizer então?

Você verificaria que é provável que apenas M & Ms vermelhos existem no frasco. Esta é uma conclusão válida.

Observe que não estamos dizendo “nenhum outro tipo de M & Ms existe”. Em vez disso, você está dizendo que existe uma grande probabilidade de que apenas M & Ms vermelhos existam no frasco.

Cada vez que você remove um M&M, seu grau de confiança aumenta.

Amostragem vs medição de toda a população

Ao coletar dados, você pode olhar para uma população ou pode fazer uma amostra da população.

Você precisa olhar para cada M&M no mundo para dizer que todos têm uma determinada cor? Ou você poderia olhar para uma amostra aleatória e tirar a mesma conclusão?

Em sua essência, é disso que trata a amostragem.

Uma população de amostragem é a seleção de um subconjunto (uma amostra estatística) de indivíduos de uma população estatística para estimar as características de toda a população.

Seu objetivo final pode ser ver com que frequência os eventos ocorrem ou quantos tipos de resultados aparecem em uma distribuição.

Juntando tudo: Amostragem e valor esperado

As observações são fundamentais para a análise de dados porque podem ajudá-lo a responder a perguntas muito específicas:

  1. Qual a probabilidade de as coisas ocorrerem?
  2. Se você tiver certas probabilidades, quais são os ganhos desse evento ocorrendo (ou seja, você será pago se um determinado evento acontecer)?

Para capturar o valor esperado, você precisa saber a probabilidade de um evento multiplicada pela quantidade de vezes que o evento ocorre.

Os ganhos esperados podem aumentar à medida que caem ainda mais do ponto médio dos dados. Pense na probabilidade de começar uma empresa de grande sucesso. A maioria das empresas não faz IPO.

Mas para aqueles que o fazem, as recompensas são muito grandes. Quando comecei um site para ajude as pessoas a trabalhar em casa, Achei que as chances de sucesso eram de 10%, na melhor das hipóteses.

Jeff Bezos disse a famosa frase que as chances de a Amazon ter sucesso eram de 30%.

Uma medida de dispersão comumente usada (e, portanto, a probabilidade de um resultado) é o desvio padrão, que é simplesmente a raiz quadrada da variância.

A variância de um conjunto de dados é calculada tomando a média aritmética das diferenças quadradas entre cada valor e o valor médio.

Exemplo de perguntas e respostas

Este artigo serve como uma visão geral de alto nível para apresentá-lo aos principais componentes básicos de estatísticas e análise de dados.

Agora tente essas duas perguntas.

Se você pode resolvê-los, ótimo! Para resolver isso, pense no valor esperado e nos payoffs.

O designer e codificador de sites John Bell gostaria de determinar se seria lucrativo estabelecer uma empresa de design de sites.

John acredita que existem quatro níveis possíveis de demanda por seus serviços:

  • Demanda muito baixa – 1% das empresas usaria o serviço; John perderia $ 100.000.
  • Baixa demanda – 5% das empresas usariam o serviço; John ganharia $ 10.000.
  • Demanda moderada – 10% das empresas usariam o serviço; John ganharia $ 25.000.
  • Alta demanda – 29% das empresas usariam o serviço; John ganharia $ 75.000.

Com base em experiências anteriores na codificação e construção de sites, John atribui as seguintes probabilidades aos vários níveis de demanda:

P (demanda muito baixa) = 0,20

P (baixa demanda) = 0,50

P (demanda moderada) = 0,20

P (alta demanda) = 0,10

(a) Configure a árvore de decisão e calcule o valor esperado da oferta do serviço.

.2 * (-100.000) + .5 * (10.000) + .2 * (25.000) + .1 * (75.000) = $ -2.500

(b) Calcule o valor esperado com informações perfeitas para o retorno de John.

.5 * 100.000 + .2 * 25.000 + .1 * 75.000 = $ 17.500

Em outras palavras, John acredita que ganhará US $ 17.500 se abrir sua empresa de web design.

Com essa orientação voltada para o futuro, John pode decidir se deseja dar os próximos passos ou procurar caminhos alternativos para suas habilidades e tempo.

Considerações finais sobre análise de dados

Este artigo é uma introdução e deve ajudar a abrir seu apetite para mergulhar mais fundo.

A análise de dados de aprendizagem ajudará você a entender melhor o software e como construir produtos. Como no cenário com John acima, você pode aproveitar a análise de dados para tomar decisões mais bem informadas e prospectivas.

Você pode assumir riscos e compreender as chances de sucesso e fracasso. Você pode usar o princípio da contagem para determinar suas ações atuais.

A análise de dados também ajudará você a entender melhor como a tecnologia está transformando os ambientes offline e, portanto, torná-lo um consumidor mais atencioso.

A gama de usos da análise de dados é incrivelmente grande. Pare por um momento e pergunte-se quais áreas da ciência, tecnologia, negócios, software ou design de produto você acha mais interessantes.

Agora, conceitualize como a análise de dados está influenciando profundamente todos esses campos.

Pense no corpo humano.

Produtos de saúde, marketing de bem-estar programas e aplicativos de exercícios usam análises de dados para otimizar exercícios para o corpo humano com base nos dados que emitimos (pense: batimentos cardíacos, níveis de oxigênio no sangue, padrões de sono).

Essas ferramentas usam análise de dados para avaliar personalizações em tempo real (amostragem), autenticação biométrica e análise de sentimento.

Pense em software.

Automação de fluxo de trabalho de baixo código ferramentas usam análise de dados para experiências preditivas e permitem que desenvolvedores de níveis de experiência variados criem aplicativos lógicos orientados por modelo. Módulos de dados são predefinidos.

Muito parecido com o software, a educação está sendo transformada pela análise de dados. Aprendizagem online para escolas e aplicativos de programação para crianças confie na análise de dados para gerenciamento de risco (quando os alunos ficam para trás) e retenção de conteúdo.

Pense em como o risco é calculado.

A amostragem está sendo usada para mudar como as seguradoras gostam Azul verdadeiro estão precificando apólices de seguro. Mais instituições financeiras e seguradoras estão usando análise de dados para avaliar a qualidade do crédito, precificar e comercializar contratos de seguro e automatizar a interação com o cliente.

Pense no design do site.

Se você deseja ou não aplicar a análise de dados para construir o próximo software de rastreamento de chamadas ou site de agregação de fatos, a análise de dados o ajudará a medir o que é importante e a transformar os dados em insights acionáveis.

Pense na agricultura.

Produtores de plantas de alta tecnologia, como JoyOrganics e TakeSpruce estão usando o rastreamento do ciclo da semente à venda para acompanhar as plantas ao longo dos estágios do cultivo à colheita e extração.

Os agricultores estão usando a análise de dados para encontrar sinais de retornos mais elevados e não correlacionados e otimizar o crescimento.

Pense sobre qualidade do ar interno e processamento de linguagem natural.

Ou a forma como Software de CRM é construído, ou como as pessoas comunicar em tempo real.

Resumindo, pense no mundo moderno.

Todos esses produtos aproveitam a análise de dados para calcular erros de amostragem, desvios padrão e regressões para garantir a qualidade do produto e a satisfação do cliente.

Mas antes de calcular essas estatísticas mais complicadas, cada negócio ou domínio começa com componentes básicos. Cada domínio mede frequência, dispersão, médias e desvios padrão.

Com base nesses blocos de construção, a análise de dados pode transformar dados em insights acionáveis.

Mais importante ainda, todos esses setores aproveitam a análise de dados para fazer concessões ou não e para entender mais profundamente como os usuários estão aproveitando as ferramentas e produtos que estão criando.

Explorando esses tópicos com mais profundidade, você pode, sem dúvida, adotar uma mentalidade de construtor mais holística e implacável.

Se por nada mais, o estudo da análise de dados faz com que esse resultado valha a pena.



Fonte