Mas acho que tendemos a olhar para as razões erradas para escolher um idioma. Existem vários fatores que levam à escolha de um determinado idioma. E com os projetos de ciência de dados que inundam o mercado, a questão NÃO é "qual é a melhor linguagem", mas "qual se adequa aos requisitos e ao ambiente do seu projeto (ambiente de trabalho)?"

Portanto, neste post, apresentarei o conjunto certo de perguntas que você deve fazer para decidir qual é a melhor linguagem de programação para o seu projeto de ciência de dados.

Linguagens de programação mais usadas para Data Science

Python e R são os idiomas mais usados ​​para análise estatística ou projetos centrados no aprendizado de máquina. Mas existem outros - como Java, Scala ou Matlab.

Tanto o Python quanto o R são linguagens de programação de código aberto de última geração, com excelente suporte da comunidade. E continuamos aprendendo sobre novas bibliotecas e ferramentas que nos permitem atingir maiores níveis de desempenho e complexidade.

Pitão

python

O Python é conhecido por sua sintaxe fácil de aprender e legível. Com uma linguagem de uso geral (como o Python), você pode criar ecossistemas científicos completos sem se preocupar muito com os problemas de compatibilidade ou interface.

O código Python tem baixos custos de manutenção e é sem dúvida mais robusto. Desde a disputa de dados até a seleção de recursos, criação da Web e implantação de nossos modelos de aprendizado de máquina, o Python pode realizar quase tudo com suporte à integração de todas as principais APIs de ML e deep learning, como Theano, TensorFlow e PyTorch.

R

R

O R foi desenvolvido por acadêmicos e estatísticos há mais de duas décadas. Atualmente, o R permite que muitos estatísticos, analistas e desenvolvedores realizem suas análises com eficiência. Temos mais de 12000 pacotes disponíveis no CRAN (um repositório de código aberto).

Desde que foi desenvolvido tendo em mente os estatísticos, R é frequentemente a primeira escolha para toda a análise científica e estatística central. Existe um pacote no R para quase todo tipo de análise que existe.

Além disso, a análise de dados foi facilitada com ferramentas como RStudio que permitem que você comunique seus resultados com relatórios concisos e elegantes.

4 perguntas para ajudá-lo a escolher o idioma mais adequado ao seu projeto

Então, como você faz a escolha certa para o seu trabalho em mãos?

Tente responder a estas 4 perguntas:

1. Qual idioma / estrutura é preferido em sua organização / setor?

Observe o setor em que você está trabalhando e o idioma mais usado por seus colegas e concorrentes. Pode ser mais fácil se você falar o mesmo idioma.

Aqui está uma análise realizada por David Robinson, um cientista de dados. É um reflexo da popularidade do R em cada setor, e você pode ver que o R é muito usado na Academia e na área da saúde.

Portanto, se você é alguém que deseja fazer pesquisa, academia ou bioinformática, considere R sobre Python.

st2
Fonte: https://stackoverflow.blog/2017/10/10/impressive-growth-r/

O outro lado dessa moeda envolve indústrias de software, organizações orientadas a aplicativos e empresas baseadas em produtos. Talvez você precise usar a pilha de tecnologias da infraestrutura da sua organização ou o idioma que seus colegas / equipes estão usando.

E a maioria dessas organizações / indústrias tem sua infraestrutura baseada em Python, incluindo a academia também:

st1
Fonte: https://stackoverflow.blog/2017/09/14/python-growing-quickly/

Como aspirante a cientista de dados, portanto, você deve se concentrar em aprender o idioma e a tecnologia que têm mais aplicativos e que podem aumentar suas chances de conseguir um emprego.

2. Qual é o escopo do seu projeto?

Essa é uma pergunta importante, porque antes de você escolher um idioma, você deve ter uma agenda para o seu projeto.

Por exemplo, e se você quiser simplesmente resolver um problema estatístico por meio de um conjunto de dados, executar algumas análises multivariáveis ​​e preparar um relatório ou um painel explicando os insights? Nesse caso, R pode ser uma escolha melhor. Possui algumas bibliotecas de visualização e comunicação realmente poderosas.

Por outro lado, e se seu objetivo for primeiro realizar análises exploratórias, desenvolver um modelo de aprendizado profundo e depois implantar o modelo em um aplicativo da Web? Em seguida, as estruturas da Web e o suporte do Python de todos os principais provedores de nuvem o tornam um vencedor claro.

3. Qual a sua experiência no campo da ciência de dados?

Para um iniciante em ciência de dados que tenha familiaridade limitada com estatística e conceitos matemáticos, Pitão pode ser uma escolha melhor, pois permite codificar os fragmentos de um algoritmo com facilidade.

Com bibliotecas como NumPy, você pode manipular matrizes e algoritmos de código. Como iniciante, é sempre melhor aprender a construir coisas do zero, em vez de usar as bibliotecas de aprendizado de máquina.

Mas se você já conhece os fundamentos dos algoritmos de aprendizado de máquina, pode escolher um dos idiomas e começar a usá-los.

4. Quanto tempo você tem em mãos e qual é o custo do aprendizado?

A quantidade de tempo que você pode investir faz outro caso para sua escolha. Dependendo da sua experiência com programação e do tempo de entrega do seu projeto, você pode escolher um idioma em detrimento de outro para começar no campo.

Se houver um projeto de alta prioridade e você não conhecer nenhum dos idiomas, R poderá ser uma opção mais fácil para você começar, pois precisa de pouca ou nenhuma experiência com programação. Você pode escrever modelos estatísticos com algumas linhas de código usando bibliotecas existentes.

O Python (geralmente a escolha do programador) é uma ótima opção para começar, se você tiver alguma largura de banda para explorar as bibliotecas e aprender sobre métodos de explorar conjuntos de dados. (No caso de R, isso pode ser feito rapidamente no Rstudio.)

Outro fator importante é que existem mais mentores do Python em comparação com o R. Se você é alguém que precisa de ajuda com seu projeto python / R, pode procurar um Mentor de codificação aqui e usando esse link, você também recebe US $ 10 em crédito para se inscrever na primeira reunião de mentores.

Conclusão

Em poucas palavras, a diferença entre os recursos do R e do Python está se estreitando. A maioria dos trabalhos pode ser realizada nos dois idiomas. E ambos têm ecossistemas ricos para apoiá-lo.

A escolha de um idioma para o seu projeto dependerá:

  • Sua experiência anterior com Data Science (estatísticas e matemática) e programação.
  • O domínio do projeto em questão e a extensão do processamento estatístico ou científico necessário.
  • O escopo futuro do seu projeto.
  • O idioma / estrutura que é mais amplamente suportada em suas equipes, organização e setor.

Você pode conferir a versão em vídeo deste blog aqui,

Ciência de Dados com Harshit

Com este canal, estou planejando lançar algumas série que cobre todo o espaço da ciência de dados. Aqui está o porquê de você estar assinando o canal:

  • A série abordaria todos os tutoriais de qualidade exigidos / exigidos em cada um dos tópicos e subtópicos, como Fundamentos de Python para ciência de dados.
  • Explicou Matemática e derivações de por que fazemos o que fazemos no ML e no Deep Learning.
  • Podcasts com cientistas e engenheiros de dados do Google, Microsoft, Amazon, etc, e CEOs de grandes empresas movidas a dados.
  • Projetos e instruções para implementar os tópicos aprendidos até agora.

Você pode se conectar comigo no Twitterou LinkedIn.