Entenda o que é, aplicações, linguagens de programação, como atuar e como iniciar um projeto em data science
Data é o que não nos falta. Levamos boa parte de nossas transações, relacionamentos, cotidiano, entretenimento, trabalho, para o mundo digital, deixando uma pegada por onde quer que transitemos no mundo online.
Em estado bruto, essas informações pouco significam. Como diz o cientista de dados inglês Clive Humby em citação famosa:
Dados são valiosos, mas se não forem refinados não podem ser usados. […] Desse modo os dados devem ser quebrados e analisados para terem valor.
Então, partindo da premissa de que, se há dados, eles devem ser analisados para ter valor, inventamos uma ciência só para eles: o data science.
É fácil perceber a pertinência de uma ciência de dados. Afinal, a lógica da ciência está no senso comum: somos capazes, por exemplo, a partir da organização mental de informações particulares, de chegar a conclusões mais gerais, as quais nos habilitam a fazer previsões em que as colocamos a prova, confirmando-as ou refutando-as.
No data science, faz-se isso. Só que com uma quantidade infinitamente maior de informação. Por isso, junto com o nosso, outra espécie de cérebro atua, o computacional, dado por algoritmos e modelos matemáticos.
Uma das principais aplicações do data science está nos negócios, de todos os segmentos.
Para você entender por que, nesta entrevista com Normélio Schneider Junior, Team Leader de Data Science na Supero, vamos discutir os principais tópicos sobre data science: conceito, aplicações, profissionais da área e por onde começar.
O que é data science?
Normélio: Data science é o estudo dos dados e informações inerentes ao negócio para obter todas as visões que podem cercar um determinado assunto. Por isso, ajuda a organização a fazer descobertas de comportamento e padrões do negócio, os famosos insights.
Além disso, é uma ciência que aborda conceitos complexos, com grande volume e variedade de dados, de qualquer tema ou área de uma companhia, trabalhando na sua evolução para informação, desde o processo de aquisição, exploração, transformação, mineração, geração, análise de dados e entrega de resultados.
Multidisciplinar, a ciência de dados envolve diversas áreas, dentre as quais: computação e programação, análise de dados, matemática, estatística e negócios.
Para que serve o data science?
Normélio: O maior propósito do data science é responder perguntas através dos dados, seja um problema, uma melhoria em algum processo, uma evolução em algum assunto de negócio ou até mesmo encontrar pontos de tais melhorias e evoluções que ainda não estejam sendo observados. “Descoberta” é uma palavra intimamente ligada ao data science.
Quais as aplicações do data science?
Normélio: Atualmente, inteligência de negócio/BI, análise de dados, data-driven, machine learning, deep learning e inteligência artificial.
Nenhum desses assuntos são triviais e todos eles podem estar diretamente ligados ao data science.
Muitos entregáveis de data science são informações já entendidas e esclarecidas, que alimentarão um BI, uma machine learning, um processo de fotorreconhecimento ou de reconhecimento facial, uma recomendação de produtos, uma confirmação de requisição de compras ou pagamento, uma clusterização de documentos por conteúdo – enfim, qualquer processo que precise de dados limpos, entendidos, esclarecidos, organizados e categorizados, provavelmente, precisará de um processo de data science.
Veja também: 8 aplicações de tecnologias emergentes durante a pandemia
Que problemas podemos resolver com o data science?
Normélio: Como o data science tem como principal propósito resolver questões com dados, podemos aplicá-lo a contextos que necessitem de soluções baseadas em dados.
Para citar alguns exemplos, isso pode significar:
- recomendação de produtos ou serviços para clientes;
- autorização de processos de pagamento, compras ou vendas de produtos ou serviços;
- fotorreconhecimento e reconhecimento facial;
- agrupamento de texto ou documentos por assunto;
- reconhecimento de comportamento online;
- reconhecimento de fraudes bancárias;
- reconhecimento de comportamento em dados financeiros;
- avaliação de risco de pessoas ou processos;
- reconhecimento de comportamento de um vírus em uma pandemia (COVID-19);
- verificação de funcionamento de equipamentos industriais, residenciais ou veiculares;
- load balance de sites e webservers;
- reconhecimento de spam em e-mails;
- reconhecimento de vírus e de códigos maliciosos em computadores e mobiles;
- auditoria em contas bancárias, sistemas ou sites;
- reconhecimento de voz;
- reconhecimento de escrita e idiomas;
- gerenciamento de torres de celular;
- reconhecimento de tendência de moda;
- previsão de faturamento e custos;
- controle de estoque para melhores compras e não rupturas etc.
Qual o perfil do profissional de data science?
Normélio: O profissional de data science, o cientista de dados, é multidisciplinar, com um forte background em computação/programação voltada a dados, matemática e estatística. Ele precisará transitar bem entre essas várias disciplinas para realizar um trabalho completo.
Um cientista de dados também é capaz de analisar grandes volumes de dados de diversas fontes e formatos a fim de obter conclusões (insights) ou gerar previsões.
É um profissional que na maioria das vezes terá que extrair o máximo em cada passo do seu trabalho, para entregar um resultado eficaz, coerente e seguro, com boa performance de tempo e processamento, sobretudo porque seu público-alvo é composto por decisores, sejam eles pessoas (usuários, gestores...) ou máquinas (machine learning, deep learning ou um algoritmo matemático estatístico), sem margem para erros ou má interpretação.
O que caracteriza um problema que precise de solução em data science?
Normélio: Todo e qualquer contexto, não somente um problema, que necessite de uma resolução baseada em dados, em que esses dados precisem de tratamentos mais complexos, como por algoritmos matemáticos e estatísticos, que possam vir de mais de uma fonte, com mais de um formato e em grande volume.
Como iniciar na jornada data science?
Normélio: Primeiramente, tenha em mente que o foco do data science não é fazer rápido, e sim entregar resultado valioso e seguro.
Outro ponto importante é saber lidar com certo grau de imprevisibilidade ligado a projetos em data science. Não se sabe sempre quanto trabalho realmente será realizado para chegar ao resultado esperado. Durante o andamento, muitos passos definidos no pipeline deverão ser revisados, tanto para ajustar quanto para acrescentar passos não definidos por inobservância, o que é algo bem normal em projetos grandes.
Por fim, a cultura da companhia tem que estar alinhada com a cultura data science, pois somente assim o projeto, sobretudo se ele for o primeiro, poderá mostrar seu valor. Para os próximos projetos de data science, a organização já terá um entendimento e poderá se aproximar cada vez mais de uma cultura realmente voltada a dados, o famoso data-driven.
Como iniciar um projeto em data science?
Normélio: Para iniciar um projeto em data science, é fundamental partir das seguintes definições:
- O que será resolvido (problema, evolução ou melhoria?);
- Como será entregue (API, dashboard, dataset etc.?);
- Quais as expectativas das entrega (datas, acurácia, metas etc.?);
- Qual o perfil do profissional ou do time que executará o projeto?;
- Quem serão as pessoas-chave para o auxílio de conhecimento de negócio (keyusers)?;
- Quais as definições técnicas (SO, licenças, periodicidade, controle de falhas, segurança, formato dos Dados etc.);
- Que ferramentas/linguagens/frameworks serão utilizados?;
- Qual o pipeline de todo o processo, por ordem de execução.
A escolha da ferramenta (linguagem ou framework) é importante?
Normélio: Como todo o projeto, essa definição é sim bem importante. Sobretudo se levarmos em conta o cenário atual, em que temos à disposição muitas ferramentas genéricas e outras bem específicas.
Mas essa decisão não necessariamente vai ditar o rumo do projeto. Ela vai ser levada em consideração desde o início, claro, para não corrermos o risco de optar por uma ferramenta e de só perceber após tudo desenhado e arquitetado ou, pior ainda, já nos finalmentes do projeto que ela não nos atenderá.
Para escolher a ferramenta, podem ser utilizados quesitos como: performance; comunidade e suporte; cases; nível de conhecimento do profissional ou do time; capacidade de atender todas as demandas ou só algums, tornando necessária outra ferramenta auxiliar; licenças; custo-benefício; e funcionamento em geral (web, mobile, desktop).
Uma ferramenta mal escolhida pode tornar seus entregáveis pífios, elevar os custos e atrasar as entregas devido a sua complexidade ou baixa funcionalidade prática, o que requererá muita programação e ajustes intermináveis.
Em resumo, a escolha da ferramenta é fundamental para que as entregas não sejam reduzidas ou danificadas. Portanto, essa escolha não pode ser feita de forma negligente, sem um estudo. E na decisão, buscar o equilíbrio dos critérios que elenquei acima vai ajudar.
A escolha dos profissionais é importante?
Normélio: É preciso saber qual é o perfil do profissional que a organização busca, antes ir ao mercado, ainda que isso não seja simples e nem sempre possível na totalidade.
Mas alguns erros comuns na escolha de cientistas de dados podem ser evitados, tais como:
- Contratar um bom matemático ou estatístico, pois com a linguagem ele se vira e aprende. Esse é o maior e mais catastrófico erro que podemos cometer ao contratar cientistas de dados. Não dá para partir da premissa de que qualquer um é apto a programar em uma linguagem de programação e lidar com dados. Todos sabemos que escrever um Hello World é muito simples, porém linguagens como R, Python ou Java têm um universo enorme de possibilidades, e quanto mais você souber e conseguir extrair delas, melhor a sua performance, com menos erros e mais simples a sua aplicação ficará. Sendo assim, a experiência, o leque de conhecimento em ferramentas e linguagens, a dedicação no aprendizado e reciclagem de um bom programador, alidos a outros atributos de um profissional de data science, são uma boa opção de escolha do profissional.
- Contratar um programador puro. Esse é outro erro constante, e ele parte da premissa de que o data science é apenas código e, portanto, de que qualquer bom programador poderá fazer isso. Como vimos, está errado.
- Acreditar que a sua equipe atual de dados, analistas ou desenvolvedores de BI, poderá, da noite para o dia, de um projeto para outro, se tornar uma equipe de data science também é outro erro comum. Não que seja impossível. Na verdade, é um dos caminhos mais trilhados nessa área. Porém essa transição de BI para data science não ocorre de uma hora para outra. Há uma escalada de aprendizado.
Quais as melhores práticas em data science?
Normélio: Citaria quatro boas práticas em data science como as principais.
- Manter o ambiente do projeto limpo e organizado. Pastas, repositórios de dados e ambiente em nuvem devem sempre estar limpos e organizados, para que não ocorra nenhum tipo de confusão ou de sobreposição dos códigos/scripts, arquivos de configuração e datasets.
- Compartilhamento de conhecimento. Todo o conhecimento inicial e adquirido durante o projeto deve ser compartilhado entre a equipe, para que todos estejam alinhados com as dificuldades, problemas, soluções, alterações no pipeline, enfim, com tudo que estiver acontecendo, para uma entrega mais sadia e assertiva, principalmente quando existem atividades paralelas que devem culminar em uma entrega única.
- Procurar a homogeneidade de ferramentas. É bom evitar uma gama muito ampla de ferramentas, linguagens e frameworks dentro de um único pipeline, para que a solução seja mais facilmente interpretada futuramente. Isso evita horas e horas de entendimento da solução, além de que pode ser mais simples para um único profissional resolver algum ajuste ou melhoria. Não que em um agrupado de projetos de data science não possamos ter subprojetos com ferramentas, linguagens ou frameworks diferenciados. Podemos, e isso até faz parte, pois podemos evoluir os projetos e trocar as ferramentas para outras melhores. O ponto é que devemos evitar muitas ferramentas, linguagens ou frameworks diferente em um único pipeline de projeto.
- Ter um foco ou meta e mantê-lo. Ao início do projeto deve-se definir as expectativas de entregas, e uma delas é a meta ou foco da entrega do projeto em questão. Devemos evitar ao máximo ficar trocando de foco, para que tenhamos um desenvolvimento conciso do início ao fim do projeto.
Data science do zero: da teoria à prática
Após passar, nesta entrevista com nosso Team Leader de Data Science Normélio Schneider Junior, pelos principais conceitos de data sciente, fica mais claro entender por que ele tem provado seu valor dentro das organizações dia a dia. E ainda há muito a ser explorado.
Veja também: 6 fatos que vão convencer você a investir em data science
Hoje, o uso de data science em organizações ainda é um diferencial. Amanhã, já não garantimos.
Acha que a ciência de dados pode ajudar a sua empresa? Conheça nossas soluções em ciência de dados.