Aprimorando o valor dos cientistas de dados no ecossistema de Big Data
Publicados: 2016-10-15O imenso alcance e influência do Big Data em quase todas as verticais da indústria não é desconhecido. Com o Big Data, uma cadeia de comunicação, comentários e menções de marca aparentemente massiva e complexa é analisada em um nível granular. O objetivo deste exercício é desvendar insights que podem ter permanecido ocultos da visão dos tomadores de decisão de uma empresa. Veja o caso da American Express. A gigante da empresa de cartões queria trazer mais do que apenas indicadores finais para levar adiante seus planos de crescimento agressivos. Isso levou a AmEx a investir na construção de modelos preditivos complexos, porém poderosos, que incluem até 115 variáveis . O objetivo do exercício? Buscar maneiras de aumentar a fidelidade à marca entre os clientes e reduzir a rotatividade de clientes com a ajuda do Big Data.

Essa análise preditiva é uma das formas de Data Science – o campo que ajuda a extrair conhecimento ou insights de Big Data (estruturados e não estruturados). Algumas outras implementações da ciência de dados incluem análise estatística, mineração de dados, engenharia de dados, modelos de probabilidade, visualizações e aprendizado de máquina. A ciência de dados faz parte do domínio maior da inteligência competitiva, que também inclui análise de dados e mineração de dados.
Um olhar para impulsionar a produtividade dos cientistas de dados de última geração
O evangelista de Big Data da IBM, James Kobielus, produziu um artigo interessante que destacou as diferentes maneiras pelas quais a produtividade dos cientistas de dados da próxima geração pode ser aprimorada. Isso pode, por sua vez, impactar as fortunas da economia global, finanças e sociedade.
Ele reconheceu o papel de missão crítica desempenhado pelos cientistas de dados em fornecer valor ao ambiente de negócios sempre ativo. Seu valor abrange diferentes integrações de soluções repetíveis para ajudar a analisar os dados e gerar insights significativos para ajudar as partes interessadas em seu processo de tomada de decisão.

Por que aumentar a produtividade dos cientistas de dados é essencial
Os cientistas de dados desempenham uma série de funções e responsabilidades variadas em todo o ecossistema de big data. Isso inclui tarefas como –
Manual
- Projetar e desenvolver modelos estatísticos
- Analisando o desempenho desses modelos
- Verificando os modelos com os dados do mundo real
- Realizar a difícil tarefa de transmitir os insights de uma maneira que não especialistas em dados (partes interessadas e tomadores de decisão) possam entender
Automatizado
- Iniciação, brainstorming e pesquisa sobre negócios do cliente e coleta de inteligência
- Descoberta de dados
- Perfil de dados
- Amostragem e organização de dados
Como é evidente, essas tarefas exigem um conjunto de conhecimentos de capital humano que não podem ser encontrados em um único indivíduo. Uma equipe de pessoas que são especialistas em diferentes nichos deve ser construída. Mais importante, eles precisam estar alinhados para que o objetivo comercial de ter uma equipe de cientistas de dados seja atendido de forma amigável e sem qualquer política. E isso pode ser alcançado com um conjunto robusto de processos e protocolos que precisam ser seguidos por todos da equipe.
No entanto, configurar e aplicar esses protocolos não significa necessariamente uma queda na produtividade dos cientistas de dados. James analisa os exemplos da vida real em que diferentes processos foram configurados para garantir a produtividade ideal dos cientistas de dados em ambientes de equipe complexos. Um exemplo que ele mencionou especificamente neste contexto é Ben Lorica de O'Reilly. Este artigo busca oferecer as seguintes vantagens em produtividade para os cientistas de dados:
- As provisões de uma API pronta para uso que pode ser disponibilizada para lidar com várias etapas principais e secundárias do domínio de análise e visualização de dados. Agilizar o processo de ponta a ponta do processamento de aprendizado de máquina pode ajudar em cada etapa do projeto a melhorar exponencialmente a redução de tempo e custo. E essa redução é muito maior do que o custo envolvido na integração do software nos sistemas existentes de sua organização.
- Tipos de dados como multimídia (áudio, vídeo, conteúdo) desempenham um papel fundamental no streaming de mídia e na computação cognitiva. Com o aprendizado de máquina automatizado, a absorção e a análise desses tipos de dados podem ser feitas facilmente. Ben sugere usar pipelines de amostra para fala e visão computacional e carregadores de dados para outros tipos de dados.
- Os aplicativos podem ajudar a acelerar o treinamento, o uso e o aperfeiçoamento dos modelos estatísticos e preditivos. Exemplos desses algoritmos de aprendizado de máquina escaláveis incluem os tempos de execução baseados em Spark .
- A produtividade dos cientistas de dados também pode ser aprimorada estendendo de maneira inteligente os pipelines de processamento de projetos multifuncionais de aprendizado de máquina. Exemplos de tais componentes incluem incorporar e carregar bibliotecas e otimizadores. Outras instâncias desses componentes incluem o conjunto diversificado de carregadores de dados , featurizers e alocadores de memória.
Ele também fala sobre como projetar, definir claramente e configurar limites de erro para ajudar a verificar a eficácia dos projetos de aprendizado de máquina. Com a ajuda desse esforço, o desempenho real pode ser medido em relação a benchmarks predefinidos. Além disso, pode ajudar no ajuste fino do modelo se houver um desvio significativo do desempenho real do modelo em relação aos resultados esperados.

Este é um exemplo dos esforços em andamento em todo o mundo em diferentes organizações para catapultar a produtividade dos cientistas de dados. Com esses esforços, eles desempenham suas funções em ambientes profundamente complexos que envolvem várias pessoas, processos, protocolos e expectativas.
Como agregar mais ao valor fornecido pelos cientistas de dados
James então destaca as maneiras pelas quais os cientistas de dados podem se destacar em seus trabalhos e se sair notavelmente bem com o nicho de análise e visualização de dados. Existem dois aspectos – um é a tecnologia em si (na forma de soluções como Hadoop, R, Python e Spark) e o outro é a equipe de especialistas que formam pontos de contato para cientistas de dados (desenvolvedores de aplicativos de dados, modeladores, engenheiros de dados, gestão e especialistas em ETL). Ambos devem trabalhar em conjunto para fornecer um ambiente que promova maior produtividade para os cientistas de dados. James listou algumas maneiras de conseguir isso.
- Facilidade de trabalhar com vários conjuntos de dados – Veja o caso de um centro médico. Ele pode manter e armazenar milhões de registros de milhares de pacientes. Estes podem incluir dados estruturados e não estruturados (imagens de patologia, anotações médicas, etc.). Uma implementação típica de big data seria criar um data lake Hadoop e aproveitar os dados para uso posterior. Outro exemplo pode ser de postagens e comentários de mídia social que são obtidos e armazenados em clusters de dados. Um cientista de dados deve ser capaz de adquirir dados de conjuntos de dados tão diversos com facilidade. Alguns dos exemplos incluem – data lakes, clusters de dados, serviços em nuvem.
- Excel em responsabilidades de trabalho – Análise de dados, modelagem preditiva, aprendizado de máquina, mineração de dados e visualização. Essas são apenas algumas das muitas funções em que um cientista de dados está envolvido. Naturalmente, ele teria que fazer uma infinidade de atividades para realizar o trabalho. Isso pode incluir uma ou mais descoberta de dados, agregação de dados semelhantes, ponderação de dados para corresponder ao universo, preparar e selecionar modelos para geração de insights mais profundos e formular, testar e validar uma hipótese. Sejam dados estruturados simples ou dados multiestruturados mais complexos, o ambiente de produtividade precisa que o cientista de dados se destaque em diferentes responsabilidades de trabalho.
- Experiência prática – Forneça aos cientistas de dados todo o escopo para implementar seu conhecimento prático dos aplicativos de análise de big data. Estes podem incluir R, Python, Spark e Hadoop.
- Amplie sua versatilidade – Como mencionado anteriormente, os cientistas de dados precisam interagir com muitos especialistas em suas funções e responsabilidades diárias. Isso inclui desenvolvedores de aplicativos de dados, modeladores, engenheiros de dados, gerenciamento sênior e especialistas em ETL. Os pontos de contato precisam compartilhar conhecimento sobre bibliotecas e modelos que podem ajudar a facilitar o trabalho e a compreensão de tópicos como aprendizado de máquina, exploração estatística, redes neurais, armazenamento de dados, transformação de dados e aquisição de dados.
- Monitorando o progresso – Um cientista de dados fornece muito peso para conceber, projetar e colocar em ação processos para lidar com conjuntos de dados em grande escala a serem usados para modelagem, pesquisa estatística e mineração de dados. Ele / Ela também desempenha muitas funções auxiliares, como desenvolvimento de casos de negócios, interação com fornecedores terceirizados, gerenciamento do ciclo de vida de todo o projeto de análise de dados, mantendo a equipe bem alinhada até o final e interagindo com as partes interessadas com atualizações regulares sobre o progresso do projeto. Em um ambiente propício, um cientista de dados deve ser capaz de rastrear, aplicar e verificar o funcionamento correto dos vários componentes que lhe permitem fazer o trabalho corretamente. Esses componentes incluem bibliotecas, modelagem, integrações de tecnologia, dados, algoritmos e metadados.
Com essas dicas úteis, James mostra as maneiras pelas quais é possível aumentar o valor dos Cientistas de Dados no ecossistema de Big Data.
Planejando adquirir dados da web? Nós estamos aqui para ajudar. Deixe-nos saber sobre suas necessidades.
