Como construir a equipe perfeita de ciência de dados – PromptCloud

Publicados: 2018-07-10
Índice mostrar
As pessoas que você precisará em uma equipe de ciência de dados
Como as pessoas trabalham em equipe?
O que procurar em um-
Engenheiro de dados:
Cientista de Dados:
Gerenciador de dados:

Caso você tenha decidido expandir seus negócios, com o suporte de dados, e tenha decidido montar uma equipe de ciência de dados com pessoas experientes, é muito importante ter em mente que a ciência de dados é um esporte de equipe e você precisa contratar pessoas que trabalham melhor em equipe, não importa quais sejam suas capacidades individuais. É preciso um grande grupo de pessoas, todas trabalhando em diferentes configurações, vindo e trabalhando juntas, para resolver projetos práticos de ciência de dados. Então, quem sua equipe ideal de ciência de dados incluiria?

Os cientistas de dados, que serão os motores da inovação nos projetos.

Os gerentes de projeto, para garantir que todos sigam um cronograma e os projetos se desenvolvam em experimentos científicos em caixa.

Engenheiros de dados que realizariam e desenvolveriam a infraestrutura.

Pessoas que têm contatos externos, para ajudar na obtenção de dados e feedback, principais pessoas envolvidas em cargos de gestão.

As pessoas que você precisará em uma equipe de ciência de dados

Um engenheiro de dados é uma pessoa que teria que lidar com a configuração da infraestrutura, ambiente e também converter algoritmos teóricos e ideias em código e aplicativos em execução. Ele pode construir um banco de dados ou extrair dados desse banco de dados para as pessoas analisarem. Ele também pode ter que converter ideias em produtos de aprendizado de máquina em nível de produção e convertê-los em um modelo cliente-servidor, para que possam ser aplicados a um enorme banco de dados de observações, ou mesmo executados em tempo real, para que o produto use dados, para ficar mais esperto com o tempo.

Então, um cientista de dados pode ser alguém que vai extrair dados de um banco de dados, analisá-los, realizar experimentos nele, visualizá-los e comunicar esses resultados ao gerente de ciência de dados e a outras pessoas na organização que, então, moverão as coisas frente. Muitas vezes, um cientista de dados passará a implementação de qualquer algoritmo de aprendizado de máquina ou algoritmo de previsão que desenvolva para o engenheiro de dados, que garantirá que o programa possa ser executado em escala.

A terceira pessoa-chave é o gerente de ciência de dados - a pessoa encarregada de manter a equipe no lugar e funcionando com eficiência. Em um mundo ideal, você pode nem precisar de um gerente de ciência de dados, mas o gerente de ciência de dados garante que todos interajam uns com os outros e que as coisas continuem em movimento. Eles também recrutam e constroem a equipe de ciência de dados, interagem com a alta administração da organização e colaboradores que estão no mesmo nível em toda a organização, para garantir que todas as informações sejam transmitidas.

Eles divulgam as descobertas da equipe de ciência de dados para outras pessoas e suas capacidades e incentivam as pessoas a trazer seus problemas para a equipe.

Como as pessoas trabalham em equipe?

Eles trabalham juntos como uma unidade, e muitas vezes cada uma dessas pessoas está trabalhando em projetos individuais, ou subproblemas individuais de um problema de ciência de dados e, em seguida, eles se reúnem e fazem reuniões de grupo conjuntas e apresentações conjuntas, onde discutem suas ideias e os desafios que estão enfrentando. Eles também interagem com pessoas externas para obter informações e o que acham que seria atraente para os clientes. Eles também precisam manter todos atualizados sobre os custos regulares de infraestrutura, bem como os custos mensais, como AWS e muito mais.

O que procurar em um-

Engenheiro de dados:

Então você começa sua busca, encontrando o engenheiro de dados perfeito para sua equipe. Mas quem deveria ser essa pessoa perfeita?

Eles precisam ter um grande conhecimento de hardware, tanto em termos de armazenamento quanto em termos de computação, além de conhecimento de software de banco de dados. Você estará lidando com uma enorme quantidade de dados. Portanto, essas qualidades são muito importantes para executar em escala esses processos de dados e os algoritmos de previsão de dados que você desenvolveu, sem nenhuma interrupção. Eles também precisam saber o suficiente de ciência de dados e algoritmos para interagir com o restante dos membros da equipe de ciência de dados. Embora a formação dos engenheiros de dados seja na maioria das vezes ciência da computação e engenharia da computação, não existe uma regra tão rígida e rápida, e eles também podem vir de outros lugares. Eles podem vir de uma formação quantitativa e podem ter adquirido algum conhecimento de ciência da computação em movimento, por meio de cursos on-line no Coursera ou talvez tenham feito alguns cursos pessoalmente. Eles também podem precisar saber como fazer coisas como implementação e execução de algoritmos complexos usando software como o Hadoop, que é uma infraestrutura de processamento paralelo. Agora, não é necessariamente verdade que eles precisam conhecer qualquer uma dessas últimas palavras da moda. Mas é verdade que eles precisam ter a combinação de habilidades que lhes permita construir uma infraestrutura de dados que seja sustentável e dimensionada.

E, novamente, eles precisam ser capazes de resolver problemas triviais por conta própria. Esta é, novamente, uma pessoa que muitas vezes será uma das poucas pessoas que é o único responsável pela infraestrutura de dados. E assim, muitas vezes eles precisam ser capazes de responder a algumas perguntas. Eles precisam ser capazes de sair e coletar várias informações da Internet. Eles precisam ser capazes de fazer perguntas e descobrir qual é o hardware certo, seja online ou através de fóruns. Eles precisam estar cientes das medidas e protocolos de segurança. O papel não está bem definido no sentido de que novos recursos e plataformas surgem a cada dois dias. Assim, o engenheiro de dados precisa saber qual ferramenta escolher e qual tecnologia integrar e assim por diante.

Cientista de Dados:

Você não pode construir uma equipe de ciência de dados que não tenha um ou mais Cientistas de Dados, pois eles atuam como o motor do carro. Um cientista de dados deve ter o conjunto de habilidades que lhe permita realizar todas as tarefas relacionadas à pesquisa, análise e descoberta que ele possa precisar fazer no dia a dia. Se você está em um estágio muito inicial e está contratando sua primeira equipe de ciência de dados, eles podem ter que ser um pouco mais do que um pau para toda obra. Eles podem precisar ser capazes de fazer partes de engenharia de dados, bem como ciência de dados. Em geral, eles precisam ser capazes de fazer estatísticas e codificação. Eles precisam saber bastante sobre previsão e aprendizado de máquina. Essas são duas tarefas diferentes, inferência e previsão. É importante saber que algumas pessoas serão melhores em um, e algumas pessoas serão melhores no outro. Tudo se resume ao que sua organização está fazendo. Se você estiver fazendo mais, criando ferramentas preditivas, talvez elas precisem ser um pouco mais fortes em aprendizado de máquina.

Mas se você gosta mais de experimentos e precisa apresentar novas hipóteses, eles podem precisar ser um pouco melhores em estatísticas e inferências. No final do jogo, eles precisam realizar a inferência estatística ou a previsão necessária para triturar os dados e, em seguida, comunicar esses resultados. Portanto, as habilidades de comunicação de dados envolvem a capacidade de analisar os dados e criar visualizações inteligentes para comunicar essas descobertas e previsões de uma maneira que pessoas sem ideia de ciência de dados entendam como os dados estão associados a um problema de negócios da vida real. R e Python são os mais populares entre os cientistas e, mesmo que eles não conheçam os dois, pode-se facilmente aprender rapidamente. Conhecer algum tipo de visualização como angular.js seria um plus. Eles teriam experiência com pelo menos um banco de dados - MongoDB, SQL, Cassandra ou PostgreSQL, onde eles realmente interagiram com a extração de dados de um banco de dados.

Gerenciador de dados:

O último e provavelmente o membro mais importante da equipe de ciência de dados é um gerente de ciência de dados. Embora possa parecer que não há necessidade de gerenciar uma equipe adulta e experiente de analistas de dados, cientistas e engenheiros, sem um gerente de dados, a equipe pode até desmoronar, devido a conflitos de ego, diferenças de opinião , etc. Eles funcionam como pontes de comunicação entre os membros da equipe de ciência de dados e também são responsáveis ​​por identificar e recrutar novos indivíduos. Eles ajudam todos a identificar seus objetivos e prioridades pessoais, identificar os problemas dentro de uma organização que precisam ser resolvidos pela ciência de dados e colocar as pessoas certas no problema certo.

Então, é hora de apertar o cinto, construir a equipe certa e vencer o mundo na busca por dados?