Comment construire l'équipe de science des données parfaite - PromptCloud

Publié: 2018-07-10
Table des matières afficher
Les personnes dont vous aurez besoin dans une équipe de science des données
Comment les gens travaillent-ils en équipe ?
Que rechercher dans un-
Ingénieur de données :
Scientifique des données :
Gestionnaire de données:

Si vous avez décidé de développer votre entreprise, avec le soutien des données, et que vous avez décidé de constituer une équipe de data science composée de personnes expérimentées, il est très important de garder à l'esprit que la data science est un sport d'équipe et que vous devez embaucher des personnes qui travaillent mieux en équipe, quelles que soient leurs capacités individuelles. Il faut un grand groupe de personnes, ayant toutes travaillé dans des contextes différents, venant et travaillant ensemble, pour résoudre des projets pratiques de science des données. Alors, qui comprendrait votre équipe de science des données idéale ?

Les data scientists, qui seront les moteurs de l'innovation dans les projets.

Les chefs de projet, pour s'assurer que tout le monde respecte un calendrier et que les projets se transforment en expériences scientifiques en boîte.

Des ingénieurs de données qui exécuteraient et développeraient l'infrastructure.

Les personnes qui ont des contacts à l'extérieur, pour aider à obtenir des données ainsi que des commentaires, principales personnes impliquées dans les postes de gestion.

Les personnes dont vous aurez besoin dans une équipe de science des données

Un ingénieur de données est une personne qui devrait s'occuper de la mise en place de l'infrastructure et de l'environnement requis, ainsi que de la conversion d'algorithmes et d'idées théoriques en code et applications en cours d'exécution. Il peut construire une base de données ou extraire des données de cette base de données pour que les gens les analysent. Il peut également avoir à convertir des idées en produits d'apprentissage automatique au niveau de la production et à les convertir en un modèle client-serveur, afin qu'ils puissent être appliqués à une énorme base de données d'observations, ou même exécutés en temps réel, de sorte que le produit utilise des données, pour devenir plus intelligent avec le temps.

Ainsi, un scientifique des données pourrait être quelqu'un qui irait extraire des données d'une base de données, les analyserait, effectuerait des expériences dessus, les visualiserait et communiquerait ces résultats au responsable de la science des données et à d'autres personnes de l'organisation qui déplaceraient ensuite les choses vers l'avant. Souvent, un scientifique des données transmettra la mise en œuvre de tout algorithme d'apprentissage automatique ou algorithme de prédiction qu'il développe à l'ingénieur des données, qui s'assurera ensuite que le programme peut fonctionner à grande échelle.

La troisième personne clé est le responsable de la science des données - la personne chargée de maintenir l'équipe en place et de fonctionner efficacement. Dans un monde idéal, vous n'auriez peut-être même pas eu besoin d'un responsable de la science des données, mais ensuite, le responsable de la science des données s'assure que tout le monde interagit les uns avec les autres et que les choses continuent de bouger. Ils recrutent et construisent également l'équipe de science des données, interagissent avec la haute direction de l'organisation et les collaborateurs qui sont au même niveau dans l'organisation, pour s'assurer qu'ils transmettent toutes les informations.

Ils annoncent les découvertes de l'équipe de science des données à d'autres personnes, ainsi que leurs capacités et encouragent les gens à faire part de leurs problèmes à l'équipe.

Comment les gens travaillent-ils en équipe ?

Ils travaillent ensemble comme une unité, et souvent chacune de ces personnes travaille sur des projets individuels, ou des sous-problèmes individuels d'un problème de science des données, puis ils se réunissent et ont des réunions de groupe conjointes et des présentations conjointes, où ils discutent de leurs idées et de la défis auxquels ils sont confrontés. Ils interagissent également avec des personnes externes pour obtenir des informations et ce qu'ils pensent être attrayant pour les clients. Ils doivent également tenir tout le monde informé des coûts d'infrastructure réguliers, ainsi que des coûts mensuels tels qu'AWS et plus encore.

Que rechercher dans un-

Ingénieur de données :

Vous commencez donc votre chasse en trouvant l'ingénieur de données idéal pour votre équipe. Mais qui devrait être cette personne parfaite ?

Ils doivent avoir une grande connaissance du matériel, tant en termes de stockage qu'en termes d'informatique, ainsi qu'une connaissance des logiciels de base de données. Vous aurez affaire à une énorme quantité de données. Ces qualités sont donc assez importantes pour exécuter à grande échelle ces processus de données et ces algorithmes de prédiction de données que vous avez développés, sans aucune interruption. Ils doivent également connaître suffisamment la science des données et les algorithmes pour interagir avec le reste des membres de l'équipe de science des données. Bien que la formation des ingénieurs de données soit le plus souvent l'informatique et l'ingénierie informatique, il n'y a pas de règle aussi stricte et rapide, et ils peuvent également provenir d'autres endroits. Ils peuvent provenir d'une formation quantitative et avoir acquis des connaissances en informatique en déplacement, via des cours en ligne sur Coursera ou peut-être avoir suivi des cours en personne. Ils peuvent également avoir besoin de savoir comment faire des choses comme la mise en œuvre et l'exécution d'algorithmes complexes à l'aide de logiciels comme Hadoop, qui est une infrastructure de traitement parallèle. Maintenant, il n'est pas nécessairement vrai qu'ils aient besoin de connaître l'un de ces derniers mots à la mode. Mais il est vrai qu'ils doivent disposer de la combinaison de compétences qui leur permet de construire une infrastructure de données maintenable et évolutive.

Et encore une fois, ils doivent être capables de résoudre eux-mêmes des problèmes triviaux. Il s'agit encore une fois d'une personne qui sera souvent l'une des rares personnes à être seule responsable de l'infrastructure des données. Et donc, souvent, ils doivent être capables de répondre eux-mêmes à certaines questions. Ils doivent pouvoir sortir et recueillir diverses informations sur Internet. Ils doivent pouvoir poser des questions et déterminer quel est le bon matériel, que ce soit en ligne ou via des forums. Ils doivent être conscients des mesures et des protocoles de sécurité. Le rôle n'est pas bien défini dans le sens où de nouvelles fonctionnalités et plates-formes sortent tous les deux jours. L'ingénieur de données doit donc savoir quel outil choisir et quelle technologie intégrer, etc.

Scientifique des données :

Vous ne pouvez pas constituer une équipe de science des données qui n'a pas un ou plusieurs Data Scientists puisqu'ils agissent comme le moteur de la voiture. Un scientifique des données doit posséder l'ensemble des compétences qui lui permettent d'effectuer toutes les tâches liées à la recherche, à l'analyse et à la découverte dont il pourrait avoir besoin au quotidien. Si vous en êtes à un stade très précoce et que vous embauchez votre première équipe de science des données, elle devra peut-être être un peu plus polyvalente. Ils devront peut-être être capables de faire des parties de l'ingénierie des données, ainsi que de la science des données. En général, ils doivent être capables de faire des statistiques ainsi que du codage. Ils doivent en savoir un peu plus sur la prédiction et l'apprentissage automatique. Ce sont deux tâches différentes, l'inférence et la prédiction. Il est important de savoir que certaines personnes seront meilleures dans l'un et que certaines personnes seront meilleures dans l'autre. Cela se résume à ce que fait votre organisation. Si vous en faites plus, construisez des outils prédictifs, ils devront peut-être être un peu plus forts en apprentissage automatique.

Mais si vous êtes plus dans les expériences et que vous avez besoin de proposer de nouvelles hypothèses, ils devront peut-être être un peu meilleurs en statistiques et en inférence. En fin de compte, ils doivent effectuer l'inférence statistique ou la prédiction dont ils ont besoin pour analyser les données, puis communiquer ces résultats. Ainsi, les compétences en communication de données impliquent à la fois d'être capable d'analyser les données et de créer des visualisations intelligentes afin de communiquer ces résultats et prédictions de manière à ce que les personnes n'ayant aucune idée de la science des données comprennent comment les données sont associées à un problème commercial réel. R et Python sont les plus populaires parmi les scientifiques, et même s'ils ne connaissent pas les deux, on peut facilement les capter à la volée. Connaître une sorte de visualisation comme angular.js serait un plus. Ils auraient de l'expérience avec au moins une base de données -, MongoDB, SQL, Cassandra ou PostgreSQL, où ils ont effectivement interagi avec l'extraction de données d'une base de données.

Gestionnaire de données:

Le dernier membre, et probablement le plus important de l'équipe de science des données, est un responsable de la science des données. Bien qu'il puisse sembler qu'il n'est pas nécessaire de gérer une équipe adulte et expérimentée d'analystes de données, de scientifiques et d'ingénieurs, sans gestionnaire de données, l'équipe peut même s'effondrer, en raison de conflits d'ego, d'une différence d'opinion , etc. Ils fonctionnent comme des ponts de communication entre les membres de l'équipe de science des données et sont également responsables de l'identification et du recrutement de nouveaux individus. Ils aident chacun à identifier ses objectifs et priorités personnels, à identifier les problèmes au sein d'une organisation qui doivent être résolus par la science des données, et à mettre en quelque sorte les bonnes personnes sur le bon problème.

Il est donc temps de boucler votre ceinture, de constituer la bonne équipe et de battre le monde dans la quête de données ?