Wertsteigerung von Data Scientists im Big-Data-Ökosystem

Veröffentlicht: 2016-10-15
Inhaltsverzeichnis anzeigen
Handbuch
Automatisiert
Wie Sie den Wert von Data Scientists steigern können

Die immense Reichweite und der Einfluss von Big Data über fast alle Branchenvertikalen sind nicht unbekannt. Mit Big Data werden scheinbar massive und komplexe Kommunikationsketten, Kommentare und Markenerwähnungen auf granularer Ebene analysiert. Ziel dieser Übung ist es, Erkenntnisse zu gewinnen, die den Entscheidungsträgern eines Unternehmens bisher verborgen geblieben sind. Nehmen Sie den Fall von American Express. Der Gigant des Kartenunternehmens wollte mehr als nur nachlaufende Indikatoren liefern, um seine aggressiven Wachstumspläne voranzutreiben. Dies veranlasste AmEx dazu , in den Aufbau eines komplexen und dennoch leistungsstarken Vorhersagemodells zu investieren , das bis zu 115 Variablen berücksichtigt . Der Zweck der Übung? Mit Hilfe von Big Data nach Möglichkeiten suchen, die Markentreue bei den Kunden zu stärken und die Kundenabwanderung zu verringern.

Datenwissenschaft

Diese prädiktive Analyse ist eine der Formen von Data Science – dem Bereich, der dabei hilft, Wissen oder Erkenntnisse aus Big Data (sowohl strukturiert als auch unstrukturiert) zu extrahieren. Einige andere Implementierungen der Datenwissenschaft umfassen statistische Analysen, Data Mining , Data Engineering, Wahrscheinlichkeitsmodelle, Visualisierungen und maschinelles Lernen. Data Science ist ein Teil des größeren Bereichs Competitive Intelligence, der auch Datenanalyse und Data Mining umfasst.

Ein Blick auf die Steigerung der Produktivität von Data Scientists der nächsten Generation

James Kobielus, Big Data Evangelist von IBM, hatte einen interessanten Artikel verfasst , der die verschiedenen Möglichkeiten hervorhob, mit denen die Produktivität von Data Scientists der nächsten Generation gesteigert werden kann. Dies kann sich wiederum auf die Geschicke der Weltwirtschaft, der Finanzen und der Gesellschaft auswirken.

Er hat die unternehmenskritische Rolle anerkannt, die Data Scientists bei der Bereitstellung von Mehrwert für das Always-on-Geschäftsumfeld spielen. Ihr Wert erstreckt sich über verschiedene wiederholbare Lösungsintegrationen, um bei der Analyse der Daten zu helfen und aussagekräftige Erkenntnisse zu gewinnen, um die Beteiligten bei ihrem Entscheidungsprozess zu unterstützen.

Große Daten

Warum es wichtig ist, die Produktivität der Data Scientists zu steigern

Data Scientists erfüllen eine Vielzahl unterschiedlicher Rollen und Verantwortlichkeiten innerhalb des gesamten Big-Data-Ökosystems. Dazu gehören Aufgaben wie –

  1. Handbuch

  • Entwurf und Entwicklung statistischer Modelle
  • Analysieren der Leistung dieser Modelle
  • Verifizieren der Modelle mit den realen Daten
  • Durchführung der schwierigen Aufgabe, die Erkenntnisse so zu vermitteln, dass Nicht-Datenexperten (Stakeholder und Entscheidungsträger) sie verstehen können
  1. Automatisiert

  • Initiierung, Brainstorming und Recherche zum Kundengeschäft und zum Sammeln von Informationen
  • Datenentdeckung
  • Datenprofilierung
  • Stichproben und Organisation von Daten

Es ist offensichtlich, dass diese Aufgaben eine Reihe von Humankapital-Expertise erfordern, die nicht in einer einzelnen Person zu finden ist. Ein Team von Leuten, die Experten in verschiedenen Nischen sind, muss aufgebaut werden. Noch wichtiger ist, dass sie so ausgerichtet sein müssen, dass das Geschäftsziel, ein Team von Datenwissenschaftlern zu haben, einvernehmlich und ohne Politik erreicht wird. Und dies kann erreicht werden, indem ein robuster Satz von Prozessen und Protokollen vorhanden ist, die von jedem einzelnen im Team befolgt werden müssen.

Die Einrichtung und Durchsetzung dieser Protokolle bedeutet jedoch nicht unbedingt einen Rückgang der Produktivität der Datenwissenschaftler. James wirft einen Blick auf Beispiele aus der Praxis, in denen verschiedene Prozesse eingerichtet wurden, um eine optimale Produktivität der Datenwissenschaftler in komplexen Teamumgebungen sicherzustellen. Ein Beispiel, das er in diesem Zusammenhang ausdrücklich erwähnt hat, ist Ben Lorica von O'Reilly. Dieser Artikel soll Data Scientists die folgenden Produktivitätsvorteile bieten:

  • Die Bereitstellung einer Standard-API, die zur Verfügung gestellt werden kann, um verschiedene Haupt- und Unterschritte der Datenanalyse- und Visualisierungsdomäne zu bewältigen. Die Rationalisierung des End-to-End-Prozesses der maschinellen Lernverarbeitung kann bei jedem einzelnen Meilenstein des Projekts helfen und die Zeit- und Kostenreduzierung exponentiell verbessern. Und diese Reduzierung ist weitaus höher als die Kosten für die Integration der Software in die bestehenden Systeme Ihres Unternehmens.
  • Datentypen wie Multimedia (Audio, Video, Inhalt) spielen eine zentrale Rolle beim Streaming von Medien und der kognitiven Berechnung. Mit automatisiertem maschinellem Lernen kann die Aufnahme und Analyse dieser Art von Daten einfach durchgeführt werden. Ben schlägt vor, Beispiel-Pipelines für Sprache und Computer Vision und Datenladeprogramme für andere Datentypen zu verwenden.
  • Anwendungen können dabei helfen, das Training, die Verwendung und die Perfektionierung der statistischen und prädiktiven Modelle schnell zu verfolgen. Beispiele für solche skalierbaren Algorithmen für maschinelles Lernen sind die Spark-basierten Laufzeiten .
  • Die Produktivität von Datenwissenschaftlern kann auch gesteigert werden, indem die Verarbeitungspipelines multifunktionaler Machine-Learning-Projekte intelligent erweitert werden. Beispiele für solche Komponenten umfassen das Einbinden und Laden von Bibliotheken und Optimierern. Andere Instanzen dieser Komponenten umfassen die vielfältige Reihe von Datenladern , Featureizern und Speicherzuordnern.

Es geht auch um das Entwerfen, klare Definieren und Einrichten von Fehlergrenzen, um die Wirksamkeit der Machine-Learning-Projekte zu überprüfen. Mit Hilfe dieses Aufwands kann die tatsächliche Leistung an vordefinierten Benchmarks gemessen werden. Darüber hinaus kann es bei der Feinabstimmung des Modells hilfreich sein, wenn die tatsächliche Leistung des Modells erheblich von den erwarteten Ergebnissen abweicht.

Dies ist ein Beispiel für die Bemühungen, die weltweit in verschiedenen Organisationen unternommen werden, um die Produktivität von Data Scientists zu katapultieren. Mit diesen Bemühungen erfüllen sie ihre Aufgaben in äußerst komplexen Umgebungen, die mehrere Mitarbeiter, Prozesse, Protokolle und Erwartungen berühren.

Wie Sie den Wert von Data Scientists steigern können

James hebt dann hervor, wie Datenwissenschaftler sich in ihrer Arbeit auszeichnen und bemerkenswert gut in der Nische der Datenanalyse und -visualisierung abschneiden können. Es gibt zwei Aspekte – zum einen die Technologie selbst (in Form von Lösungen wie Hadoop, R, Python und Spark) und zum anderen das Expertenteam, das Berührungspunkte für Datenwissenschaftler (Datenanwendungsentwickler, Modellierer, Dateningenieure, Senior) bildet Management und ETL-Experten). Beide sollten zusammenarbeiten, um eine Umgebung bereitzustellen, die eine höhere Produktivität für die Datenwissenschaftler fördert. James hat einige Möglichkeiten aufgelistet, dies zu erreichen.

  1. Einfaches Arbeiten mit mehreren Datensätzen – Nehmen wir den Fall eines medizinischen Zentrums. Es kann Millionen von Datensätzen für Tausende von Patienten verwalten und speichern. Dies können sowohl strukturierte als auch unstrukturierte Daten (Pathologiebilder, Arztnotizen etc.) sein. Eine typische Big-Data-Implementierung wäre die Erstellung eines Hadoop-Datensees und die Nutzung der Daten für die weitere Verwendung. Ein weiteres Beispiel können Social-Media-Beiträge und -Kommentare sein, die aufgenommen und in Datenclustern gespeichert werden. Ein Datenwissenschaftler muss in der Lage sein, Daten aus solch unterschiedlichen Datensätzen einfach zu erfassen. Einige der Beispiele sind – Data Lakes, Datencluster, Cloud-Dienste.
  2. Hervorragende Arbeitsverantwortung – Datenanalyse, prädiktive Modellierung, maschinelles Lernen, Data Mining und Visualisierung. Dies sind nur einige der vielen Funktionen, an denen ein Data Scientist beteiligt ist. Natürlich müsste er / sie eine Vielzahl von Aktivitäten ausführen, um die Arbeit auszuführen. Dies kann eines oder mehrere der folgenden umfassen: Datenermittlung, Aggregation ähnlicher Daten, Gewichtung von Daten zur Übereinstimmung mit dem Universum, Erstellung und Kuratierung von Modellen für die Generierung tieferer Erkenntnisse und Formulierung, Prüfung und Validierung einer Hypothese. Ob es sich um einfache strukturierte Daten oder komplexere, mehrfach strukturierte Daten handelt, die Produktivitätsumgebung erfordert, dass der Datenwissenschaftler in verschiedenen Aufgabenbereichen hervorragende Leistungen erbringt.
  3. Praktische Erfahrung – Bieten Sie den Datenwissenschaftlern jeden Spielraum, um ihr Arbeitswissen über die Big-Data-Analyseanwendungen umzusetzen. Dazu können R, Python, Spark und Hadoop gehören.
  4. Erweitern Sie ihre Vielseitigkeit – Wie bereits erwähnt, müssen Datenwissenschaftler in ihren täglichen Rollen und Verantwortlichkeiten mit vielen Experten interagieren. Dazu gehören Datenanwendungsentwickler, Modellierer, Dateningenieure, Führungskräfte und ETL-Experten. Die Berührungspunkte müssen Wissen über Bibliotheken und Vorlagen austauschen, die das Arbeiten und das Verständnis von Themen wie maschinelles Lernen, statistische Erkundung, neuronale Netze, Data Warehousing, Datentransformation und Datenerfassung erleichtern können.
  5. Überwachung des Fortschritts – Ein Data Scientist misst der Entwicklung, Gestaltung und Umsetzung von Prozessen für den Umgang mit großen Datensätzen, die für Modellierung, statistische Forschung und Data Mining verwendet werden sollen, viel Gewicht bei. Er/Sie übernimmt auch viele Nebenfunktionen wie die Entwicklung von Business Cases, die Interaktion mit Drittanbietern, die Verwaltung des Lebenszyklus des gesamten Datenanalyseprojekts, um das Team bis zum Ende gut aufeinander abzustimmen, und die Interaktion mit Stakeholdern mit regelmäßigen Updates zum Fortschritt von dem Projekt. In einem günstigen Umfeld muss ein Data Scientist in der Lage sein, das korrekte Funktionieren der verschiedenen Komponenten zu verfolgen, durchzusetzen und zu verifizieren, die es ihm ermöglichen, die Arbeit richtig zu erledigen. Zu diesen Komponenten gehören Bibliotheken, Modellierung, technische Integrationen, Daten, Algorithmen und Metadaten.

Mit diesen hilfreichen Hinweisen zeigt James auf, wie der Wert von Data Scientists im Big-Data-Ökosystem gesteigert werden kann.

Planen Sie, Daten aus dem Internet zu erfassen? Wir sind hier um zu helfen. Teilen Sie uns Ihre Anforderungen mit.