Grundlegende Data-Science-Fähigkeiten für Enthusiasten

Veröffentlicht: 2018-06-26
Inhaltsverzeichnis anzeigen
Die fünf Vs von Big Data
1. Datenlager
2. Coursera
3. Datenbestand
4. Kaggle
5. Datenabfrage

Daten wachsen buchstäblich mit einer exponentiellen Rate, so dass sie Petabytes erreicht haben! Können Sie glauben, dass neunzig Prozent der weltweiten Daten allein in den letzten zwei Jahren erstellt wurden? Bei diesem Volumen war die Datenverwaltung eine knifflige Angelegenheit. Kein Wunder, dass grundlegende Data-Science-Fähigkeiten in den Vordergrund gerückt sind.

Die fünf Vs von Big Data

Big Data wird oft mit fünf Vs beschrieben. Nämlich – Volumen, Geschwindigkeit, Vielfalt, Wahrhaftigkeit und Wert.

  • 1. Datenvolumen bezieht sich auf die enormen Datenmengen, die jede Sekunde von all den Millionen mobiler Geräte generiert werden, die heutzutage verwendet werden. All diese E-Mails, Twitter-Nachrichten, Fotos, Videoclips, Sensordaten und mehr, die wir produzieren, sind Daten, die für viele Unternehmen am wertvollsten sind.
  • 2. Datengeschwindigkeit bezieht sich auf die Geschwindigkeit, mit der neue Daten generiert werden, und die Geschwindigkeit, mit der sie von einem Ort zum anderen verschoben werden können, um die Rentabilität zu steigern.
  • 3. Datenvielfalt ist das, worauf wir uns alle beziehen können. Daten bedeuteten in der Vergangenheit für die meisten Organisationen Datenbanken und Excel-Tabellen. Heutzutage bedeuten Daten jedoch viel mehr. Achtzig Prozent der Daten weltweit sind unstrukturiert, denken Sie an die Fotos, Videos und Twitter-Updates, die Sie erstellen.
  • 4. Datenwahrheit bezieht sich auf den Grad der Vertrauenswürdigkeit der Daten. Da die Daten zu großmütigen Größen anwachsen, ist es wichtig, dass wir versuchen, die Daten so sauber wie möglich zu halten, da schmutzige Daten ein Virus sind, der Ihnen wie kein anderer Schmerzen zufügen kann.
  • 5. Datenwert ist der wahre Wert Ihrer Daten. Sie sammeln viele Daten und beschließen, daran zu arbeiten. Alles schön und gut. Doch welchen Mehrwert bringen die Daten Ihrem Unternehmen? Welchen Nutzen ziehen Sie aus der Investition in Daten, was ist wichtig?

Falls Sie also von Big Data und Data Science gefesselt sind, schlage ich vor, dass Sie sich die fünf unten aufgeführten Ressourcen ansehen.

1. Datenlager

Datacamp eignet sich am besten für Leute mit wenig bis gar keiner Erfahrung in Python und R. Es beginnt mit den Grundlagen und hat einen schrittweisen Ansatz, bei dem Sie ein Problem nach dem anderen erhalten. Es ist ein Glücksfall für Anfänger und preislich im Budgetbereich.

Achten Sie auf die hohen Rabatte, die Datacamp bietet, falls Sie ein Jahr lang abonnieren und auf das Premium-Projekt und die Funktionen zugreifen möchten. Es hat mehrere Tracks, die Sie meistern können, die jeweils aus etwa 20-30 Kursen bestehen. Beliebte Titel sind:

  • a. Data Scientist mit Python
  • b. Quantitative Analyse mit R
  • c. Datenmanipulation mit Python
  • d. Importieren und Bereinigen von Daten mit R
  • e. Datenvisualisierung mit R

Wenn du weniger Zeit hast, kannst du auch kleinere Kurse machen wie:

  • a. Einführung in Python für Data Science
  • b. Einführung in R
  • c. Zusammenführen von Daten in PostgreSQL
  • d. Zwischen R

2. Coursera

Coursera ist eine der besten Plattformen, um alles von Datenwissenschaft bis Militärgeschichte zu lernen, und ich habe es aus erster Hand erlebt. Sie können sich dafür entscheiden, die Kurse anzuhören und erhalten kostenlosen Zugang zu den Kursmaterialien. Einige der besten Data Science-Kurse auf Coursera sind:

a. Datenanalyse- und Präsentationsfähigkeiten: der PwC-Ansatz – Diese Spezialisierung hilft Ihnen dabei, praktische Erfahrungen mit der Datenanalyse zu sammeln und das Know-how zur Umwandlung von Business Intelligence in reale Ergebnisse zu erwerben. Es wird Ihnen ein besseres Verständnis, Filtern und Anwenden von Daten ermöglichen, was Ihnen wiederum dabei helfen wird, Probleme schneller zu lösen. Sie werden mit Microsoft Excel, PowerPoint und anderen gängigen Datenanalyse- und Kommunikationstools vertraut gemacht. Am wichtigsten ist, dass Sie lernen, Daten zu lesen und zu präsentieren.

b. Big Data, UCSD– Falls Sie Big Data und seine Auswirkungen auf Ihr Unternehmen verstehen müssen, ist diese Spezialisierung genau das Richtige für Sie. Sie können praktische Erfahrungen mit den Tools und Systemen sammeln, die von Big-Data-Wissenschaftlern und -Ingenieuren wie Hadoop mit MapReduce, Spark, Pig und Hive verwendet werden. Sie lernen, prädiktive Modellierung durchzuführen und Graphanalysen zu nutzen, um Probleme zu modellieren. Falls Sie sich bis zum Ende abmühen, können Sie ein Capstone-Projekt abschließen, das in Zusammenarbeit mit dem Datensoftwareunternehmen Splunk entwickelt wurde und in dem Sie die erlernten Grundkonzepte anwenden dürfen.

c. Data Science Specializatin der Johns Hopkins University – Diese Spezialisierung deckt die Konzepte und Tools ab, die Sie während des gesamten Datenpfads benötigen, angefangen beim Stellen der richtigen Fragen bis hin zum Ziehen von Schlussfolgerungen sowie zum Veröffentlichen von Ergebnissen in einem einfachen und dennoch leistungsstarken Format .

d. SQL for Data Science, UC Davis – Dieser Kurs soll Ihnen eine Einführung in die Grundlagen von SQL sowie die Arbeit mit Daten vermitteln, die Ihnen bei der Migration zu den Datenbankanforderungen der Welt der Data Science helfen. Der Kurs beginnt mit den Grundlagen und setzt keinerlei SQL-Kenntnisse voraus. Die Komplexität wächst stetig und nach und nach müssen Sie sowohl einfache als auch komplexe Abfragen schreiben, um Ihnen bei der Auswahl von Daten aus Tabellen zu helfen.

3. Datenbestand

Schauen Sie sich Datastock an, falls Sie umfassende, saubere und gebrauchsfertige Webdatensätze aus verschiedenen Branchen auf der ganzen Welt benötigen. Die Lösung ist ideal für diejenigen, die nach gebrauchsfertigen Datensätzen suchen, um Analysen durchzuführen, Erkenntnisse zu gewinnen und datenwissenschaftliche Fähigkeiten zu erwerben.

Das Tolle ist, dass Sie vor dem Kauf einen kostenlosen Beispieldatensatz erhalten. Sie können die Datenqualität selbst testen und dann entscheiden.

4. Kaggle

Kaggle ist der Ort für Data-Science-Projekte und eine der beliebtesten Websites unter angehenden Data Scientists. Es bietet verschiedene Optionen wie:

  • a. Starten Sie Ihr eigenes neues Projekt
  • b. Erkunden von Projekten, die von anderen erstellt wurden
  • c. Nehmen Sie an einem ihrer gesponserten Wettbewerbe teil

5. Datenabfrage

Ihre praktische Methode vermittelt Ihnen alle Fähigkeiten, die Sie benötigen, um Data Scientist, Data Analyst oder Data Engineer zu werden. Sie können auf verschiedene Arten lernen:

  • a. Code schreiben
  • b. Arbeiten mit Daten
  • c. Bauvorhaben