Niezbędne umiejętności z zakresu analityki danych dla entuzjastów

Opublikowany: 2018-06-26
Spis treści pokaż
Pięć kontra Big Data
1. Datacamp
2. Coursera
3. Zasoby danych
4. Kaggle
5. Zadanie danych

Dane dosłownie rosną w tempie wykładniczym, tak że osiągnęły petabajty! Czy możesz uwierzyć, że dziewięćdziesiąt procent danych na świecie powstało tylko w ciągu ostatnich dwóch lat. Przy tej objętości zarządzanie danymi było trudną sprawą. Nic dziwnego, że na pierwszym miejscu znalazły się podstawowe umiejętności w zakresie analizy danych.

Pięć kontra Big Data

Big data jest często opisywana za pomocą pięciu Vs. Mianowicie — objętość, prędkość, różnorodność, prawdziwość i wartość.

  • 1. Objętość danych odnosi się do ogromnych ilości danych generowanych co sekundę ze wszystkich milionów używanych obecnie urządzeń mobilnych. Wszystkie te e-maile, wiadomości na Twitterze, zdjęcia, klipy wideo, dane z czujników i inne, które produkujemy, to dane, które są najcenniejsze dla wielu firm.
  • 2. Szybkość danych odnosi się do szybkości, z jaką generowane są nowe dane oraz szybkości, z jaką można je przenosić z miejsca na miejsce w celu zwiększenia rentowności.
  • 3. Różnorodność danych jest tym, do czego wszyscy możemy się odnieść. W przeszłości dane dla większości organizacji oznaczały bazy danych i arkusze Excela. Jednak dzisiejsze dane znaczą dużo więcej. Osiemdziesiąt procent danych na świecie jest nieustrukturyzowanych, pomyśl o zdjęciach, filmach i aktualizacjach na Twitterze, które wprowadzasz.
  • 4. Wiarygodność danych odnosi się do poziomu wiarygodności danych. Ponieważ dane rosną do ogromnych rozmiarów, ważne jest, abyśmy starali się zachować jak największą czystość danych, ponieważ brudne dane to wirus, który może zadać Ci ból jak żaden inny.
  • 5. Wartość danych to prawdziwa wartość Twoich danych. Zbierasz dużo danych i decydujesz się nad nimi pracować. Wszystko dobrze i dobrze. Ale jaką wartość wnoszą dane do Twojej firmy? Jakie korzyści czerpiesz z inwestowania w dane, co jest ważne?

Jeśli więc zafascynuje Cię szum big data i data science, sugeruję przyjrzenie się pięciu zasobom wymienionym poniżej.

1. Datacamp

Datacamp jest najlepszy dla osób z niewielkim lub zerowym doświadczeniem w Pythonie i R. Zaczyna się od podstaw i ma podejście stopniowe, w którym otrzymujesz jeden problem po drugim. Jest to dar niebios dla początkujących i wyceniony w przedziale budżetowym.

Zwróć uwagę na duże zniżki, które oferuje Datacamp, jeśli chcesz subskrybować na rok i uzyskać dostęp do projektu i funkcji premium. Ma kilka ścieżek, które możesz opanować, z których każdy składa się z około 20-30 kursów. Popularne utwory to:

  • a. Data Scientist z Pythonem
  • b. Analiza ilościowa z R
  • c. Manipulacja danymi w Pythonie
  • d. Importowanie i czyszczenie danych za pomocą R
  • mi. Wizualizacja danych z R

Jeśli masz mniej czasu, możesz również zrobić mniejsze kursy, takie jak:

  • a. Wprowadzenie do Pythona do nauki o danych
  • b. Wprowadzenie do R
  • c. Łączenie danych w PostgreSQL
  • d. Pośredni R

2. Coursera

Coursera to jedna z najlepszych platform do nauki wszystkiego, od nauki o danych po historię wojskową i doświadczyłem tego z pierwszej ręki. Możesz zdecydować się na audyt kursów i uzyskać dostęp do materiałów szkoleniowych za darmo. Niektóre z najlepszych kursów Data Science na Coursera to:

a. Umiejętności analizy danych i prezentacji: podejście PwC — ta specjalizacja pomoże Ci zdobyć praktyczne doświadczenie w zakresie analizy danych oraz wiedzę na temat przekształcania inteligencji biznesowej w rzeczywiste wyniki. Zapewni to lepsze zrozumienie, filtrowanie i zastosowanie danych, co z kolei pomoże Ci szybciej rozwiązywać problemy. Poznasz Microsoft Excel, PowerPoint i inne popularne narzędzia do analizy danych i komunikacji. Co najważniejsze, nauczysz się czytać dane i je prezentować.

b. Big Data, UCSD – Jeśli chcesz zrozumieć duże zbiory danych i ich wpływ na Twój biznes, ta specjalizacja jest dla Ciebie. Będziesz mógł zdobyć praktyczne doświadczenie z narzędziami i systemami używanymi przez naukowców i inżynierów zajmujących się Big Data, takich jak Hadoop z MapReduce, Spark, Pig i Hive. Nauczysz się wykonywać modelowanie predykcyjne i wykorzystywać analizy wykresów do modelowania problemów. Jeśli trudzisz się do samego końca, będziesz mógł ukończyć projekt Capstone, opracowany we współpracy z firmą Splunk zajmującą się oprogramowaniem do obsługi danych, w którym będziesz mógł zastosować podstawowe pojęcia, których się nauczyłeś.

c. Data Science Specializatin by Johns Hopkins University – ta specjalizacja obejmuje koncepcje i narzędzia, których będziesz potrzebować w całej ścieżce danych, od zadawania odpowiedniego zestawu pytań po wyciąganie wniosków, a także publikowanie wyników w prostym, a jednocześnie potężnym formacie .

d. SQL dla nauki o danych, UC Davis - Ten kurs ma na celu zapoznanie Cię z podstawami SQL wraz z pracą z danymi, które pomogą Ci migrować do potrzeb bazy danych w świecie nauki o danych. Kurs rozpoczyna się od podstaw i zakłada zerową znajomość SQL. Złożoność stale rośnie i stopniowo wymaga pisania zarówno prostych, jak i złożonych zapytań, które pomogą Ci wybrać dane z tabel.

3. Zasoby danych

Sprawdź Datastock, jeśli potrzebujesz kompleksowych, czystych i gotowych do użycia internetowych zbiorów danych z różnych branż na całym świecie. Rozwiązanie jest idealne dla tych, którzy szukają gotowych do użycia zestawów danych do przeprowadzania analiz i uzyskiwania wglądu oraz nabywania umiejętności z zakresu analizy danych.

Wspaniałe jest to, że przed dokonaniem zakupu otrzymasz bezpłatny przykładowy zestaw danych. Możesz sam przetestować jakość danych, a następnie zdecydować.

4. Kaggle

Kaggle to miejsce do prowadzenia projektów data science i jedna z najpopularniejszych stron internetowych wśród początkujących naukowców zajmujących się danymi. Daje różne opcje, takie jak:

  • a. Rozpoczęcie własnego nowego projektu
  • b. Odkrywanie projektów stworzonych przez innych
  • c. Dołączanie do jednego z ich sponsorowanych konkursów

5. Zadanie danych

Ich praktyczna metoda uczy wszystkich umiejętności potrzebnych do zostania naukowcem danych, analitykiem danych lub inżynierem danych. Możesz uczyć się na różne sposoby:

  • a. Pisanie kodu
  • b. Praca z danymi
  • c. Projekty budowlane