Meraklılar için temel veri bilimi becerileri

Yayınlanan: 2018-06-26
İçindekiler gösterisi
Büyük Verinin Beş Vs'si
1. Veri Kampı
2. Kurs
3. Veri stoğu
4. Kaggle
5. Veri Sorgusu

Veriler kelimenin tam anlamıyla üstel bir hızla büyüyor, öyle ki petabaytlara ulaştı! Dünyadaki verilerin yüzde doksanının yalnızca son iki yılda yaratıldığına inanabiliyor musunuz? Bu ciltle, veri yönetimi zor bir mesele haline geldi. Temel veri bilimi becerilerinin ön sıralarda yer almasına şaşmamalı.

Büyük Verinin Beş Vs'si

Büyük veriler genellikle beş Vs kullanılarak tanımlanır. Yani - hacim, hız, çeşitlilik, doğruluk ve değer.

  • 1. Veri Hacmi, günümüzde kullanılan milyonlarca mobil cihazdan her saniye üretilen çok büyük miktarda veriyi ifade eder. Ürettiğimiz tüm bu e-postalar, twitter mesajları, fotoğraflar, video klipler, sensör verileri ve daha fazlası birçok şirket için en değerli verilerdir.
  • 2. Veri Hızı, yeni verinin oluşturulma hızı ve karlılığı artırmak için bir yerden başka bir yere kaydırılabilme hızı anlamına gelir.
  • 3. Veri Çeşitliliği, hepimizin ilişki kurabileceği şeydir. Veriler, çoğu kuruluş için geçmişte veritabanları ve excel sayfaları anlamına geliyordu. Ancak, bugün veriler çok daha fazlasını ifade ediyor. Dünyadaki verilerin yüzde sekseni yapılandırılmamış, yaptığınız fotoğrafları, videoları ve twitter güncellemelerini düşünün.
  • 4. Veri Doğruluğu, verilerin güvenilirlik seviyesini ifade eder. Verilerin muazzam boyutlara ulaşmasıyla, verileri mümkün olduğunca temiz tutmaya çalışmamız önemlidir, çünkü kirli veriler size başka hiçbir şey gibi acı veremeyecek bir virüstür.
  • 5. Veri Değeri, verilerinizin gerçek değeridir. Çok fazla veri toplar ve üzerinde çalışmaya karar verirsiniz. Her şey yolunda ve iyi. Ancak veriler şirketinize ne gibi bir değer katıyor? Önemli olan veriye yatırım yapmanın size ne faydası var?

Bu nedenle, büyük veri ve veri biliminin vızıltısına kapıldıysanız, aşağıda listelenen beş kaynağa bakmanızı öneririm.

1. Veri Kampı

Datacamp, Python ve R'de çok az deneyimi olan veya hiç deneyimi olmayan kişiler için en iyisidir. En temel bilgilerle başlar ve adım adım bir yaklaşıma sahiptir, burada size problemler ardı ardına verilir. Yeni başlayanlar için bir nimettir ve bütçe aralığında fiyatlandırılır.

Bir yıllığına abone olmak ve premium proje ve özelliklere erişmek istiyorsanız, Datacamp'ın sunduğu ağır indirimlere dikkat edin. Her biri 20-30 kurstan oluşan, ustalaşabileceğiniz birkaç parçaya sahiptir. Popüler parçalar şunları içerir:

  • a. Python ile Veri Bilimcisi
  • b. R ile Nicel Analiz
  • c. Python ile Veri Manipülasyonu
  • d. R ile Verileri İçe Aktarma ve Temizleme
  • e. R ile Veri Görselleştirme

Daha az zamanınız varsa, aşağıdakiler gibi daha küçük kurslar da yapabilirsiniz:

  • a. Veri Bilimi için Python'a Giriş
  • b. R'ye Giriş
  • c. PostgreSQL'de Verileri Birleştirme
  • d. Orta R

2. Kurs

Coursera, veri biliminden askeri tarihe kadar her şeyi öğrenmek için en iyi platformlardan biri ve ben bunu ilk elden deneyimledim. Kursları denetlemeyi ve kurs materyallerine ücretsiz olarak erişmeyi seçebilirsiniz. Coursera'daki en iyi Veri Bilimi kurslarından bazıları şunlardır:

a. Veri Analizi ve Sunum Becerileri: PwC Yaklaşımı– Bu Uzmanlık, veri analizi konusunda uygulamalı bir deneyim ve iş zekasını gerçek dünyadaki sonuçlara dönüştürme konusunda bilgi birikimi edinmenize yardımcı olacaktır. Verileri daha iyi anlamanızı, filtrelemenizi ve uygulamanızı sağlayacak ve bu da sorunları daha hızlı çözmenize yardımcı olacaktır. Microsoft Excel, PowerPoint ve diğer yaygın veri analizi ve iletişim araçları konusunda ustalaşacaksınız. En önemlisi, verileri okumayı ve sunmayı öğreneceksiniz.

b. Büyük Veri, UCSD– Büyük verileri ve bunun işinizi nasıl etkileyeceğini anlamanız gerekiyorsa, bu uzmanlık tam size göre. MapReduce, Spark, Pig ve Hive ile Hadoop gibi büyük veri bilimcileri ve mühendisleri tarafından kullanılan araçlar ve sistemlerle uygulamalı deneyim elde edebileceksiniz. Problemleri modellemek için tahmine dayalı modelleme yapmayı ve grafik analitiğinden yararlanmayı öğreneceksiniz. Sonuna kadar uğraşırsanız, veri yazılımı şirketi Splunk ile ortaklaşa geliştirilen ve öğrendiğiniz temel kavramları uygulamanıza izin verilen bir Capstone Projesini tamamlayabileceksiniz.

c. Johns Hopkins Üniversitesi'nden Veri Bilimi Uzmanlığı– Bu Uzmanlık, doğru soru dizisini sormaktan çıkarımlar yapmaya ve sonuçları basit ve güçlü bir biçimde yayınlamaya kadar tüm veri yolu boyunca ihtiyaç duyacağınız kavramları ve araçları kapsar. .

d. Veri bilimi için SQL, UC Davis- Bu kurs, veri bilimi dünyasının veritabanı gereksinimlerine geçiş yapmanıza yardımcı olacak verilerle çalışmanın yanı sıra SQL'in temelleri hakkında bir ön bilgi vermek için tasarlanmıştır. Kurs çok temel bilgilerle başlar ve sıfır SQL bilgisi olduğunu varsayar. Karmaşıklık istikrarlı bir şekilde artar ve kademeli olarak tablolardan veri seçmenize yardımcı olmak için hem basit hem de karmaşık sorgular yazmanızı sağlar.

3. Veri stoğu

Dünya genelinde farklı sektörlerden kapsamlı, temiz ve kullanıma hazır web veri kümelerine ihtiyacınız olması durumunda Datastock'a göz atın. Çözüm, analiz yapmak ve içgörü kazanmak ve veri bilimi becerileri kazanmak için kullanıma hazır veri kümeleri arayanlar için idealdir.

Harika olan şey, satın almadan önce ücretsiz bir örnek veri seti elde etmenizdir. Veri kalitesini kendiniz test edip karar verebilirsiniz.

4. Kaggle

Kaggle, veri bilimi projelerinin yürütüldüğü yerdir ve tomurcuklanan veri bilimcileri arasında en popüler web sitelerinden biridir. Gibi çeşitli seçenekler sunar:

  • a. Kendi yeni projenize başlamak
  • b. Başkaları tarafından oluşturulan projeleri keşfetmek
  • c. Sponsor oldukları yarışmalardan birine katılmak

5. Veri Sorgusu

Uygulamalı yöntemleri size bir veri bilimcisi, veri analisti veya veri mühendisi olmak için ihtiyacınız olan tüm becerileri öğretir. Çeşitli şekillerde öğrenebilirsiniz:

  • a. Kod yazma
  • b. Verilerle çalışma
  • c. Bina projeleri