Büyük Veri Ekosisteminde Veri Bilimcilerinin Değerini Artırma
Yayınlanan: 2016-10-15Büyük Verinin neredeyse tüm sektör dikeyleri üzerindeki muazzam erişimi ve etkisi bilinmiyor. Büyük Veri ile görünüşte devasa ve karmaşık iletişim, yorumlar ve marka sözleri zinciri ayrıntılı bir düzeyde analiz edilir. Bu alıştırmanın amacı, şimdiye kadar bir şirketin karar vericilerinin görüşlerinden saklı kalmış olabilecek içgörüleri açığa çıkarmaktır. American Express örneğini ele alalım. Kart şirketi devi, agresif büyüme planlarını ileriye taşımak için takip eden göstergelerden daha fazlasını getirmek istedi. Bu, AmEx'in 115'e kadar değişkeni içeren karmaşık ancak güçlü bir tahmine dayalı modeller oluşturmaya yatırım yapmasına yol açtı . Egzersizin amacı? Büyük Veri yardımıyla müşteriler arasında marka sadakatini artırmanın ve müşteri kaybını azaltmanın yollarını aramak.

Bu tahmine dayalı analiz, Büyük Veriden (hem yapılandırılmış hem de yapılandırılmamış) bilgi veya içgörü çıkarmaya yardımcı olan Veri Bilimi biçimlerinden biridir. Veri biliminin diğer bazı uygulamaları arasında istatistiksel analiz, veri madenciliği , veri mühendisliği, olasılık modelleri, görselleştirmeler ve makine öğrenimi yer alır. Veri bilimi, veri analizi ve veri madenciliğini de içeren daha büyük rekabetçi zeka alanının bir parçasıdır.
Yeni nesil veri bilimcilerinin üretkenliğini artırmaya bir bakış
IBM'in Büyük Veri Evangelisti James Kobielus , yeni nesil veri bilimcilerinin üretkenliğinin artırılabileceği farklı yolları vurgulayan ilginç bir makale hazırlamıştı. Bu da küresel ekonominin, finansın ve toplumun kaderini etkileyebilir.
Veri bilimcilerin her zaman açık iş ortamına değer sağlamada oynadığı kritik rolü kabul etti. Değerleri, verileri analiz etmeye yardımcı olmak ve paydaşların karar verme süreçlerine yardımcı olmak için anlamlı içgörüler oluşturmak için farklı tekrarlanabilir çözüm entegrasyonunu kapsar.

Veri bilimcilerin üretkenliğini artırmak neden önemlidir?
Veri bilimcileri, tüm büyük veri ekosisteminde çok çeşitli roller ve sorumluluklar yerine getirir. Bunlar aşağıdaki gibi görevleri içerir -
Manuel
- İstatistiksel modellerin tasarlanması ve geliştirilmesi
- Bu modellerin performans analizi
- Modelleri gerçek dünya verileriyle doğrulama
- İçgörüleri veri dışı uzmanların (paydaşlar ve karar vericiler) anlayabileceği şekilde aktarmanın zor görevini yerine getirmek
otomatik
- Müşteri işi ve istihbarat toplama konusunda başlatma, beyin fırtınası ve araştırma
- Veri keşfi
- Veri profili oluşturma
- Verilerin örneklenmesi ve organizasyonu
Açıkça görüldüğü gibi, bu görevler tek bir bireyde bulunamayacak bir dizi insan sermayesi uzmanlığını gerektirir. Farklı nişlerde uzman kişilerden oluşan bir ekip oluşturulmalıdır. Daha da önemlisi, veri bilimcilerinden oluşan bir ekibe sahip olma iş hedefinin dostane ve herhangi bir politika olmadan karşılanacağı şekilde hizalanmaları gerekir. Ve bu, ekip içindeki her bir kişi tarafından takip edilmesi gereken sağlam bir dizi süreç ve protokole sahip olarak başarılabilir.
Ancak bu protokolleri kurmak ve uygulamak, veri bilimcilerinin üretkenliğinde mutlaka bir düşüş anlamına gelmez. James, karmaşık ekip ortamlarında veri bilimcilerinin optimum üretkenliğini sağlamak için farklı süreçlerin kurulduğu gerçek yaşam örneklerine bir göz atıyor. Bu bağlamda özellikle bahsettiği bir örnek, O'Reilly'den Ben Lorica'dır. Bu makale , veri bilimcilerine üretkenlik açısından aşağıdaki avantajları sunmayı amaçlamaktadır:
- Veri analizi ve görselleştirme alanının çeşitli ana ve alt adımlarının üstesinden gelmek için kullanıma sunulabilen kullanıma hazır API hükümleri. Makine öğrenimi işleminin uçtan uca sürecini kolaylaştırmak, projenin her bir dönüm noktasında yardımcı olabilir, zaman ve maliyetteki azalmayı katlanarak artırabilir. Ve bu azalma, yazılımı kuruluşunuzun mevcut sistemlerine dahil etmenin maliyetinden çok daha fazladır.
- Multimedya (ses, video, içerik) gibi veri türleri, medya akışında ve bilişsel hesaplamada çok önemli bir rol oynar. Otomatik makine öğrenimi ile bu tür verilerin özümsenmesi ve analizi kolaylıkla yapılabilmektedir. Ben, konuşma ve bilgisayarla görme için örnek ardışık düzenleri ve diğer veri türleri için veri yükleyicileri kullanmayı önerir.
- Uygulamalar, istatistiksel ve tahmine dayalı modellerin eğitimi, kullanımı ve mükemmelliğinin hızlı bir şekilde izlenmesine yardımcı olabilir. Bu tür ölçeklenebilir makine öğrenimi algoritmalarının örnekleri arasında Spark tabanlı çalışma zamanları bulunur .
- Veri bilimcilerin üretkenliği, çok işlevli makine öğrenimi projelerinin işleme boru hatlarını akıllıca genişleterek de geliştirilebilir. Bu tür bileşenlerin örnekleri arasında kitaplıkların ve optimize edicilerin dahil edilmesi ve yüklenmesi yer alır. Bu bileşenlerin diğer örnekleri, çeşitli veri yükleyiciler , özellik oluşturucular ve bellek ayırıcıları içerir.
Ayrıca, makine öğrenimi projelerinin etkinliğini kontrol etmeye yardımcı olmak için tasarlama, açıkça tanımlama ve hata sınırlarını ayarlama hakkında konuşuyor. Bu çabanın yardımıyla, gerçek performans önceden tanımlanmış kriterlere göre ölçülebilir. Ayrıca, modelin gerçek performansında beklenen sonuçlardan önemli bir sapma varsa, modelde ince ayar yapılmasına yardımcı olabilir.

Bu, dünya çapında farklı kuruluşlarda veri bilimcilerinin üretkenliğini artırmak için yürütülen çabalara bir örnektir. Bu çabalarla, çok sayıda personele, sürece, protokole ve beklentiye dokunan son derece karmaşık ortamlarda rollerini yerine getirirler.
Veri bilimciler tarafından sağlanan değere nasıl daha fazlası eklenir?
James daha sonra veri bilimcilerinin işlerinde nasıl mükemmelleşebileceklerini ve veri analitiği ve görselleştirme alanında oldukça başarılı olabileceklerini vurgulayarak devam ediyor. İki yönü vardır – biri teknolojinin kendisidir (Hadoop, R, Python ve Spark gibi çözümler şeklinde) ve diğeri ise veri bilimcileri (veri uygulama geliştiricileri, modelleyiciler, veri mühendisleri, üst düzey yöneticiler) için temas noktaları oluşturan uzmanlar ekibidir. yönetimi ve ETL uzmanları). Her ikisi de veri bilimcileri için daha yüksek üretkenliği teşvik eden bir ortam sağlamak için birlikte çalışmalıdır. James bunu başarmanın birkaç yolunu listeledi.
- Birden fazla veri seti ile çalışma kolaylığı – Bir tıp merkezi örneğini ele alalım. Binlerce hasta için milyonlarca kaydı tutabilir ve saklayabilir. Bunlar, yapılandırılmış ve yapılandırılmamış verileri (patoloji görüntüleri, doktor notları vb.) içerebilir. Tipik bir büyük veri uygulaması, bir Hadoop veri gölü oluşturmak ve verileri daha sonraki kullanımlar için kullanmak olacaktır. Başka bir örnek, veri kümelerinde alınan ve saklanan sosyal medya gönderileri ve yorumları olabilir. Bir veri bilimcisi, bu kadar çeşitli veri kümelerinden kolayca veri elde edebilmelidir. Örneklerden bazıları şunlardır: veri gölleri, veri kümeleri, bulut hizmetleri.
- İş sorumluluklarında Excel - Veri analitiği, tahmine dayalı modelleme, makine öğrenimi, veri madenciliği ve görselleştirme. Bunlar, bir veri bilimcisinin dahil olduğu birçok işlevden sadece birkaçıdır. Oldukça doğal olarak, işi gerçekleştirmek için çok sayıda faaliyet yapması gerekir. Bu, bir veya daha fazla veri keşfini, benzer verilerin birleştirilmesini, verilerin evrenle eşleşmesi için ağırlıklandırılmasını, daha derin içgörü üretimi için modeller hazırlamayı ve düzenlemeyi ve bir hipotezi formüle etmeyi, test etmeyi ve doğrulamayı içerebilir. Basit yapılandırılmış veriler veya daha karmaşık, çok yapılandırılmış veriler olsun, üretkenlik ortamı, farklı iş sorumluluklarını aşmak için veri bilimcisine ihtiyaç duyar.
- Uygulamalı deneyim - Veri bilimcilerine, büyük veri analitiği uygulamalarına ilişkin çalışma bilgilerini uygulamak için her türlü kapsamı sağlayın. Bunlar R, Python, Spark ve Hadoop'u içerebilir.
- Çok yönlülüklerini artırın – Daha önce de belirtildiği gibi, veri bilimcilerin günlük rolleri ve sorumluluklarında birçok uzmanla etkileşime girmesi gerekir. Bunlara veri uygulama geliştiricileri, modelleyiciler, veri mühendisleri, üst yönetim ve ETL uzmanları dahildir. Temas noktalarının, makine öğrenimi, istatistiksel keşif, sinir ağları, veri ambarı, veri dönüştürme ve veri toplama gibi konuların çalışmasını ve anlaşılmasını kolaylaştırmaya yardımcı olabilecek kitaplıklar ve şablonlar hakkındaki bilgileri paylaşması gerekir.
- İlerlemeyi izleme – Bir veri bilimcisi, modelleme, istatistiksel araştırma ve veri madenciliği için kullanılacak büyük ölçekli veri kümelerini işleme süreçleri tasarlama, tasarlama ve eyleme geçirme konusunda çok fazla ağırlık sağlar. Ayrıca, iş vakası geliştirme, üçüncü taraf satıcılarla etkileşim, tüm veri analizi projesinin yaşam döngüsünü yönetme, ekibin en sonuna kadar uyumlu olmasını sağlama ve ilerleme hakkında düzenli güncellemeler ile paydaşlarla etkileşim kurma gibi birçok yardımcı işlevi yerine getirir. projenin. Elverişli bir ortamda, bir veri bilimcisi, işi doğru yapmasına izin veren çeşitli bileşenlerin doğru işleyişini izleyebilmeli, uygulayabilmeli ve doğrulayabilmelidir. Bu bileşenler kitaplıkları, modellemeyi, teknik entegrasyonları, verileri, algoritmaları ve meta verileri içerir.
James, bu yararlı işaretlerle, Büyük Veri ekosistemindeki Veri Bilimcilerinin değerini artırmanın mümkün kılınabileceği yolları ortaya koyuyor.
Web'den veri almayı mı planlıyorsunuz? Yardım etmek için buradayız. Gereksinimleriniz hakkında bize bilgi verin.
