Meningkatkan Nilai Ilmuwan Data dalam Ekosistem Big Data

Diterbitkan: 2016-10-15
Daftar Isi menunjukkan
manual
Otomatis
Bagaimana menambahkan lebih banyak nilai yang diberikan oleh ilmuwan data

Jangkauan besar dan pengaruh Big Data di hampir semua vertikal industri tidak diketahui. Dengan Big Data, rantai komunikasi, komentar, dan penyebutan merek yang tampaknya masif dan kompleks dianalisis pada tingkat yang terperinci. Tujuan dari latihan ini adalah untuk membuka wawasan yang mungkin sampai sekarang tetap tersembunyi dari pandangan para pembuat keputusan perusahaan. Ambil kasus American Express. Raksasa perusahaan kartu itu ingin membawa lebih dari sekadar indikator tambahan untuk membawa rencana pertumbuhan agresifnya ke depan. Hal ini mendorong AmEx untuk berinvestasi dalam membangun model prediktif yang kompleks namun kuat yang mencakup sebanyak 115 variabel . Tujuan dari latihan? Untuk melihat cara meningkatkan loyalitas merek di antara pelanggan dan menurunkan churn pelanggan dengan bantuan Big Data.

ilmu data

Analisis prediktif ini merupakan salah satu bentuk dari Data Science – bidang yang membantu mengekstrak pengetahuan atau wawasan dari Big Data (baik terstruktur maupun tidak terstruktur). Beberapa implementasi lain dari ilmu data termasuk analisis statistik, penambangan data, rekayasa data, model probabilitas, visualisasi, dan pembelajaran mesin. Ilmu data adalah bagian dari domain intelijen kompetitif yang lebih besar, yang juga mencakup analisis data dan penambangan data.

Pandangan tentang mendorong produktivitas ilmuwan data generasi berikutnya

Penginjil Data Besar IBM, James Kobielus telah menghasilkan artikel menarik yang menyoroti berbagai cara di mana produktivitas ilmuwan data generasi berikutnya dapat ditingkatkan. Hal ini, pada gilirannya, dapat berdampak pada nasib ekonomi, keuangan, dan masyarakat global.

Dia telah mengakui peran penting misi yang dimainkan oleh para ilmuwan data dalam memberikan nilai bagi lingkungan bisnis yang selalu aktif. Nilai mereka mencakup integrasi solusi berulang yang berbeda untuk membantu menganalisis data dan menghasilkan wawasan yang berarti untuk membantu pemangku kepentingan dengan proses pengambilan keputusan mereka.

Data besar

Mengapa meningkatkan produktivitas para ilmuwan data itu penting

Ilmuwan data melakukan sejumlah peran dan tanggung jawab yang bervariasi dalam seluruh ekosistem data besar. Ini termasuk tugas-tugas seperti -

  1. manual

  • Merancang dan mengembangkan model statistik
  • Menganalisis kinerja model ini
  • Memverifikasi model dengan data dunia nyata
  • Melaksanakan tugas sulit untuk menyampaikan wawasan dengan cara yang dapat dipahami oleh para ahli non-data (pemangku kepentingan dan pengambil keputusan)
  1. Otomatis

  • Inisiasi, brainstorming, dan penelitian tentang bisnis klien dan pengumpulan intelijen
  • Penemuan data
  • Pemrofilan data
  • Pengambilan sampel dan organisasi data

Sebagaimana terbukti, tugas-tugas ini membutuhkan seperangkat keahlian sumber daya manusia yang tidak dapat ditemukan dalam satu individu. Sebuah tim yang terdiri dari orang-orang yang ahli di bidang yang berbeda harus dibangun. Lebih penting lagi, mereka harus diselaraskan sedemikian rupa sehingga tujuan bisnis memiliki tim ilmuwan data terpenuhi secara damai dan tanpa politik apa pun. Dan ini dapat dicapai dengan memiliki serangkaian proses dan protokol yang kuat yang perlu diikuti oleh setiap orang di dalam tim.

Namun menyiapkan dan menegakkan protokol ini tidak selalu berarti penurunan produktivitas ilmuwan data. James melihat contoh kehidupan nyata di mana berbagai proses telah disiapkan untuk memastikan produktivitas optimal para ilmuwan data dalam lingkungan tim yang kompleks. Salah satu contoh yang secara khusus dia sebutkan dalam konteks ini adalah Ben Lorica dari O'Reilly. Artikel ini berusaha menawarkan keuntungan produktivitas di bawah ini kepada para ilmuwan data:

  • Ketentuan API off-the-shelf yang dapat disediakan untuk menangani berbagai langkah utama dan sub-langkah dari analisis data dan domain visualisasi. Menyederhanakan proses ujung ke ujung dari pemrosesan pembelajaran mesin dapat membantu pada setiap pencapaian proyek dapat secara eksponensial meningkatkan pengurangan waktu dan biaya. Dan pengurangan ini jauh lebih besar daripada biaya yang diperlukan untuk memasukkan perangkat lunak ke dalam sistem organisasi Anda yang sudah ada.
  • Tipe data seperti multimedia (audio, video, konten) memainkan peran penting dalam media streaming dan komputasi kognitif. Dengan pembelajaran mesin otomatis, penyerapan dan analisis jenis data ini dapat dilakukan dengan mudah. Ben menyarankan untuk menggunakan saluran sampel untuk pidato dan visi komputer serta pemuat data untuk jenis data lainnya.
  • Aplikasi dapat membantu dalam pelacakan cepat pelatihan, penggunaan, dan kesempurnaan model statistik dan prediktif. Contoh algoritme pembelajaran mesin yang dapat diskalakan tersebut mencakup runtime berbasis Spark .
  • Produktivitas ilmuwan data juga dapat ditingkatkan dengan memperluas jalur pemrosesan proyek pembelajaran mesin multifungsi secara cerdas. Contoh komponen tersebut termasuk menggabungkan dan memuat perpustakaan dan pengoptimal. Contoh lain dari komponen ini mencakup beragam rangkaian pemuat data , fitur, dan pengalokasi memori.

Ini juga berbicara tentang merancang, mendefinisikan dengan jelas, dan menyiapkan batas kesalahan untuk membantu memeriksa keefektifan proyek pembelajaran mesin. Dengan bantuan upaya ini, kinerja aktual dapat diukur terhadap tolok ukur yang telah ditentukan sebelumnya. Selain itu, dapat membantu dalam menyempurnakan model jika ada penyimpangan yang signifikan dari kinerja aktual model dari hasil yang diharapkan.

Ini adalah salah satu contoh upaya yang dilakukan di seluruh dunia di berbagai organisasi untuk melontarkan produktivitas ilmuwan data. Dengan upaya ini mereka melakukan peran mereka dalam lingkungan yang sangat kompleks yang menyentuh banyak personel, proses, protokol, dan harapan.

Bagaimana menambahkan lebih banyak nilai yang diberikan oleh ilmuwan data

James kemudian melanjutkan dengan menyoroti cara-cara di mana para ilmuwan data dapat menggalang keunggulan dalam pekerjaan mereka dan melakukannya dengan sangat baik dengan analisis data dan ceruk visualisasi. Ada dua aspek – satu adalah teknologi itu sendiri (dalam bentuk solusi seperti Hadoop, R, Python dan Spark) dan yang lainnya adalah tim ahli yang membentuk titik kontak untuk ilmuwan data (pengembang aplikasi data, pemodel, insinyur data, senior manajemen, dan ahli ETL). Keduanya harus bekerja bersama-sama untuk menyediakan lingkungan yang mendorong produktivitas yang lebih tinggi bagi para ilmuwan data. James telah membuat daftar beberapa cara untuk mencapai ini.

  1. Kemudahan bekerja dengan beberapa set data – Ambil kasus pusat medis. Itu dapat memelihara dan menyimpan jutaan catatan untuk ribuan pasien. Ini mungkin termasuk data terstruktur maupun tidak terstruktur (gambar patologi, catatan dokter, dll). Implementasi data besar yang khas adalah membuat danau data Hadoop dan memanfaatkan data untuk digunakan lebih lanjut. Contoh lain dapat berupa posting dan komentar media sosial yang diambil dan disimpan dalam klaster data. Seorang ilmuwan data harus dapat memperoleh data dari kumpulan data yang beragam tersebut dengan mudah. Beberapa contohnya termasuk – data lake, cluster data, layanan cloud.
  2. Excel dalam tanggung jawab kerja – Analisis data, pemodelan prediktif, pembelajaran mesin, penambangan data, dan visualisasi. Ini hanyalah beberapa dari sekian banyak fungsi yang dilibatkan oleh seorang ilmuwan data. Secara alami, dia harus melakukan banyak aktivitas untuk melakukan pekerjaan itu. Ini mungkin termasuk satu atau lebih penemuan data, agregasi data serupa, pembobotan data untuk mencocokkan alam semesta, menyiapkan dan menyusun model untuk pembuatan wawasan yang lebih dalam, dan merumuskan, menguji, dan memvalidasi hipotesis. Baik itu data terstruktur sederhana atau data multi-struktur yang lebih kompleks, lingkungan produktivitas membutuhkan ilmuwan data untuk unggul dalam berbagai tanggung jawab pekerjaan.
  3. Pengalaman langsung – Berikan para ilmuwan data setiap ruang lingkup untuk menerapkan pengetahuan kerja mereka tentang aplikasi analitik data besar. Ini mungkin termasuk R, Python, Spark, dan Hadoop.
  4. Perluas keserbagunaannya – Seperti yang disebutkan sebelumnya, ilmuwan data harus berinteraksi dengan banyak pakar dalam peran dan tanggung jawabnya sehari-hari. Ini termasuk pengembang aplikasi data, pemodel, insinyur data, manajemen senior, dan pakar ETL. Titik kontak perlu berbagi pengetahuan tentang perpustakaan dan template yang dapat membantu memudahkan kerja, dan pemahaman topik seperti pembelajaran mesin, eksplorasi statistik, jaringan saraf, pergudangan data, transformasi data, dan akuisisi data.
  5. Memantau kemajuan – Seorang ilmuwan data memberikan banyak bobot untuk merancang, merancang, dan menerapkan, proses untuk menangani kumpulan data skala besar yang akan digunakan untuk pemodelan, penelitian statistik, dan penambangan data. Dia juga melakukan banyak fungsi tambahan seperti pengembangan kasus bisnis, interaksi dengan vendor pihak ketiga, mengelola siklus hidup seluruh proyek analisis data, menjaga tim tetap selaras hingga akhir, dan berinteraksi dengan pemangku kepentingan dengan pembaruan rutin tentang kemajuan. dari proyek. Di bawah lingkungan yang kondusif, seorang ilmuwan data harus dapat melacak, menegakkan, dan memverifikasi fungsi yang benar dari berbagai komponen yang memungkinkan dia untuk melakukan pekerjaan dengan benar. Komponen-komponen ini termasuk perpustakaan, pemodelan, integrasi teknologi, data, algoritme, dan metadata.

Dengan petunjuk bermanfaat ini, James menunjukkan cara-cara yang memungkinkan peningkatan nilai Ilmuwan Data dalam ekosistem Big Data.

Berencana untuk memperoleh data dari web? Kami di sini untuk membantu. Beri tahu kami tentang kebutuhan Anda.