Creșterea valorii cercetătorilor de date în ecosistemul Big Data

Publicat: 2016-10-15
Cuprins arată
Manual
Automatizat
Cum să adăugați mai mult la valoarea oferită de cercetătorii de date

Acțiunea imensă și influența Big Data asupra aproape tuturor verticalelor industriei nu este necunoscută. Cu Big Data, lanțul de comunicare, comentarii și mențiuni de marcă aparent masiv și complex este analizat la nivel granular. Scopul acestui exercițiu este de a debloca perspective care au rămas până acum ascunse de opiniile factorilor de decizie ai unei companii. Luați cazul American Express. Gigantul companiei de carduri a vrut să aducă mai mult decât indicatori de ultimă oră pentru a-și duce planurile de creștere agresive înainte. Acest lucru a determinat AmEx să investească în construirea unor modele predictive complexe, dar puternice, care iau în considerare până la 115 variabile . Scopul exercițiului? Să caute modalități de a spori loialitatea față de brand în rândul clienților și de a reduce rata de consum cu ajutorul Big Data.

știința datelor

Această analiză predictivă este una dintre formele Data Science – domeniul care ajută la extragerea de cunoștințe sau perspective din Big Data (atât structurate, cât și nestructurate). Alte implementări ale științei datelor includ analiza statistică, extragerea datelor, ingineria datelor, modelele de probabilitate, vizualizările și învățarea automată. Știința datelor este o parte a domeniului mai mare al inteligenței competitive, care include și analiza datelor și extragerea datelor.

O privire asupra propulsării productivității oamenilor de știință de date de nouă generație

Evanghelistul Big Data de la IBM, James Kobielus, a produs un articol interesant care a evidențiat diferitele moduri în care poate fi îmbunătățită productivitatea oamenilor de știință de date de generația următoare. Acest lucru poate, la rândul său, să aibă un impact asupra averilor economiei, finanțelor și societății globale.

El a recunoscut rolul esențial al misiunii jucat de oamenii de știință de date în furnizarea de valoare mediului de afaceri mereu activ. Valoarea lor include integrarea diferitelor soluții repetabile pentru a ajuta la analiza datelor și pentru a genera perspective semnificative pentru a ajuta părțile interesate în procesul lor de luare a deciziilor.

Date mare

De ce este esențială creșterea productivității cercetătorilor de date

Oamenii de știință de date îndeplinesc o serie de roluri și responsabilități variate în cadrul întregului ecosistem de date mari. Acestea includ sarcini precum -

  1. Manual

  • Proiectarea si dezvoltarea modelelor statistice
  • Analiza performantelor acestor modele
  • Verificarea modelelor cu datele din lumea reală
  • Îndeplinirea sarcinii dificile de a transmite perspectivele într-o manieră pe care experții care nu sunt în date (părți interesate și factori de decizie) o pot înțelege
  1. Automatizat

  • Inițiere, brainstorming și cercetare privind afacerile clienților și colectarea de informații
  • Descoperirea datelor
  • Profilarea datelor
  • Eșantionarea și organizarea datelor

După cum este evident, aceste sarcini necesită un set de expertiză a capitalului uman care nu poate fi găsit la un singur individ. Trebuie construită o echipă de oameni care sunt experți în diferite nișe. Mai important, trebuie să fie aliniate astfel încât obiectivul de afaceri de a avea o echipă de oameni de știință a datelor să fie îndeplinit pe cale amiabilă și fără nicio politică. Și acest lucru poate fi realizat prin existența unui set robust de procese și protocoale care trebuie urmate de fiecare din echipă.

Cu toate acestea, stabilirea și aplicarea acestor protocoale nu înseamnă neapărat o scădere a productivității cercetătorilor de date. James aruncă o privire asupra exemplelor din viața reală în care au fost create procese diferite pentru a asigura o productivitate optimă a cercetătorilor de date în medii complexe de echipă. Un exemplu pe care l-a menționat în mod special în acest context este Ben Lorica de la O'Reilly. Acest articol încearcă să ofere cercetătorilor de date următoarele avantaje în materie de productivitate:

  • Prevederile unui API standard care poate fi pus la dispoziție pentru a aborda diferiți pași principali și secundari ai domeniului de analiză și vizualizare a datelor. Raționalizarea procesului de la capăt la capăt al procesării învățării automate poate ajuta la fiecare etapă de referință a proiectului poate îmbunătăți exponențial reducerea timpului și a costurilor. Și această reducere este mult mai mare decât costul implicat în integrarea software-ului în sistemele existente ale organizației dumneavoastră.
  • Tipurile de date precum multimedia (audio, video, conținut) joacă un rol esențial în fluxul media și calculul cognitiv. Cu învățarea automată automată, absorbția și analiza acestor tipuri de date pot fi realizate cu ușurință. Ben sugerează să folosiți exemple de conducte pentru vorbire și viziune pe computer și încărcătoare de date pentru alte tipuri de date.
  • Aplicațiile pot ajuta la urmărirea rapidă a pregătirii, utilizării și perfecționării modelelor statistice și predictive. Exemple de astfel de algoritmi scalabili de învățare automată includ runtime-urile bazate pe Spark .
  • Productivitatea cercetătorilor de date poate fi, de asemenea, îmbunătățită prin extinderea inteligentă a conductelor de procesare a proiectelor multifuncționale de învățare automată. Exemple de astfel de componente includ încorporarea și încărcarea bibliotecilor și optimizatorilor. Alte exemple ale acestor componente includ gama variată de încărcătoare de date , caracteristici și alocători de memorie.

De asemenea, vorbește despre proiectarea, definirea clară și stabilirea limitelor de eroare pentru a ajuta la verificarea eficacității proiectelor de învățare automată. Cu ajutorul acestui efort, performanța reală poate fi măsurată în raport cu benchmark-uri predefinite. În plus, poate ajuta la reglarea fină a modelului dacă există o deviere semnificativă a performanței reale a modelului de la rezultatele așteptate.

Acesta este un exemplu al eforturilor depuse la nivel mondial în diferite organizații pentru a catapulta productivitatea cercetătorilor de date. Cu aceste eforturi, ei își îndeplinesc rolurile în medii profund complexe care afectează mai multe personal, procese, protocoale și așteptări.

Cum să adăugați mai mult la valoarea oferită de cercetătorii de date

James continuă apoi evidențiind modalitățile în care oamenii de știință de date pot să exceleze la locurile lor de muncă și să se descurce remarcabil de bine cu nișa de analiză și vizualizare a datelor. Există două aspecte – unul este tehnologia în sine (sub formă de soluții precum Hadoop, R, Python și Spark) și celălalt este echipa de experți care formează puncte de contact pentru oamenii de știință de date (dezvoltatori de aplicații de date, modelatori, ingineri de date, seniori). management și experți ETL). Ambele ar trebui să lucreze în tandem pentru a oferi un mediu care favorizează o productivitate mai mare pentru oamenii de știință de date. James a enumerat destul de multe moduri de a realiza acest lucru.

  1. Ușurința de a lucra cu mai multe seturi de date – Luați cazul unui centru medical. Poate păstra și stoca milioane de înregistrări pentru mii de pacienți. Acestea pot include date structurate și nestructurate (imagini de patologie, note ale medicului etc.). O implementare tipică a datelor mari ar fi crearea unui lac de date Hadoop și valorificarea datelor pentru utilizare ulterioară. Un alt exemplu poate fi postările și comentariile pe rețelele sociale care sunt preluate și stocate în grupuri de date. Un cercetător de date trebuie să fie capabil să obțină cu ușurință date din seturi de date atât de diverse. Unele dintre exemple includ – lacuri de date, clustere de date, servicii cloud.
  2. Excelează în responsabilitățile profesionale – Analiza datelor, modelarea predictivă, învățarea automată, extragerea datelor și vizualizare. Acestea sunt doar câteva dintre numeroasele funcții în care este implicat un cercetător de date. În mod firesc, el/ea ar trebui să facă o multitudine de activități pentru a-și îndeplini postul. Aceasta poate include una sau mai multe dintre descoperirea datelor, agregarea de date similare, ponderarea datelor pentru a se potrivi cu universul, pregătirea și gestionarea modelelor pentru generarea de informații mai profunde și formularea, testarea și validarea unei ipoteze. Fie că este vorba de date simple structurate sau de date mai complexe multi-structurate, mediul de productivitate are nevoie de cercetătorul de date pentru a excela în diferitele responsabilități ale postului.
  3. Experiență practică – Oferiți oamenilor de știință de date toate posibilitățile pentru a-și implementa cunoștințele de lucru despre aplicațiile de analiză a datelor mari. Acestea pot include R, Python, Spark și Hadoop.
  4. Extindeți-le versatilitatea – După cum sa menționat mai devreme, oamenii de știință în domeniul datelor trebuie să interacționeze cu mulți experți în rolurile și responsabilitățile sale de zi cu zi. Acestea includ dezvoltatori de aplicații de date, modelatori, ingineri de date, management superior și experți ETL. Punctele de contact trebuie să împărtășească cunoștințe despre biblioteci și șabloane care pot ajuta la ușurarea lucrului și a înțelegerii unor subiecte precum învățarea automată, explorarea statistică, rețelele neuronale, depozitarea datelor, transformarea datelor și achiziția de date.
  5. Monitorizarea progresului – Un om de știință de date oferă multă pondere pentru conceperea, proiectarea și punerea în acțiune a proceselor pentru manipularea seturilor de date la scară largă care să fie utilizate pentru modelare, cercetare statistică și extragere de date. El/ea face, de asemenea, o mulțime de funcții auxiliare, cum ar fi dezvoltarea de cazuri de afaceri, interacțiunea cu furnizori terți, gestionarea ciclului de viață al întregului proiect de analiză a datelor, menținând echipa bine aliniată până la sfârșit și interacționarea cu părțile interesate cu actualizări regulate cu privire la progres. a proiectului. Într-un mediu propice, un cercetător de date trebuie să fie capabil să urmărească, să impună și să verifice funcționarea corectă a diferitelor componente care îi permit să facă treaba corect. Aceste componente includ biblioteci, modelare, integrări tehnologice, date, algoritmi și metadate.

Cu aceste indicații utile, James scoate în evidență modalitățile prin care poate fi posibilă creșterea valorii Data Scientists în ecosistemul Big Data.

Plănuiți să achiziționați date de pe web? Suntem aici pentru a vă ajuta. Anunțați-ne despre cerințele dvs.