Migliorare il valore dei data scientist nell'ecosistema dei big data

Pubblicato: 2016-10-15
Mostra il sommario
Manuale
Automatizzato
Come aggiungere di più al valore fornito dai data scientist

L'immensa portata e influenza dei Big Data su quasi tutti i verticali del settore non è sconosciuta. Con i Big Data, la catena di comunicazione, commenti e citazioni del marchio apparentemente massiccia e complessa viene analizzata a livello granulare. Lo scopo di questo esercizio è di sbloccare le intuizioni che potrebbero essere finora rimaste nascoste al punto di vista dei decisori di un'azienda. Prendi il caso dell'American Express. Il gigante delle società di carte ha voluto portare più di semplici indicatori finali per portare avanti i suoi piani di crescita aggressiva. Ciò ha portato AmEx a investire nella costruzione di modelli predittivi complessi ma potenti che accettano fino a 115 variabili . Lo scopo dell'esercizio? Cercare modi per aumentare la fedeltà al marchio tra i clienti e ridurre il tasso di abbandono dei clienti con l'aiuto dei Big Data.

scienza dei dati

Questa analisi predittiva è una delle forme di Data Science, il campo che aiuta a estrarre conoscenze o approfondimenti dai Big Data (sia strutturati che non strutturati). Alcune altre implementazioni della scienza dei dati includono l'analisi statistica, il data mining , l'ingegneria dei dati, i modelli probabilistici, le visualizzazioni e l'apprendimento automatico. La scienza dei dati fa parte del più ampio dominio dell'intelligence competitiva, che include anche l'analisi dei dati e il data mining.

Uno sguardo alla spinta della produttività dei data scientist di nuova generazione

Il Big Data Evangelist di IBM, James Kobielus, ha prodotto un articolo interessante che ha evidenziato i diversi modi in cui è possibile migliorare la produttività dei data scientist di prossima generazione. Questo, a sua volta, può avere un impatto sulle fortune dell'economia, della finanza e della società globali.

Ha riconosciuto il ruolo fondamentale svolto dai data scientist nel fornire valore all'ambiente aziendale sempre attivo. Il loro valore abbraccia diverse integrazioni di soluzioni ripetibili per aiutare ad analizzare i dati e generare approfondimenti significativi per aiutare le parti interessate con il loro processo decisionale.

Grandi dati

Perché aumentare la produttività dei data scientist è essenziale

I data scientist svolgono una serie di ruoli e responsabilità diversi all'interno dell'intero ecosistema dei big data. Questi includono attività come -

  1. Manuale

  • Progettazione e sviluppo di modelli statistici
  • Analisi delle prestazioni di questi modelli
  • Verifica dei modelli con i dati del mondo reale
  • Svolgere il difficile compito di trasmettere le informazioni in un modo che gli esperti non di dati (stakeholder e decisori) possano comprendere
  1. Automatizzato

  • Iniziazione, brainstorming e ricerca sul business dei clienti e sulla raccolta di informazioni
  • Scoperta dei dati
  • Profilazione dei dati
  • Campionamento e organizzazione dei dati

Come è evidente, questi compiti richiedono un insieme di competenze in materia di capitale umano che non possono essere trovate in un singolo individuo. Deve essere costruito un team di persone esperte in diverse nicchie. Ancora più importante, devono essere allineati in modo tale che l'obiettivo aziendale di avere un team di data scientist sia raggiunto amichevolmente e senza alcuna politica. E questo può essere ottenuto disponendo di un solido insieme di processi e protocolli che devono essere seguiti da ognuno all'interno del team.

Tuttavia, l'impostazione e l'applicazione di questi protocolli non significa necessariamente un calo della produttività dei data scientist. James dà un'occhiata agli esempi di vita reale in cui sono stati impostati diversi processi per garantire una produttività ottimale dei data scientist all'interno di complessi ambienti di team. Un esempio che ha menzionato in modo specifico in questo contesto è Ben Lorica di O'Reilly. Questo articolo cerca di offrire ai data scientist i seguenti vantaggi in termini di produttività:

  • Le disposizioni di un'API pronta all'uso che può essere resa disponibile per affrontare vari passaggi principali e secondari del dominio di analisi e visualizzazione dei dati. La razionalizzazione del processo end-to-end dell'elaborazione dell'apprendimento automatico può aiutare in ogni singola pietra miliare del progetto può migliorare esponenzialmente la riduzione di tempi e costi. E questa riduzione è di gran lunga superiore al costo necessario per l'onboarding del software nei sistemi esistenti dell'organizzazione.
  • I tipi di dati come i contenuti multimediali (audio, video, contenuti) svolgono un ruolo fondamentale nello streaming dei media e nel calcolo cognitivo. Con il machine learning automatizzato, l'assorbimento e l'analisi di questi tipi di dati possono essere eseguiti facilmente. Ben suggerisce di utilizzare pipeline di esempio per la sintesi vocale e la visione artificiale e caricatori di dati per altri tipi di dati.
  • Le applicazioni possono aiutare a monitorare rapidamente la formazione, l'utilizzo e il perfezionamento dei modelli statistici e predittivi. Esempi di tali algoritmi di apprendimento automatico scalabili includono i runtime basati su Spark .
  • La produttività dei data scientist può anche essere migliorata estendendo in modo intelligente le pipeline di elaborazione dei progetti di machine learning multifunzionali. Esempi di tali componenti includono l'incorporazione e il caricamento di librerie e ottimizzatori. Altre istanze di questi componenti includono la vasta gamma di caricatori di dati , funzioni di funzionalità e allocatori di memoria.

Parla anche di progettazione, definizione chiara e impostazione di limiti di errore per aiutare a verificare l'efficacia dei progetti di apprendimento automatico. Con l'aiuto di questo sforzo, le prestazioni effettive possono essere misurate rispetto a benchmark predefiniti. Inoltre, può aiutare a mettere a punto il modello se c'è una deviazione significativa delle prestazioni effettive del modello dai risultati attesi.

Questo è un esempio degli sforzi in corso in tutto il mondo in diverse organizzazioni per catapultare la produttività dei data scientist. Con questi sforzi svolgono i loro ruoli all'interno di ambienti profondamente complessi che toccano più personale, processi, protocolli e aspettative.

Come aggiungere di più al valore fornito dai data scientist

James prosegue poi evidenziando i modi in cui i data scientist possono radunare eccellenze nel loro lavoro e fare straordinariamente bene con l'analisi dei dati e la nicchia di visualizzazione. Ci sono due aspetti: uno è la tecnologia stessa (sotto forma di soluzioni come Hadoop, R, Python e Spark) e l'altro è il team di esperti che formano punti di contatto per i data scientist (sviluppatori di applicazioni di dati, modellatori, ingegneri di dati, management ed esperti ETL). Entrambi dovrebbero lavorare in tandem per fornire un ambiente che promuova una maggiore produttività per i data scientist. James ha elencato diversi modi per raggiungere questo obiettivo.

  1. Facilità di lavoro con più set di dati: prendi il caso di un centro medico. Può mantenere e archiviare milioni di record per migliaia di pazienti. Questi possono includere dati strutturati e non strutturati (immagini della patologia, note del medico ecc.). Una tipica implementazione dei big data sarebbe quella di creare un data lake Hadoop e sfruttare i dati per un ulteriore utilizzo. Un altro esempio può essere di post e commenti sui social media che vengono presi e archiviati in cluster di dati. Un data scientist deve essere in grado di acquisire facilmente dati da set di dati così diversi. Alcuni degli esempi includono: data lake, cluster di dati, servizi cloud.
  2. Eccellere nelle responsabilità lavorative: analisi dei dati, modellazione predittiva, apprendimento automatico, data mining e visualizzazione. Queste sono solo alcune delle molte funzioni in cui è coinvolto un data scientist. Abbastanza naturalmente, dovrebbe svolgere una miriade di attività per svolgere il lavoro. Ciò può includere una o più scoperte di dati, aggregazione di dati simili, ponderazione dei dati per abbinare l'universo, preparare e curare modelli per una generazione di insight più approfonditi e formulare, testare e convalidare un'ipotesi. Che si tratti di dati strutturati semplici o di dati multistrutturati più complessi, l'ambiente di produttività richiede che il data scientist eccelle nelle diverse responsabilità lavorative.
  3. Esperienza pratica – Fornire ai data scientist ogni ambito per implementare la loro conoscenza pratica delle applicazioni di analisi dei big data. Questi possono includere R, Python, Spark e Hadoop.
  4. Estendi la loro versatilità – Come accennato in precedenza, i data scientist devono interagire con molti esperti nei loro ruoli e responsabilità quotidiane. Questi includono sviluppatori di applicazioni dati, modellatori, ingegneri di dati, dirigenti senior ed esperti ETL. I punti di contatto devono condividere le conoscenze su librerie e modelli che possono aiutare a facilitare il lavoro e la comprensione di argomenti come l'apprendimento automatico, l'esplorazione statistica, le reti neurali, il data warehousing, la trasformazione dei dati e l'acquisizione dei dati.
  5. Monitoraggio dei progressi – Un data scientist fornisce molta importanza all'ideazione, alla progettazione e all'attuazione di processi per la gestione di set di dati su larga scala da utilizzare per la modellazione, la ricerca statistica e il data mining. Svolge anche molte funzioni ausiliarie come lo sviluppo di casi aziendali, l'interazione con fornitori di terze parti, la gestione del ciclo di vita dell'intero progetto di analisi dei dati mantenendo il team ben allineato fino alla fine e l'interazione con le parti interessate con aggiornamenti regolari sullo stato di avanzamento del progetto. In un ambiente favorevole, un data scientist deve essere in grado di tracciare, far rispettare e verificare il corretto funzionamento dei vari componenti che gli consentono di svolgere correttamente il lavoro. Questi componenti includono librerie, modellazione, integrazioni tecnologiche, dati, algoritmi e metadati.

Con questi utili suggerimenti, James mette in evidenza i modi in cui è possibile aumentare il valore dei Data Scientist nell'ecosistema dei Big Data.

Stai pianificando di acquisire dati dal web? Siamo qui per aiutare. Facci sapere le tue esigenze.