Competenze di data science essenziali per gli appassionati
Pubblicato: 2018-06-26I dati stanno letteralmente crescendo a una velocità esponenziale, tanto da raggiungere i petabyte! Potresti credere che il novanta per cento dei dati mondiali sia stato creato solo negli ultimi due anni. Con questo volume, la gestione dei dati è stata un affare complicato. Non c'è da stupirsi che le competenze essenziali della scienza dei dati abbiano preso il posto di primo piano.
Le Cinque Vs dei Big Data
I big data sono spesso descritti utilizzando cinque Vs. Vale a dire: volume, velocità, varietà, veridicità e valore.
- 1. Il volume di dati si riferisce alla grande quantità di dati generati ogni secondo, da tutti i milioni di dispositivi mobili in uso in questi giorni. Tutte le e-mail, i messaggi di Twitter, le foto, i videoclip, i dati dei sensori e altro ancora che produciamo sono i dati più preziosi per molte aziende.
- 2. La velocità dei dati si riferisce alla velocità con cui vengono generati nuovi dati e alla velocità con cui possono essere spostati da un luogo all'altro in modo da aumentare la redditività.
- 3. La varietà di dati è ciò a cui tutti possiamo relazionarci. Dati, per la maggior parte delle organizzazioni, in passato significavano database e fogli excel. Tuttavia, oggi i dati significano molto di più. L'ottanta percento dei dati mondiali non è strutturato, pensa alle foto, ai video e agli aggiornamenti di Twitter che fai.
- 4. La veridicità dei dati si riferisce al livello di affidabilità dei dati. Con i dati che crescono a dimensioni magnanime, è importante cercare di mantenerli il più puliti possibile poiché i dati sporchi sono un virus che può infliggere dolore come nessun altro.
- 5. Il valore dei dati è il vero valore dei tuoi dati. Raccogli molti dati e decidi di lavorarci sopra. Tutto bene e bene. Ma quale valore aggiungono i dati alla tua azienda? Qual è il vantaggio che si ottiene investendo nei dati è ciò che è importante?
Quindi, nel caso in cui tu sia preso dal brusio dei big data e della scienza dei dati, ti suggerisco di guardare le cinque risorse elencate di seguito.
1. Campo dati
Datacamp è l'ideale per le persone con poca o nessuna esperienza in Python e R. Inizia con le basi e ha un approccio graduale, in cui ti viene dato un problema dopo l'altro. È una manna dal cielo per i principianti e ha un prezzo nella fascia di budget.
Cerca i forti sconti che offre Datacamp, nel caso in cui desideri abbonarti per un anno e accedere al progetto e alle funzionalità premium. Ha diverse tracce che puoi padroneggiare, che consistono in circa 20-30 corsi ciascuna. I brani popolari includono:
- un. Data Scientist con Python
- b. Analisi quantitativa con R
- c. Manipolazione dei dati con Python
- d. Importazione e pulizia dei dati con R
- e. Visualizzazione dei dati con R
Se hai meno tempo, puoi anche fare corsi più piccoli come:
- un. Introduzione a Python per la scienza dei dati
- b. Introduzione a R
- c. Unire i dati in PostgreSQL
- d. R intermedio
2. Coursera
Coursera è una delle migliori piattaforme per imparare qualsiasi cosa, dalla scienza dei dati alla storia militare e l'ho sperimentata in prima persona. Puoi scegliere di controllare i corsi e ottenere l'accesso ai materiali del corso gratuitamente. Alcuni dei migliori corsi di Data Science su Coursera sono:

un. Competenze di analisi e presentazione dei dati: l'approccio PwC: questa specializzazione ti aiuterà a ottenere un'esperienza pratica con l'analisi dei dati e il know-how su come trasformare la business intelligence in risultati del mondo reale. Ti darà una migliore comprensione, filtraggio e applicazione dei dati, che a loro volta ti aiuteranno a risolvere i problemi più velocemente. Diventerai esperto con Microsoft Excel, PowerPoint e altri comuni strumenti di analisi e comunicazione dei dati. Soprattutto imparerai a leggere i dati e a presentarli.
b. Big Data, UCSD– Se hai bisogno di comprendere i big data e come influiranno sulla tua attività, questa specializzazione è per te. Potrai acquisire esperienza pratica con gli strumenti e i sistemi utilizzati da scienziati e ingegneri di big data come Hadoop con MapReduce, Spark, Pig e Hive. Imparerai a eseguire la modellazione predittiva e a sfruttare l'analisi dei grafici per modellare i problemi. Nel caso in cui lavori fino alla fine, sarai in grado di completare un progetto Capstone, sviluppato in collaborazione con la società di software di dati Splunk, in cui ti sarà permesso di applicare i concetti di base che hai appreso.
c. Data Science Specializatin della Johns Hopkins University: questa specializzazione copre i concetti e gli strumenti necessari durante l'intero percorso dei dati, dal porre la giusta serie di domande all'elaborazione di inferenze e alla pubblicazione dei risultati in un formato semplice ma potente .
d. SQL per la scienza dei dati, UC Davis- Questo corso è progettato per darti un'introduzione ai fondamenti di SQL insieme all'utilizzo dei dati che ti aiuteranno a migrare alle esigenze del database del mondo della scienza dei dati. Il corso inizia con le basi e presuppone una conoscenza zero di SQL. La complessità cresce costantemente e gradualmente ti costringerà a scrivere query sia semplici che complesse per aiutarti a selezionare i dati dalle tabelle.
3. Archivio dati
Dai un'occhiata a Datastock se hai bisogno di set di dati Web completi, puliti e pronti per l'uso di diversi settori in tutto il mondo. La soluzione è ideale per coloro che sono alla ricerca di set di dati pronti per l'uso per eseguire analisi e ottenere informazioni dettagliate e acquisire competenze di scienza dei dati.
La cosa fantastica è che ricevi un set di dati di esempio gratuito prima di effettuare l'acquisto. Puoi testare tu stesso la qualità dei dati e poi decidere.
4. Kaggle
Kaggle è il luogo in cui realizzare progetti di data science e uno dei siti Web più popolari tra i data scientist in erba. Offre varie opzioni come:
- un. Inizia il tuo nuovo progetto
- b. Esplorare progetti creati da altri
- c. Partecipare a una delle loro competizioni sponsorizzate
5. Richiesta dati
Il loro metodo pratico ti insegna tutte le competenze necessarie per diventare un data scientist, un analista di dati o un ingegnere di dati. Puoi imparare in vari modi:
- un. Scrittura del codice
- b. Lavorare con i dati
- c. Progetti edilizi
