Data Scientist e i loro metodi di scienza dei dati nel mondo di oggi

Pubblicato: 2022-05-19
Mostra il sommario
I più famosi data scientist che hanno camminato sulla Terra
Alan Turing
Alex Krizhevsky
Ian Goodfellow
Sebastian Thrun
Andrea Ng
E la via da seguire...
Utilizzo dell'infrastruttura cloud per elaborare i dati
Internet delle cose
Elaborazione del linguaggio naturale più potente
Assistenza sanitaria

La scienza dei dati è un campo che è cresciuto oltre ogni limite, proprio come i dati creati dall'uomo e dalla macchina stessi. Ha portato alla crescita del numero di individui provenienti da diversi campi come la matematica e le bioscienze, prendendo i dati come strumento per risolvere i problemi. Gli algoritmi sono andati ben oltre la gestione di numeri e testi. Oggi elaborano quasi tutti i formati di dati come immagini, video e audio. Ciò ha consentito alle aziende di accedere a una gamma più ampia di dati non strutturati. Anche le fonti di dati sono cresciute e oggi i dati dei social media sono una delle fonti chiave per molte aziende che cercano di profilare le persone. Tutto questo si aggiunge ai dati strutturati già in crescita esponenziale.

I più famosi data scientist che hanno camminato sulla Terra

Ci sono state enormi scoperte nella scienza dei dati e possiamo aspettarci di più nei prossimi giorni. Siamo a un punto in cui si stanno verificando scoperte rivoluzionarie nella scienza dei dati e vengono utilizzate per risolvere problemi della vita reale. Varrebbe la pena dare un'occhiata ad alcune delle più grandi scoperte e scoperte dall'inizio.

Alan Turing

Alan Turing è forse uno dei data scientist più famosi mai esistiti. È considerato il padre dell'intelligenza artificiale e dell'informatica teorica.

È diventato un nome popolare grazie al film "The Imitation Game". Tuttavia, la sua invenzione di Bombe, il dispositivo elettromeccanico utilizzato per rompere Enigma (il dispositivo di cifratura tedesco della seconda guerra mondiale) non fu la sua unica scoperta. Il suo lavoro di ricerca ha portato alla creazione della prima macchina in assoluto in grado di calcolare interi scenari matematici. Il modello pilota della macchina aveva una velocità di clock di 1 MHz, il computer più veloce dell'epoca. Durante la guerra fredda, le sue ricerche furono persino utilizzate per calcolare i movimenti degli aerei.

Ha anche creato il Test di Turing, un insieme di regole per determinare se un computer può pensare e agire come un essere umano. In base a quanto una macchina può imitare un essere umano, viene calcolata la percentuale di passaggio. Oggi utilizziamo molte varianti del test, la più comune è Captcha. Captcha è un test di Turing inverso in cui gli esseri umani devono dimostrare di non essere una macchina.

Alex Krizhevsky

L'anno 2012 si è rivelato fondamentale per il deep learning (una branca del machine learning in cui le reti neurali artificiali vengono utilizzate per estrarre funzionalità dai big data). Krizhevsky ha potenziato le reti neurali a livelli mai visti prima. Ha fondato “Alexnet”, un algoritmo che ha ridotto della metà (quasi il 15%) i tassi di errore per la concorrenza di Imagenet. ImageNet Challenge è il luogo in cui gli individui devono classificare milioni di oggetti in centinaia di categorie.

Il suo algoritmo è in grado di rilevare i gatti con una precisione di quasi il 75% e i volti dei video di YouTube con una precisione superiore all'80%. I software di riconoscimento facciale che girano sui sistemi di sicurezza, o quelli che usi oggi per sbloccare il telefono, possono essere tutti attribuiti a quest'uomo. L'imaging medico è un altro campo che ha ottenuto un enorme impulso grazie all'utilizzo delle reti neurali per il rilevamento delle immagini.

Ian Goodfellow

Ian Goodfellow ha presentato al mondo le Reti Adversarial Generative (GAN) che possono avere 2 tipi di modelli:

  1. Il modello generatore, una volta addestrato sui dati, prova a creare nuovi esempi dello stesso tipo.
  2. Il modello discriminatore cerca di classificare i contenuti reali e falsi (generati).

Sfortunatamente, il modello del generatore è stato ampiamente abusato oggi in ciò che è meglio conosciuto come DeepFakes. Molti hanno pubblicato discorsi incredibili di persone famose su Internet, che in seguito si sono rivelati tutti DeepFakes. Ha aperto un barattolo di worm in cui quasi chiunque abbia un laptop e una connessione Internet può creare un video completamente nuovo da uno esistente e far dire all'oratore qualsiasi cosa. L'intelligenza artificiale in gioco impara da un video esistente ed è quindi in grado di imitare automaticamente le espressioni facciali, la voce e lo stile del parlato.

L'algoritmo ha invaso dove nessun altro codice macchina aveva mai fatto prima: la creatività umana. Può creare dipinti e generare volti (che non esistono). I dipinti realizzati dai GAN sono stati venduti anche per $ 400.000 alle aste. Aziende come Adobe hanno escogitato nuove tecniche per individuare i contenuti falsi poiché la situazione sta sfuggendo di mano. I GAN non solo hanno influenzato l'attuale scena dell'IA, ma potrebbero causare scoperte più radicali negli anni futuri.

Sebastian Thrun

Mentre la maggior parte di voi deve aver sentito parlare di Tesla, la prima azienda che ha reso le auto a guida autonoma veramente accessibili alle masse, pochi devono aver sentito il nome di Sebastian Thrun. Popolarmente noto come il padre delle auto a guida autonoma, Thrun ha vinto il concorso per veicoli a guida autonoma indetto dal Pentagono nel 2005. Ha anche fondato e gestito il progetto Google Driverless Car prima di partire per avviare Udacity e rendere l'istruzione più accessibile alla folla. La sua esperienza con la robotica, tuttavia, è iniziata molto prima, quando nel 1997 ha creato la prima guida turistica robotica per il Deutsches Museum Bonn. È stato anche associato a numerosi laboratori di intelligenza artificiale, come quelli di CMU e Stanford.

Andrea Ng

C'è stato un enorme contributo sia dalla comunità open source che da data scientist come Andrew Ng (il cofondatore di Coursera) per rendere la scienza dei dati accessibile alle masse. Google ha reso TensorFlow gratuito da usare nel 2015 e Facebook ha seguito l'esempio con PyTorch nel 2016. Le librerie personalizzate in linguaggi come Python (come Scikit Learn e Pandas) hanno reso estremamente facile per chiunque iniziare nel giro di poche ore).

Corsi come quelli di Andrew hanno aiutato le persone che non hanno un background matematico a capire come funzionano gli algoritmi di intelligenza artificiale. Esistono anche siti Web come Kaggle e GitHub che hanno reso i problemi di IA, i set di dati e le soluzioni facilmente accessibili a chiunque su Internet.

E la via da seguire...

Abbiamo appena discusso di alcuni dei più grandi progetti di ricerca, scienziati ed educatori che hanno contribuito al campo della scienza dei dati, ma cosa c'è dopo? Quali strumenti avranno un ruolo più importante? Su quali problemi si sta concentrando la community di Data Science? In che modo le aziende stanno cercando di utilizzare tutte queste ricerche e scoperte per potenziare il processo decisionale basato sui dati? Per conoscere le risposte a queste domande, bisogna guardare le ultime tendenze nel campo:

Utilizzo dell'infrastruttura cloud per elaborare i dati

La raccolta dei dati è cresciuta ogni anno che passa. Le aziende hanno aggiunto nuove fonti, come fonti di terze parti o dati sui social media. Tuttavia, la sfida risiede nella pulizia, normalizzazione, elaborazione e formattazione di tali enormi set di dati. Poiché molte di queste fonti producono dati semi o non strutturati, l'elaborazione di questi richiede più risorse. L'esecuzione di algoritmi anche su dati di test può rivelarsi una sfida importante sulle macchine locali (laptop).

Questo è il motivo per cui i fornitori di servizi cloud come AWS hanno visto le loro attività crescere fino a miliardi di dollari. I servizi cloud come AWS S3 forniscono servizi estremamente economici per il salvataggio dei dati. Questi sono anche alcuni dei primi servizi cloud che sono nati. L'archiviazione dei dati è solo l'inizio, anche i servizi più recenti che si occupano di elaborazione e formattazione hanno trovato un maggiore utilizzo. Oggi, i data engineer in grado di calcolare e creare un'infrastruttura efficiente per i sistemi basati sui dati sono più richiesti rispetto ai data scientist.

Tutto questo ha cambiato il modo in cui le aziende utilizzano i big data e i servizi cloud. I dati stessi vengono offerti come servizio dai fornitori di DaaS (Data as a Service), come PromptCloud. Questi servizi consentono alle aziende di accedere a dati di terze parti o dati della concorrenza specificando i siti Web da cui devono essere estratti i dati e i punti dati richiesti.

Internet delle cose

Sebbene l'Internet delle cose non sia una novità, è solo ora che sempre più dispositivi fisici parlano tra loro. Più dispositivi sono connessi al cloud che mai e stanno raccogliendo e condividendo tutti i dati raccolti tramite i loro sensori.

Ciò consente soluzioni all'avanguardia come la diagnostica remota delle macchine. Le soluzioni software possono utilizzare i dati dei sensori per fornire una vita approssimativa di diverse parti e accessori. I dati aiutano a notificare alle persone quando un sistema potrebbe smettere di funzionare. Man mano che vengono raccolti più dati e il deep learning fa la sua magia, utilizzeremo più dati per fare previsioni migliori che coinvolgono macchine connesse all'IoT. È probabile che vedremo anche un maggiore utilizzo dell'IoT a livello industriale, a parte i robot nei magazzini che sono esplosi negli ultimi anni.

Elaborazione del linguaggio naturale più potente

Un sottoinsieme dell'intelligenza artificiale, la PNL si occupa del linguaggio umano. È ciò che alimenta Siri o Alexa. Si occupa di come le lingue vengono utilizzate in tempo reale invece di concentrarsi solo sulla composizione grammaticale. Ci si aspetta che le aziende utilizzino le ultime scoperte della NLP nei prodotti più recenti in modo che le persone possano interagire più facilmente con macchine e software. Non siamo lontani da un giorno in cui parlerai al tuo computer e questo eseguirà compiti per te.

Assistenza sanitaria

L'apprendimento automatico e la scienza dei dati hanno fortemente influenzato la scienza medica. Lo abbiamo applicato per risolvere problemi come il rilevamento del diabete, l'identificazione delle cellule tumorali, la radiologia e la patologia. Uno studio condotto da Stanford ha dimostrato che l'IA può identificare il cancro della pelle proprio come i medici.

Il prossimo decennio vedrà molto del lavoro di ricerca e dei documenti messi in pratica. Possiamo aspettarci molteplici scoperte –

  • Identificazione e previsione delle malattie ancor prima che si manifestino.
  • Le macchine potrebbero elaborare le immagini mediche in modo più efficiente degli esseri umani.
  • Prevedere focolai come il COVID-19.
  • Registri e monitoraggio della salute più intelligenti attraverso più mezzi come gli smartwatch.

La distanza che abbiamo percorso è enorme! Possiamo eseguire calcoli che richiedono macchine che riempirebbero un'intera stanza, su un chip delle dimensioni di un'unghia oggi. I progressi nella produzione di chip, così come Internet più veloci e velocità di trasferimento dati, hanno contribuito direttamente alla crescita della scienza dei dati e delle sue applicazioni reali. Il futuro della scienza dei dati dipenderà da molteplici settori e organizzazioni e la scienza dei dati democratica creerà un campo di parità per tutti.