Oamenii de știință ai datelor și metodele lor de știință a datelor în lumea de astăzi

Publicat: 2022-05-19
Cuprins arată
Cei mai renumiți oameni de știință ai datelor care au pășit pe Pământ
Alan Turing
Alex Krijevski
Ian Goodfellow
Sebastian Thrun
Andrei Ng
Și calea de urmat…
Utilizarea infrastructurii cloud pentru a procesa date
internetul Lucrurilor
Procesare mai puternică a limbajului natural
Sănătate

Știința datelor este un domeniu care a crescut dincolo de salturi și limite, la fel ca datele create de om și create de mașini. A dus la creșterea numărului de indivizi din diferite domenii precum matematica și bioștiința, luând datele ca instrument de rezolvare a problemelor. Algoritmii au mers cu mult dincolo de gestionarea numerelor și a textelor. Astăzi, procesează aproape orice format de date, cum ar fi imagini, videoclipuri și audio. Acest lucru a oferit companiilor acces la o gamă mai largă de date nestructurate. Sursele de date au crescut și ele, iar astăzi datele din rețelele sociale sunt una dintre sursele cheie pentru multe companii care încearcă să profileze indivizi. Toate acestea se adaugă datelor structurate deja în creștere exponențială.

Cei mai renumiți oameni de știință ai datelor care au pășit pe Pământ

Au existat descoperiri masive în știința datelor și ne putem aștepta la mai multe în zilele următoare. Ne aflăm într-un moment în care au loc descoperiri revoluționare în știința datelor și sunt folosite pentru a rezolva probleme din viața reală. Ar merita să ne uităm la unele dintre cele mai mari descoperiri și descoperiri de la început.

Alan Turing

Alan Turing este probabil unul dintre cei mai faimoși cercetători care au existat. Este considerat părintele inteligenței artificiale, precum și al informaticii teoretice.

El a devenit un nume popular prin filmul „The Imitation Game”. Cu toate acestea, inventarea lui Bombe, dispozitivul electromecanic folosit pentru a sparge Enigma (dispozitivul de cifră german din al Doilea Război Mondial) nu a fost singura sa descoperire. Munca sa de cercetare a dus la crearea primei mașini care ar putea calcula scenarii matematice întregi. Modelul pilot al mașinii avea o viteză de ceas de 1MHz - cel mai rapid computer al vremii. În timpul războiului rece, cercetările sale au fost folosite chiar și pentru a calcula mișcările aeronavelor.

De asemenea, a creat Testul Turing – un set de reguli pentru a determina dacă un computer poate gândi și acționa ca un om. Pe baza cât de aproape o mașină poate imita un om, se calculează procentul de promovare. Folosim multe variante ale testului astăzi, cea mai comună fiind Captcha. Captcha este un test Turing invers în care oamenii trebuie să demonstreze că nu sunt o mașinărie.

Alex Krijevski

Anul 2012 s-a dovedit a fi vital pentru învățarea profundă (o ramură a învățării automate în care rețelele neuronale artificiale sunt folosite pentru a extrage caracteristici din big data). Krizhevsky a împuternicit rețelele neuronale la niveluri nemaivăzute până acum. El a fondat „Alexnet”, un algoritm care a redus ratele de eroare pentru competiția Imagenet la jumătate (aproape 15%). Provocarea ImageNet este locul în care indivizii trebuie să clasifice milioane de obiecte în sute de categorii.

Algoritmul său ar putea detecta pisicile cu o acuratețe de aproape 75% și fețele din videoclipurile de pe YouTube cu o precizie de peste 80%. Software-ul de recunoaștere facială care rulează pe sisteme de securitate sau pe cele pe care le utilizați pentru a vă debloca telefonul astăzi pot fi atribuite acestui bărbat. Imagistica medicală este un alt domeniu care a primit un impuls uriaș datorită utilizării rețelelor neuronale pentru detectarea imaginilor.

Ian Goodfellow

Ian Goodfellow a prezentat lumii rețelele generative adversare (GAN) care pot avea două tipuri de modele –

  1. Modelul generator, odată antrenat pe date, încearcă să creeze noi exemple de același tip.
  2. Modelul discriminator încearcă să clasifice conținutul real și fals (generat).

Din păcate, modelul generatorului a fost abuzat pe scară largă astăzi în ceea ce este cel mai bine cunoscut sub numele de DeepFakes. Mulți au postat discursuri incredibile ale unor indivizi populari pe internet - care s-au dovedit a fi DeepFakes mai târziu. A deschis o cutie de viermi în care aproape oricine are un laptop și conexiune la internet poate crea un videoclip complet nou dintr-unul existent și poate face vorbitorul să spună absolut orice. Inteligența artificială aflată în joc învață dintr-un videoclip existent și este apoi capabilă să imite automat expresiile faciale, vocea și stilul de vorbire.

Algoritmul a pătruns acolo unde nici un alt cod de mașină nu a făcut-o anterior - creativitatea umană. Poate crea picturi și poate genera fețe (care nu există). Picturile realizate de GAN s-au vândut chiar și cu până la 400.000 USD la licitații. Companii precum Adobe au venit cu noi tehnici pentru a detecta conținutul fals, deoarece situația scapă de sub control. GAN-urile nu numai că au influențat scena actuală a AI, dar este probabil să provoace descoperiri mai radicale în anii următori.

Sebastian Thrun

În timp ce majoritatea dintre voi probabil că au auzit despre Tesla, prima companie care a făcut mașinile autonome cu adevărat accesibile maselor, puțini trebuie să fi auzit numele lui Sebastian Thrun. Cunoscut în mod popular ca Părintele Autovehiculelor cu Conducere Auto, Thrun a câștigat concursul pentru vehicule cu conducere autonomă organizat de Pentagon în 2005. De asemenea, a înființat și a condus proiectul Google Driverless Car înainte de a pleca pentru a începe Udacity și a face educația mai accesibilă pentru mulțimi. Perioada lui cu robotică a început însă cu mult înainte, când, în 1997, a creat primul ghid turistic robotizat pentru Deutsches Museum Bonn. De asemenea, a fost asociat cu mai multe laboratoare de inteligență artificială de top, cum ar fi cele de la CMU și Stanford.

Andrei Ng

A existat o contribuție masivă atât din partea comunității open-source, cât și din partea oamenilor de știință ai datelor precum Andrew Ng (cofondatorul Coursera) pentru a face Data Science accesibilă maselor. Google a făcut ca TensorFlow să fie folosit gratuit în 2015, iar Facebook a urmat exemplul cu PyTorch în 2016. Bibliotecile personalizate în limbi precum Python (cum ar fi Scikit Learn și Pandas) au făcut ca oricine să înceapă extrem de ușor în câteva ore).

Cursuri precum cele ale lui Andrew au ajutat persoanele care nu sunt din mediul matematic să ajungă la fundul modului în care funcționează algoritmii AI. Există, de asemenea, site-uri web precum Kaggle și GitHub care au făcut probleme AI, seturi de date și soluții ușor accesibile oricui pe internet.

Și calea de urmat…

Tocmai am discutat despre unele dintre cele mai mari proiecte de cercetare, oameni de știință și educatori care au contribuit la domeniul științei datelor, dar ce urmează? Ce instrumente vor juca un rol mai important? Pe ce probleme se concentrează în continuare comunitatea Data Science? Cum încearcă companiile să folosească toate aceste cercetări și descoperiri pentru a stimula luarea deciziilor bazate pe date? Pentru a afla răspunsurile la aceste întrebări, trebuie să se uite la cele mai recente tendințe în domeniu –

Utilizarea infrastructurii cloud pentru a procesa date

Colectarea datelor a crescut cu fiecare an care trece. Companiile au adăugat surse noi, cum ar fi surse terțe sau date de pe rețelele sociale. Cu toate acestea, provocarea constă în curățarea, normalizarea, procesarea și formatarea unor astfel de seturi de date masive. Deoarece multe dintre aceste surse produc date semi sau nestructurate, procesarea acestora necesită mai multe resurse. Rularea algoritmilor chiar și pe date de testare se poate dovedi a fi o provocare majoră pe mașinile locale (laptop-uri).

Acesta este motivul pentru care furnizorii de servicii cloud precum AWS și-au văzut afacerile crescând la miliarde de dolari. Serviciile cloud precum AWS S3 oferă servicii extrem de ieftine pentru salvarea datelor. Acestea sunt, de asemenea, unele dintre primele servicii cloud care au apărut. Stocarea datelor este doar începutul, serviciile mai noi care se ocupă de procesare și formatare și-au găsit, de asemenea, o utilizare mai mare. Astăzi, inginerii de date care pot calcula și crea o infrastructură eficientă pentru sistemele bazate pe date sunt mai solicitați în comparație cu oamenii de știință de date.

Toate acestea au schimbat modul în care companiile utilizează datele mari și serviciile cloud. Datele în sine sunt oferite ca serviciu de furnizorii DaaS (Data as a Service), precum PromptCloud. Aceste servicii permit companiilor să acceseze date de la terți sau date ale concurenților prin specificarea site-urilor web de pe care au nevoie de date pentru a fi răzuite și punctele de date care sunt necesare.

internetul Lucrurilor

Deși Internetul lucrurilor nu este nou, abia acum tot mai multe dispozitive fizice vorbesc între ele. Mai multe dispozitive sunt conectate la cloud decât oricând și adună și partajează toate datele colectate prin intermediul senzorilor lor.

Acest lucru permite soluții new-age precum diagnosticarea de la distanță a mașinilor. Soluțiile software pot utiliza datele senzorului pentru a vă oferi o durată aproximativă de viață a diferitelor piese și accesorii. Datele ajută la notificarea persoanelor când un sistem ar putea să nu mai funcționeze. Pe măsură ce se colectează mai multe date și învățarea profundă își face magia, vom folosi mai multe date pentru a face predicții mai bune care implică mașini conectate la IoT. De asemenea, este probabil să vedem o utilizare mai mare a IoT la nivel industrial, în afară de roboții din depozite care au crescut în ultimii ani.

Procesare mai puternică a limbajului natural

Un subset al Inteligenței Artificiale, NLP se ocupă de limbajul uman. Este ceea ce o dă putere pe Siri sau Alexa. Se ocupă de modul în care limbile sunt folosite în timp real, în loc să se concentreze doar pe compoziția gramaticală. Se așteaptă ca companiile să folosească cele mai recente descoperiri în NLP în produse mai noi, astfel încât oamenii să poată interacționa mai ușor cu mașinile și software-ul. Nu suntem departe de o zi în care vei vorbi cu computerul tău și acesta va îndeplini sarcini pentru tine.

Sănătate

Învățarea automată și știința datelor au influențat puternic știința medicală. L-am aplicat pentru rezolvarea problemelor precum detectarea diabetului, identificarea celulelor canceroase, radiologie și patologie. Un studiu realizat de Stanford a arătat că AI poate identifica cancerul de piele la fel de bine ca și medicii.

Următorul deceniu va vedea o mare parte din lucrările de cercetare și lucrările fiind puse în practică. Ne putem aștepta la mai multe descoperiri –

  • Identificarea și predicția bolilor chiar înainte ca acestea să apară.
  • Mașinile ar putea procesa imaginile medicale mai eficient decât oamenii.
  • Prezicerea focarelor precum COVID-19.
  • Înregistrări și urmărire Smarter Health prin mai multe mijloace, cum ar fi ceasurile inteligente.

Distanța pe care am parcurs-o este uriașă! Putem efectua calcule care au nevoie de mașini care ar umple o încăpere întreagă, pe un cip de mărimea unei unghii de la picioare astăzi. Progresul în producția de cipuri, precum și viteze mai rapide de internet și de transfer de date, au contribuit direct la creșterea științei datelor și a aplicațiilor sale din viața reală. Viitorul științei datelor va depinde de mai multe sectoare și organizații, iar știința democratică a datelor va crea un domeniu de nivel pentru toți.