Naukowcy zajmujący się danymi i ich metody badania danych w dzisiejszym świecie

Opublikowany: 2022-05-19
Spis treści pokaż
Najsłynniejsi naukowcy zajmujący się danymi, którzy chodzili po Ziemi
Alan Turing
Alex Kriżewski
Ian Goodfellow
Sebastian Thrun
Andrzej Ng
A droga naprzód…
Wykorzystanie infrastruktury chmury do przetwarzania danych
Internet przedmiotów
Potężniejsze przetwarzanie języka naturalnego
Opieka zdrowotna

Data Science to dziedzina, która rozrosła się daleko poza granice, podobnie jak same dane stworzone przez człowieka i maszyny. Doprowadziło to do wzrostu liczby osób z różnych dziedzin, takich jak matematyka i biologia, traktujących dane jako narzędzie do rozwiązywania problemów. Algorytmy wyszły daleko poza obsługę liczb i tekstów. Obecnie przetwarzają prawie każdy format danych, taki jak obrazy, filmy i dźwięk. Dało to firmom dostęp do szerszego zakresu nieustrukturyzowanych danych. Źródła danych również się rozrosły, a dziś dane z mediów społecznościowych są jednym z kluczowych źródeł dla wielu firm próbujących profilować osoby. Wszystko to jest na szczycie i tak już wykładniczo rosnących danych strukturalnych.

Najsłynniejsi naukowcy zajmujący się danymi, którzy chodzili po Ziemi

W nauce danych dokonano ogromnych odkryć i możemy spodziewać się więcej w nadchodzących dniach. Jesteśmy w punkcie, w którym dokonują się rewolucyjne odkrycia w nauce o danych i są wykorzystywane do rozwiązywania rzeczywistych problemów. Warto przyjrzeć się niektórym z największych odkryć i odkryć od samego początku.

Alan Turing

Alan Turing jest prawdopodobnie jednym z najbardziej znanych naukowców zajmujących się danymi, jaki kiedykolwiek istniał. Uważany jest za ojca sztucznej inteligencji oraz informatyki teoretycznej.

Stał się popularnym nazwiskiem dzięki filmowi „The Imitation Game”. Jednak jego wynalezienie Bomby, urządzenia elektromechanicznego używanego do łamania Enigmy (niemieckiego urządzenia szyfrującego z czasów II wojny światowej) nie było jego jedynym odkryciem. Jego praca badawcza doprowadziła do stworzenia pierwszej w historii maszyny, która była w stanie obliczyć całe scenariusze matematyczne. Pilotażowy model maszyny miał taktowanie 1 MHz – najszybszy komputer tamtych czasów. Podczas zimnej wojny jego badania były nawet wykorzystywane do obliczania ruchów samolotów.

Stworzył także Test Turinga – zestaw reguł określających, czy komputer może myśleć i działać jak człowiek. Na podstawie tego, jak bardzo maszyna może naśladować człowieka, obliczany jest procent przejścia. Obecnie używamy wielu odmian testu, z których najczęstszą jest Captcha. Captcha to odwrócony test Turinga, w którym ludzie muszą udowodnić, że nie są maszyną.

Alex Kriżewski

Rok 2012 okazał się kluczowy dla głębokiego uczenia (gałęzi uczenia maszynowego, w której do wydobywania funkcji z big data wykorzystuje się sztuczne sieci neuronowe). Kriżewski wzmocnił sieci neuronowe do poziomów, których nigdy wcześniej nie widziano. Stworzył „Alexnet”, algorytm, który obniżył współczynniki błędów dla konkurencji Imagenet do połowy (prawie 15%). ImageNet Challenge to miejsce, w którym jednostki muszą klasyfikować miliony obiektów w setkach kategorii.

Jego algorytm potrafił wykrywać koty z prawie 75% dokładnością, a twarze z filmów na YouTube z ponad 80% dokładnością. Oprogramowanie do rozpoznawania twarzy działające w systemach bezpieczeństwa lub te, których używasz dzisiaj do odblokowywania telefonu, można przypisać temu człowiekowi. Obrazowanie medyczne to kolejna dziedzina, która zyskała ogromny rozmach dzięki wykorzystaniu sieci neuronowych do wykrywania obrazów.

Ian Goodfellow

Ian Goodfellow przedstawił światu Generative Adversarial Networks (GAN), które mogą mieć 2 typy modeli:

  1. Model generatora, po przeszkoleniu na danych, próbuje utworzyć nowe przykłady tego samego typu.
  2. Model dyskryminacyjny stara się klasyfikować treści prawdziwe i fałszywe (generowane).

Niestety, model generatora jest dziś powszechnie nadużywany w tym, co jest najlepiej znane jako DeepFakes. Wielu opublikowało w Internecie niewiarygodne przemówienia popularnych osób, które później okazały się DeepFakes. Otworzył puszkę robaków, w której prawie każdy, kto ma laptopa i połączenie z Internetem, może stworzyć zupełnie nowy film z istniejącego i sprawić, że mówca powie absolutnie wszystko. Sztuczna inteligencja w grze uczy się na podstawie istniejącego wideo, a następnie jest w stanie automatycznie naśladować mimikę, głos i styl mówienia.

Algorytm wkroczył tam, gdzie wcześniej nie zrobił tego żaden inny kod maszynowy – ludzkiej kreatywności. Może tworzyć obrazy i generować twarze (które nie istnieją). Obrazy wykonane przez GAN zostały sprzedane na aukcjach nawet za 400 000 dolarów. Firmy takie jak Adobe opracowały nowe techniki wykrywania fałszywych treści, ponieważ sytuacja wymyka się spod kontroli. GAN nie tylko wpłynęły na obecną scenę AI, ale prawdopodobnie spowodują bardziej radykalne odkrycia w przyszłych latach.

Sebastian Thrun

Podczas gdy większość z was musiała słyszeć o Tesli, pierwszej firmie, która sprawiła, że ​​autonomiczne samochody są naprawdę dostępne dla mas, niewielu musiało słyszeć nazwisko Sebastiana Thruna. Znany powszechnie jako Ojciec Samojezdnych Samochodów, Thrun wygrał konkurs na autonomiczne pojazdy organizowany przez Pentagon w 2005 roku. Zanim odszedł, aby rozpocząć Udacity i uczynić edukację bardziej dostępną dla tłumów, założył i prowadził projekt Google Driverless Car. Jego przygoda z robotyką rozpoczęła się jednak dużo wcześniej, kiedy w 1997 roku stworzył pierwszego robota-przewodnika dla Deutsches Museum Bonn. Był również związany z wieloma wiodącymi laboratoriami AI, takimi jak te w CMU i Stanford.

Andrzej Ng

Zarówno społeczność open-source, jak i naukowcy zajmujący się danymi, tacy jak Andrew Ng (współzałożyciel Coursera), wnieśli ogromny wkład w udostępnienie nauki o danych masom. Google udostępnił TensorFlow bezpłatnie w 2015 roku, a Facebook poszedł w jego ślady z PyTorch w 2016 roku. Niestandardowe biblioteki w językach takich jak Python (takie jak Scikit Learn i Pandas) sprawiły, że rozpoczęcie pracy dla każdego jest niezwykle łatwe w ciągu kilku godzin).

Kursy takie jak Andrew pomogły osobom, które nie mają wykształcenia matematycznego, poznać sposób działania algorytmów AI. Istnieją również strony internetowe, takie jak Kaggle i GitHub, dzięki którym problemy AI, zbiory danych i rozwiązania są łatwo dostępne dla każdego w Internecie.

A droga naprzód…

Właśnie omówiliśmy niektóre z największych projektów badawczych, naukowców i pedagogów, którzy wnieśli wkład w dziedzinę Data Science, ale co dalej? Jakie narzędzia powinny odgrywać większą rolę? Na jakich problemach skupi się społeczność Data Science? W jaki sposób firmy próbują wykorzystać wszystkie te badania i odkrycia do podejmowania decyzji opartych na danych? Aby poznać odpowiedzi na te pytania, trzeba przyjrzeć się najnowszym trendom w tej dziedzinie –

Wykorzystanie infrastruktury chmury do przetwarzania danych

Gromadzenie danych rośnie z każdym rokiem. Firmy dodały nowe źródła, takie jak źródła zewnętrzne lub dane z mediów społecznościowych. Jednak wyzwanie polega na czyszczeniu, normalizacji, przetwarzaniu i formatowaniu tak ogromnych zbiorów danych. Ponieważ wiele z tych źródeł generuje częściowo lub nieustrukturyzowane dane, ich przetwarzanie wymaga więcej zasobów. Uruchamianie algorytmów na nawet danych testowych może okazać się dużym wyzwaniem na lokalnych komputerach (laptopach).

To jest powód, dla którego dostawcy usług w chmurze, tacy jak AWS, widzieli, jak ich firmy urosły do ​​miliardów dolarów. Usługi w chmurze, takie jak AWS S3, zapewniają wyjątkowo tanie usługi do zapisywania danych. Są to również jedne z pierwszych usług w chmurze, które powstały. Przechowywanie danych to dopiero początek, nowsze usługi zajmujące się przetwarzaniem i formatowaniem również znalazły większe zastosowanie. Obecnie inżynierowie danych, którzy potrafią obliczać i tworzyć wydajną infrastrukturę dla systemów opartych na danych, są bardziej poszukiwani w porównaniu do analityków danych.

Wszystko to zmieniło sposób, w jaki firmy korzystają z Big Data i usług w chmurze. Same dane są oferowane jako usługa przez dostawców DaaS (Data as a Service), takich jak PromptCloud. Usługi te umożliwiają firmom dostęp do danych stron trzecich lub danych konkurencji poprzez określenie stron internetowych, z których potrzebują danych do przeszukania, oraz wymaganych punktów danych.

Internet przedmiotów

Chociaż Internet Rzeczy nie jest nowy, dopiero teraz coraz więcej urządzeń fizycznych komunikuje się ze sobą. Do chmury jest podłączonych więcej urządzeń niż kiedykolwiek wcześniej, które gromadzą i udostępniają wszystkie dane zebrane za pośrednictwem swoich czujników.

Umożliwia to nowe rozwiązania, takie jak zdalna diagnostyka maszyn. Rozwiązania programowe mogą wykorzystywać dane z czujników, aby określić przybliżoną żywotność różnych części i akcesoriów. Dane pomagają powiadamiać osoby, gdy system może przestać działać. Ponieważ zbieranych jest więcej danych, a głębokie uczenie działa swoją magią, będziemy wykorzystywać więcej danych do tworzenia lepszych prognoz dotyczących maszyn podłączonych do IoT. Prawdopodobnie zaobserwujemy również większe wykorzystanie IoT na poziomie przemysłowym, z wyjątkiem robotów w magazynach, które rozkwitły w ciągu ostatnich kilku lat.

Potężniejsze przetwarzanie języka naturalnego

Podzbiór sztucznej inteligencji, NLP zajmuje się ludzkim językiem. To właśnie napędza Siri lub Alexę. Zajmuje się tym, jak języki są używane w czasie rzeczywistym, zamiast skupiać się tylko na składzie gramatycznym. Oczekuje się, że firmy będą wykorzystywać najnowsze odkrycia w dziedzinie NLP w nowszych produktach, aby umożliwić użytkownikom łatwiejszą interakcję z maszynami i oprogramowaniem. Niedaleko od nas dzień, w którym będziesz rozmawiał ze swoim komputerem, a on będzie wykonywał za Ciebie zadania.

Opieka zdrowotna

Uczenie maszynowe i nauka o danych wywarły duży wpływ na nauki medyczne. Zastosowaliśmy go do rozwiązywania problemów takich jak wykrywanie cukrzycy, identyfikacja komórek nowotworowych, radiologia i patologia. Badanie przeprowadzone przez Stanford wykazało, że sztuczna inteligencja może identyfikować raka skóry równie dobrze jak lekarze.

W nadchodzącym dziesięcioleciu wiele prac badawczych i artykułów zostanie wykorzystanych w praktyce. Możemy spodziewać się wielu przełomów –

  • Identyfikacja i przewidywanie chorób jeszcze przed ich wystąpieniem.
  • Maszyny mogą przetwarzać obrazy medyczne wydajniej niż ludzie.
  • Przewidywanie epidemii, takich jak COVID-19.
  • Smarter Health rejestruje i śledzi na wiele sposobów, takich jak smartwatche.

Dystans, który pokonaliśmy, jest ogromny! Możemy wykonać obliczenia, które wymagają maszyn, które wypełniłyby całe pomieszczenie, na chipie wielkości paznokcia u nogi. Postęp w produkcji chipów, a także szybsze prędkości Internetu i transferu danych bezpośrednio przyczyniły się do rozwoju nauki o danych i jej rzeczywistych zastosowań. Przyszłość nauki o danych będzie zależeć od wielu sektorów i organizacji, a demokratyczna nauka o danych stworzy równe pole dla wszystkich.