Nadzorowane i nienadzorowane techniki uczenia maszynowego — PromptCloud
Opublikowany: 2017-10-21Uczenie nadzorowane a uczenie nienadzorowane:
Odkrywanie wzorców z danych za pomocą inteligentnych algorytmów jest ogólnie podstawową koncepcją uczenia maszynowego. Te odkrycia często prowadzą do praktycznych spostrzeżeń, przewidywania różnych trendów i pomagają firmom uzyskać przewagę konkurencyjną, a czasem nawet napędzać nowe i innowacyjne produkty. Niedawno w tym poście na blogu wyjaśniliśmy koncepcję uczenia maszynowego i sposobu trenowania algorytmu uczenia maszynowego . Ponieważ nie zagłębiliśmy się w różne typy algorytmów uczenia maszynowego i ich działanie, przygotowaliśmy ten post, w którym wyjaśnimy klasyfikacje algorytmów uczenia maszynowego na podstawie sposobu, w jaki „uczą się” przewidywania.

Na wysokim poziomie istnieją dwa ogólne rodzaje technik uczenia maszynowego – nadzorowane i nienadzorowane. Przyjrzyjmy się, jak się od siebie różnią.
Nadzorowane i nienadzorowane techniki ML
Jak wspomnieliśmy wcześniej, nadzorowane i nienadzorowane techniki uczenia maszynowego reprezentują sposób, w jaki algorytm uczenia maszynowego uczy się dokonywać prognoz.
W uczeniu nadzorowanym twórca algorytmu ML ma dobrze zdefiniowane dane wyjściowe, których oczekuje się od maszyny. Dane wejściowe i odpowiadające im dane wyjściowe są wstępnie zdefiniowane, a algorytm ML uczy się tylko doskonalić sztukę dostarczania danych wyjściowych w oparciu o dane wejściowe z większą dokładnością w czasie.
Nauka nadzorowana jest również jak nauka z nauczycielem. Nauczyciel jest w tym przypadku zbiorem danych szkoleniowych dostarczonych do systemu uczenia maszynowego.
Podczas nauki z nauczycielem uczeń dowiaduje się, co reprezentuje co. Na przykład możesz nauczyć dziecko charakterystycznych cech psa, które pomogą odróżnić go od innych zwierząt, takich jak:
- Kształt ich twarzy (długi)
- Jak brzmią (Kora)
- Rozmiar ciała (od małego do średniego)
- Inne specyficzne cechy (psy często machają ogonem)
Dzięki tym danym dziecko powinno być w stanie zidentyfikować różne rasy psów. Za każdym razem, gdy zauważy nową i nieznaną rasę psa, cechy, których szuka, są aktualizowane o więcej danych. Na przykład mops nie ma długiej twarzy, jak większość psów innych ras, ale jest psem. Jest to nauka nadzorowana, ponieważ po raz pierwszy daliśmy dziecku zestaw cech, których należy szukać, a on po prostu udoskonalił go dzięki doświadczeniu.
Jednak w przypadku nauki bez nadzoru dziecko jest zdane na siebie. Jest po prostu przedstawiany z różnymi zwierzętami bez żadnych wskazówek, co jest czym. Uczy się rozpoznawać różne zwierzęta, grupując je na podstawie obserwowanych cech. Jest to w skrócie nienadzorowane uczenie maszynowe.
Mówiąc najprościej, uczenie nadzorowane to uczenie maszynowe oparte na danych z oczekiwanymi wynikami, podczas gdy w przypadku uczenia maszynowego nienadzorowanego system ML uczy się samodzielnie identyfikować wzorce z danych.
Nadzorowane uczenie maszynowe
Większość praktycznych zastosowań uczenia maszynowego wykorzystuje uczenie nadzorowane. W uczeniu nadzorowanym definiujesz zmienną wejściową (x) i zmienną wyjściową (Y) i włączasz algorytm, aby nauczył się mapować wejście do wyjścia.
Można to zdefiniować jako Y = f(X)
Chodzi o to, aby maszyna była perfekcyjna w tym mapowaniu, aby mogła dokładnie przewidywać zmienne wyjściowe (Y) dla wszelkich nowych danych wejściowych, które do niej wrzucisz. Algorytm spowalnia czynność uczenia się, gdy osiąga akceptowalny poziom dokładności.
Uczenie nadzorowane można dalej podzielić na problemy klasyfikacji i regresji:
Klasyfikacja : Problem klasyfikacji miałby zmienną wyjściową, która jest kategorią, taką jak duża, mała, średnia lub „czerwona” lub „zielona”.
Regresja : w zadaniu regresji zmienna wyjściowa jest wartością rzeczywistą, taką jak „kilogramy” lub „dolary”.
Niektóre z popularnych nadzorowanych algorytmów uczenia maszynowego to:
Regresja liniowa
Algorytmy regresji są przeznaczone przede wszystkim do wykrywania statystycznych zależności między zmiennymi liczbowymi. Model regresji liniowej zasadniczo próbuje znaleźć najlepsze przybliżenie liniowe dla reprezentacji danych. Gdy to przybliżenie się powiedzie, można łatwo przewidzieć wartości zmiennej zależnej dla dowolnej wartości zmiennej niezależnej. W ten sposób algorytm może służyć do określania zależności między dowolnymi dwiema kolumnami liczbowymi w wejściowym zestawie danych. Na przykład możesz użyć regresji liniowej, aby przewidzieć sprzedaż w nadchodzącym roku, używając danych historycznych jako danych wejściowych lub prognozując liczbę osób, które odwiedzą Twoją witrynę na podstawie trendów sezonowych.

Losowy las
Random Forest przypomina szwajcarski scyzoryk wszystkich algorytmów analizy danych. Mówiąc prościej, kiedy nie możesz wymyślić konkretnego algorytmu dla swojego problemu, wybierz losowy las. Random Forest to kolejny przykład nadzorowanego algorytmu uczenia maszynowego używanego do grupowania punktów danych w grupy funkcjonalne. Jest to szczególnie przydatne w przypadku dużych zestawów danych z dużą liczbą zmiennych, ponieważ trudno jest ręcznie grupować dane, biorąc pod uwagę wszystkie zmienne.
Ze względu na swoją wszechstronność, ten algorytm uczenia maszynowego może być używany zarówno do zadań regresji, jak i klasyfikacji. Może również obsługiwać metody redukcji wymiarów, leczyć brakujące wartości, wartości odstające i wiele innych metod eksploracji danych. Random Forest to zespołowa metoda uczenia się, w której grupa słabych modeli łączy się, aby działały jako silny model.
Wsparcie maszyn wektorowych
Support Vector Machines to kolejny nadzorowany algorytm uczenia maszynowego, który można wykorzystać do rozwiązywania problemów z regresją lub klasyfikacją. W SVM każdy element danych jest wykreślany jako punkt w przestrzeni n-wymiarowej (n to liczba posiadanych cech), przy czym wartość każdej cechy jest wartością określonej współrzędnej. Klasyfikacja jest następnie przeprowadzana poprzez identyfikację hiperpłaszczyzny, która najlepiej odróżnia te dwie klasy.
SVM jest zwykle używany do zadań obejmujących klasyfikację tekstu, takich jak wykrywanie spamu, analiza tonacji i przypisywanie kategorii. Jest również przydatny w projektach rozpoznawania obrazu, w których klasyfikacja oparta na kolorach i rozpoznawanie oparte na aspektach są kluczowymi aspektami. Inną godną uwagi aplikacją jest rozpoznawanie odręcznych cyfr, co jest przydatne w automatyzacji usług pocztowych.
Nienadzorowane uczenie maszynowe
W nienadzorowanym uczeniu maszynowym istnieją tylko dane wejściowe (X) i nie są zdefiniowane odpowiednie zmienne wyjściowe. Chodzi o to, aby ujawnić podstawową dystrybucję lub strukturę danych bez nakładania ograniczeń na model. W nienadzorowanych modelach uczenia maszynowego nie ma poprawnych odpowiedzi, tak jak nie ma nauczyciela. Algorytmy są pozostawione samym sobie, aby odkryć i zaprezentować interesujące struktury w danych.
Uczenie nienadzorowane można dalej pogrupować według problemów związanych z grupowaniem i asocjacjami:
Grupowanie : w wyzwaniu grupowania zasadniczo próbujesz odkryć podstawowe grupowania w danych, takie jak grupowanie klientów według ich zachowań zakupowych.
Asocjacja : w przypadku problemu z asocjacjami celem jest identyfikacja reguł definiujących duże porcje danych, na przykład osoby, które kupiły iPhone'y, mają również tendencję do kupowania pakietów baterii.
Popularne przykłady nienadzorowanych algorytmów to:
Klastrowanie K-średnich
Klastrowanie K-means to nienadzorowany algorytm uczenia maszynowego, który jest używany w sytuacjach, gdy dane, które posiadasz, są nieoznaczone (dane z niezdefiniowanymi grupami lub kategoriami). Algorytm jest przeznaczony do identyfikacji grup w danych, w których liczba grup jest oznaczona zmienną K. K-średnie działa poprzez przypisanie każdego punktu danych do jednej z K grup na podstawie dostarczonych cech. Następnie przystępuje do grupowania punktów danych na podstawie ich podobieństwa cech.
Mówiąc najprościej, grupowanie K-średnich ujawnia niezdefiniowane grupy z nieoznakowanych danych. Jest to szczególnie przydatne przy potwierdzaniu założeń biznesowych na podstawie dużych i złożonych zbiorów danych. Po uruchomieniu algorytmu i zdefiniowaniu grup można łatwo dodać nowe punkty danych do właściwej grupy.
Algorytm apriori
Apriori to klasyczny algorytm nienadzorowanej maszyny używany do wyszukiwania odpowiednich reguł asocjacyjnych i zestawów przedmiotów. Idealnie nadaje się do wdrożenia w bazie danych z dużą liczbą transakcji, takich jak przedmioty kupowane przez klientów w sklepie.
Zasada apriori zmniejszyłaby liczbę zestawów przedmiotów, które należy zbadać. Zasada mówi, że jeśli zestaw przedmiotów nie jest częsty, żaden z jego podzbiorów też nie będzie częsty. Algorytm apriori, który jest wyjątkowo dobry dla uczenia maszynowego opartego na regułach asocjacyjnych, jest szeroko stosowany przez firmy detaliczne.
Ciekawe wyniki uczenia się opartego na zasadach skojarzeń można zrozumieć z historii pieluch piwnych. Sklep detaliczny przeanalizował ich dane, aby stwierdzić, że młodzi Amerykanie, którzy kupowali pieluchy w piątek po południu, również kupują piwo. Następnie poszli naprzód i umieścili wyspę piwa blisko wyspy pieluch i zgodnie z oczekiwaniami sprzedaż piwa wzrosła.
To prawdopodobnie wskazuje, że wychowywanie dzieci może być wyczerpujące, a rodzice nierozważnie sięgają po piwo, aby złagodzić stres. W każdym razie ta historia jest doskonałym przykładem reguł asocjacyjnych w uczeniu maszynowym.
Wniosek
Uczenie maszynowe pomaga firmom osiągnąć niespotykany dotąd poziom wydajności i toruje drogę dla nowych innowacji technologicznych. Ponieważ ilość i jakość danych dostępnych w sieci rośnie z każdą minutą, technologiom uczenia maszynowego można zaufać w odkrywaniu przełomowych informacji z tych zbiorów danych. Jeśli chcesz odblokować prawdziwy potencjał danych, którymi dysponujesz, zapoznanie się z tymi technikami uczenia maszynowego okaże się konieczne.
