Techniques d'apprentissage automatique supervisées vs non supervisées - PromptCloud

Publié: 2017-10-21
Table des matières afficher
Techniques de ML supervisées et non supervisées
Apprentissage automatique supervisé
Régression linéaire
Forêt aléatoire
Soutenir les machines vectorielles
Apprentissage automatique non supervisé
K-means Clustering
Algorithme a priori
Conclusion

Apprentissage supervisé vs non supervisé :

Découvrir des modèles à partir de données en utilisant des algorithmes intelligents est généralement le concept de base de l'apprentissage automatique. Ces découvertes conduisent souvent à des informations exploitables, à la prédiction de diverses tendances et aident les entreprises à acquérir un avantage concurrentiel ou parfois même à propulser des produits nouveaux et innovants. Nous avions récemment expliqué le concept d'apprentissage automatique et comment former un algorithme d'apprentissage automatique dans ce billet de blog . Comme nous n'avons pas approfondi les différents types d'algorithmes ML et leur fonctionnement, nous avons créé cet article, où nous expliquerons les classifications des algorithmes d'apprentissage automatique en fonction de la façon dont ils "apprennent" à faire des prédictions.

Algorithmes d'apprentissage automatique supervisés et non supervisés

À un niveau élevé, il existe deux grands types de techniques d'apprentissage automatique - supervisé et non supervisé. Regardons comment ils sont différents les uns des autres.

Techniques de ML supervisées et non supervisées

Comme nous l'avons mentionné précédemment, les techniques de ML supervisées et non supervisées représentent la "façon" dont un algorithme d'apprentissage automatique apprend à faire des prédictions.

Dans l'apprentissage supervisé, le créateur de l'algorithme ML a une sortie bien définie qui est attendue de la machine. L'entrée et sa sortie respective sont prédéfinies et l'algorithme ML apprend seulement à perfectionner l'art de donner une sortie basée sur l'entrée avec une plus grande précision au fil du temps.

L'apprentissage supervisé, c'est aussi comme apprendre avec un enseignant. L'enseignant, dans ce cas, est l'ensemble de données de formation fourni au système d'apprentissage automatique.

Tout en apprenant avec un enseignant, on dit à l'élève ce qui représente quoi. Par exemple, vous pouvez enseigner à un enfant les caractéristiques distinctes d'un chien qui l'aident à le distinguer des autres animaux, telles que :

  • Forme de leurs visages (Long)
  • Comment ils sonnent (Bark)
  • Taille corporelle (petite à moyenne)
  • Autres traits spécifiques (les chiens remuent souvent la queue)

Avec ces données, l'enfant devrait être capable d'identifier différentes races de chiens. Chaque fois qu'il repère une race de chien nouvelle et inconnue, les traits à rechercher sont mis à jour avec plus de données. Par exemple, un carlin n'a pas un long visage comme la plupart des autres races de chiens, mais c'est un chien. Il s'agit d'un apprentissage supervisé puisque nous avons d'abord donné à l'enfant un ensemble de traits à rechercher et il l'a simplement perfectionné avec l'expérience.

Cependant, dans le cas d'un apprentissage non supervisé, l'enfant est seul. Il est simplement présenté avec divers animaux sans aucun indice sur ce qui est quoi. Il apprend à identifier différents animaux en les regroupant sur la base des traits observés. Il s'agit en un mot d'apprentissage automatique non supervisé.

En termes simples, l'apprentissage supervisé est un apprentissage automatique basé sur des données avec des résultats attendus, tandis que dans le cas d'un apprentissage automatique non supervisé, le système ML apprend à identifier des modèles à partir des données par lui-même.

Apprentissage automatique supervisé

La plupart des applications pratiques de l'apprentissage automatique utilisent l'apprentissage supervisé. Dans l'apprentissage supervisé, vous définissez la variable d'entrée (x) et la variable de sortie (Y) et activez un algorithme pour apprendre à mapper l'entrée à la sortie.

Cela peut être défini comme Y = f(X)

L'idée est de rendre la machine parfaite à ce mappage afin qu'elle puisse prédire avec précision les variables de sortie (Y) pour toute nouvelle donnée d'entrée que vous lui lancez. L'algorithme ralentit l'activité d'apprentissage lorsqu'il atteint un niveau de précision acceptable.

L'apprentissage supervisé peut en outre être regroupé en problèmes de classification et de régression :

Classification : Un problème de classification aurait une variable de sortie qui est une catégorie, comme grand, petit, moyen ou « rouge » ou « vert ».

Régression : Dans un problème de régression, la variable de sortie est une valeur réelle, telle que « kilogrammes » ou « dollars ».

Certains des algorithmes d'apprentissage automatique supervisés populaires sont :

Régression linéaire

Les algorithmes de régression sont principalement destinés à détecter les dépendances statistiques entre les variables numériques. Le modèle de régression linéaire essaie essentiellement de trouver la meilleure approximation linéaire pour la représentation de vos données. Lorsque cette approximation est réussie, vous pouvez facilement prédire les valeurs de la variable dépendante pour n'importe quelle valeur de la variable indépendante. De cette façon, l'algorithme peut être utilisé pour déterminer la dépendance entre deux colonnes numériques quelconques dans votre ensemble de données d'entrée. Par exemple, vous pouvez utiliser la régression linéaire pour prédire les ventes de l'année à venir en utilisant des données historiques comme entrée ou projeter le nombre de personnes qui visiteraient votre site Web en fonction des tendances saisonnières.

Forêt aléatoire

Random Forest est à peu près comme le couteau suisse de tous les algorithmes de science des données. Sur une note plus légère, lorsque vous ne pouvez pas penser à un algorithme particulier pour votre problème, optez pour la forêt aléatoire. Random Forest est un autre exemple d'algorithme d'apprentissage automatique supervisé utilisé pour regrouper des points de données dans des groupes fonctionnels. Ceci est particulièrement utile pour les grands ensembles de données avec un nombre élevé de variables car il devient difficile de regrouper manuellement les données en prenant en compte toutes les variables.

En raison de sa nature polyvalente, cet algorithme d'apprentissage automatique peut être utilisé à la fois pour des tâches de régression et de classification. Il peut également gérer les méthodes de réduction dimensionnelle, traiter les valeurs manquantes, les valeurs aberrantes et de nombreuses autres méthodes d'exploration de données. Random Forest est une méthode d'apprentissage d'ensemble dans laquelle un groupe de modèles faibles est combiné pour agir comme un modèle fort.

Soutenir les machines vectorielles

Support Vector Machines est un autre algorithme d'apprentissage automatique supervisé qui peut être utilisé pour des problèmes de régression ou de classification. Dans SVM, chaque élément de données est tracé sous la forme d'un point dans un espace à n dimensions (n ​​est le nombre de caractéristiques dont vous disposez), la valeur de chaque caractéristique étant la valeur d'une coordonnée particulière. La classification est alors effectuée en identifiant l'hyper-plan qui distingue le mieux les deux classes.

SVM est généralement utilisé pour les tâches impliquant la classification de texte, telles que la détection de spam, l'analyse des sentiments et l'attribution de catégories. Il est également utile dans les projets de reconnaissance d'images où la classification basée sur la couleur et la reconnaissance basée sur l'aspect sont les aspects vitaux. Une autre application notable est la reconnaissance des chiffres manuscrits, qui est utile pour automatiser les services postaux.

Apprentissage automatique non supervisé

Dans l'apprentissage automatique non supervisé, il n'y a que les données d'entrée (X) et aucune variable de sortie correspondante n'est définie. L'idée ici est de révéler la distribution ou la structure sous-jacente des données sans imposer de restrictions au modèle. Dans les modèles d'apprentissage automatique non supervisé, il n'y a pas de bonnes réponses, tout comme il n'y a pas d'enseignant. Les algorithmes sont laissés à eux-mêmes pour découvrir et présenter des structures intéressantes dans les données.

L'apprentissage non supervisé peut en outre être regroupé en problèmes de clustering et d'association :

Regroupement : dans un défi de regroupement, vous essayez essentiellement de découvrir les regroupements sous-jacents dans les données, tels que le regroupement des clients en fonction de leur comportement d'achat.

Association : Dans un problème d'association, le but est d'identifier les règles qui définissent de grandes parties des données, comme les personnes qui ont acheté des iPhones ont également tendance à acheter des batteries.

Des exemples populaires d'algorithmes non supervisés sont :

K-means Clustering

Le clustering K-means est un algorithme d'apprentissage automatique non supervisé qui est utilisé dans des situations où les données dont vous disposez ne sont pas étiquetées (données avec des groupes ou des catégories non définis). L'algorithme est destiné à identifier les groupes dans les données où le nombre de groupes est désigné par la variable K. K-means fonctionne en attribuant chaque point de données à l'un des K groupes en fonction des fonctionnalités fournies. Il procède ensuite au regroupement des points de données en fonction de leur similarité de caractéristiques.

En termes simples, le clustering K-means révèle des groupes indéfinis à partir de données non étiquetées. Ceci est particulièrement utile pour confirmer les hypothèses commerciales à partir d'ensembles de données volumineux et complexes. Une fois l'algorithme exécuté et les groupes définis, de nouveaux points de données peuvent facilement être ajoutés au groupe approprié.

Algorithme a priori

Apriori est un algorithme de machine classique non supervisé utilisé pour extraire des règles d'association et des ensembles d'éléments pertinents. Il est idéal pour être déployé sur une base de données avec un grand nombre de transactions telles que des articles achetés par des clients dans un magasin.

Le principe a priori réduirait le nombre d'itemsets à examiner. Le principe stipule que si un itemset n'est pas fréquent, aucun de ses sous-ensembles ne sera fréquent non plus. L'algorithme apriori, étant exceptionnellement bon pour l'apprentissage automatique basé sur des règles d'association, est largement utilisé par les entreprises de vente au détail.

Les résultats intéressants de l'apprentissage basé sur les règles d'association peuvent être compris à partir de l'histoire des couches de bière. Un magasin de détail a analysé ses données pour découvrir que les jeunes hommes américains qui ont acheté des couches le vendredi après-midi ont également tendance à acheter de la bière. Ils sont ensuite allés de l'avant et ont placé l'île à bière près de l'île aux couches et, comme prévu, les ventes de bière ont augmenté.

Cela indique probablement qu'élever des enfants peut être épuisant et que les parents se sont imprudemment tournés vers la bière pour soulager leur stress. Quoi qu'il en soit, cette histoire est un exemple parfait des règles d'association en apprentissage automatique.

Conclusion

L'apprentissage automatique aide les entreprises à atteindre des niveaux d'efficacité sans précédent et ouvre la voie à de nouvelles innovations technologiques. Étant donné que les données disponibles sur le Web augmentent en quantité et en qualité à chaque minute qui passe, on peut faire confiance aux technologies d'apprentissage automatique pour découvrir des informations révolutionnaires à partir de ces ensembles de données. Si vous cherchez à libérer le véritable potentiel des données à votre disposition, vous familiariser avec ces techniques d'apprentissage automatique s'avérera impératif.