Résoudre les problèmes d'apprentissage automatique

Publié: 2017-11-01
Table des matières afficher
Vous cherchez des options gratuites pour commencer ?
Quels facteurs doivent être pris en compte lors de la création d'un ensemble de données de formation en machine learning ?
Identification du type d'algorithme dans le développement
Identifier correctement « si » et « quand » Big Data est nécessaire
De conclure

Avec la trajectoire de croissance agressive de l'apprentissage automatique, de plus en plus de scientifiques des données se concentrent sur l'obtention de résultats pour imiter les applications pratiques du monde réel. Pour cela, ils s'appuient sur des ensembles de données de formation pour former leur modèle et mieux « apprendre ». Une fois cela fait, il est passé à travers des données réelles sur lesquelles il n'a pas été formé, à l'aide d'un ensemble de données de test. Par conséquent, l' ensemble de données d'apprentissage automatique correspond aux données pour lesquelles le MLP a été formé à l'aide de l'ensemble de données d'apprentissage.

Les ensembles de données de formation et de test tenteront de s'aligner sur des échantillons de population représentatifs. Cela garantit que les résultats seront universellement applicables à cet échantillon. C'est l' apprentissage automatique en un mot.

ce qu'il faut rechercher dans les données d'entraînement

Vous cherchez des options gratuites pour commencer ?

Si vous recherchez des sources de bases de données gratuites précieuses pour créer vos ensembles de données d'entraînement, les options ci-dessous peuvent être un excellent point de départ pour vous :

  1. UCI - Référentiel d'apprentissage automatique
  2. Iris par UCI [Il a 3 classes, 50 échantillons pour chaque classe totalisant 150 points de données ; bonne ressource pour les débutants]
  3. Kagglé
  4. Les ensembles de données ouverts aident à apprendre aux choses et aux robots à être intelligents et plus utiles
  5. Banc ML par R
  6. MIAS
  7. Mulane
  8. DataStock par PromptCloud

Quels facteurs doivent être pris en compte lors de la création d'un ensemble de données de formation en apprentissage automatique ?

1. La bonne quantité

Vous devez évaluer et avoir une réponse prête pour ces questions de base concernant la quantité de données :

  • Le nombre d'enregistrements à extraire des bases de données
  • La taille de l'échantillon nécessaire pour produire les résultats de performance attendus
  • La division des données pour la formation et les tests ou l'utilisation d'une approche alternative comme la validation croisée k-fold

2. L'approche du fractionnement des données

Vous avez besoin de données pour créer le modèle, et vous avez besoin de données pour tester le modèle. Il devrait y avoir une méthode pour diviser l'ensemble de données en ces deux parties. Vous pouvez opter pour une répartition aléatoire ou une répartition basée sur le temps. Dans ce dernier cas, la règle générale est que les données les plus anciennes sont destinées à la formation et les données les plus récentes aux tests. Certains ensembles de données nécessitent d'autres approches comme l'échantillonnage stratifié ou l'échantillonnage en grappes. Si vous n'êtes vraiment pas sûr, faites un petit pilote pour valider votre modèle, puis roulez-le à part entière dans tous les domaines.

3. L'histoire passée

De nombreux scientifiques des données ont déjà travaillé sur des problèmes dans le passé et ont proposé des ensembles de données de formation pour leurs besoins de modélisation spécifiques. Travailler sur des problèmes d'apprentissage automatique appliqué facilite non seulement l'obtention du bon ensemble de données, mais également la certitude des résultats attendus.

Vous pouvez vérifier les études qui ont des problèmes similaires à votre problème actuel et prendre les données pour une meilleure efficacité du processus de construction du modèle. Si vous avez la chance d'obtenir un grand nombre d'études similaires réalisées dans le passé, vous pouvez en faire la moyenne pour vos besoins de construction.

4. Expertise du domaine

La philosophie "Garbage In Garbage Out" est extrêmement valable pour l'ensemble de données de formation pour l'apprentissage automatique. L'algorithme d'apprentissage automatique apprendra quelles que soient les données que vous lui fournissez. Donc si les données fournies en entrée sont de bonne qualité, alors l'algorithme d'apprentissage développé sera également de bonne qualité. En règle générale, les échantillons dont vous vous servez doivent posséder deux qualités essentielles : l'indépendance et la distribution identique.

Et comment déterminez-vous si ce qui est entré est de bonne qualité ? Simple. Demandez à un expert en la matière de parcourir les données avec une paire d'yeux entraînés. Il sera en mesure d'évaluer si l'échantillon utilisé est adéquat, si l'échantillon est équitablement réparti et si l'échantillon est indépendant.

L'expert peut également aider à concevoir les données de manière à obtenir un plus grand pool sans compromettre les principes de base de la couverture et de l'applicabilité universelle. Il/elle peut également vous aider à simuler des données que vous ne possédez pas actuellement mais que vous souhaitez utiliser pour entraîner le programme d'apprentissage automatique.

5. Le bon type de transformation de données

Une fois que vous avez traité les données propres, vous pouvez les transformer en fonction de vos objectifs de formation en machine learning. L'expertise du domaine et les caractéristiques/fonctions de l'algorithme peuvent vous aider à déterminer le bon type de transformation à appliquer pour alimenter l'ensemble de données d'apprentissage. Cette étape de l'ingénierie des fonctionnalités aide à transformer les données en une donnée la mieux adaptée à un type d'analyse particulier. L'ingénierie des fonctionnalités peut comprendre un ou plusieurs des processus de transformation de données ci-dessous.

un. Mise à l' échelle – Normalement, un jeu de données traité aura des attributs qui utilisent une variété d'échelles pour des mesures telles que les poids (kilogrammes ou livres), la distance (kilomètres ou miles) ou la devise (dollars ou euros). Vous devrez réduire les variations d'échelle pour un bien meilleur résultat. Cette étape de mise à l'échelle des fonctionnalités aidera à mieux analyser les données.

b. Décomposition -Avec l'aide de la décomposition fonctionnelle, une variable complexe peut être divisée en niveau granulaire en ses parties constituantes. Ces composants individuels peuvent avoir des propriétés ou des caractéristiques inhérentes qui peuvent augmenter dans l'ensemble du processus de création d'apprentissage automatique. Il est donc important de se séparer pour atteindre ces caractéristiques. Cela aide à séparer le "bruit" des éléments ou composants qui nous intéressent réellement pour construire les ensembles de données d'entraînement. La façon dont une méthode de réseau bayésien essaie de diviser une distribution conjointe le long de sa ligne de faille causale est un exemple classique de décomposition au travail.

c. Agrégation - À l'extrême opposé de la décomposition se trouve la méthode d'agrégation. Il combine plusieurs variables présentant des attributs similaires en une seule entité plus grande. Pour certains ensembles de données d'apprentissage automatique, cela peut être un moyen plus judicieux de créer l'ensemble de données pour résoudre un problème particulier. Un exemple peut être la façon dont les réponses agrégées à l'enquête peuvent être suivies plutôt que d'examiner les réponses individuelles, pour résoudre un problème particulier grâce à l'apprentissage automatique.

Identification du type d'algorithme dans le développement

Vous pouvez opter pour un algorithme linéaire ou non linéaire. En connaissant le type d'algorithme que vous utilisez, vous serez en mesure de mieux évaluer le type et la quantité de données nécessaires à la construction de l'ensemble de données d'entraînement. Généralement, les algorithmes non linéaires sont considérés comme plus puissants. Ils sont capables de saisir et d'établir des connexions dans des relations non linéaires entre les entités d'entrée et de sortie.

En termes de structure globale, ces algorithmes non linéaires peuvent être plus flexibles et non paramétriques (ces algorithmes peuvent déterminer non seulement le nombre de paramètres requis, mais également déterminer les valeurs à présenter pour ces paramètres afin de mieux résoudre un problème d'apprentissage automatique spécifique). Puisqu'il est non linéaire, cela signifie qu'il peut afficher un degré élevé de variance, c'est-à-dire que les résultats de l'algorithme peuvent varier en fonction des données utilisées pour l'entraîner.

Cela signifie également qu'un algorithme non linéaire a besoin de beaucoup plus de volume de données dans l'ensemble de données d'apprentissage pour saisir les connexions et relations complexes entre les différentes entités analysées. La plupart des entreprises les plus connues sont intéressées par de tels algorithmes qui ne cessent de s'améliorer à mesure que de plus en plus de données sont entrées dans leur système.

Identifier correctement « si » et « quand » Big Data est nécessaire

Lorsque nous parlons de créer un ensemble de données de formation, nous devons évaluer intelligemment si du Big Data (très grand volume de données) est nécessaire. Si tel est le cas, à quel stade de la création de l'ensemble de données devrions-nous intégrer les mégadonnées ? En plus d'être coûteuse, l'introduction du Big Data peut avoir un impact significatif sur le délai de mise sur le marché de la construction de l'ensemble de données. Cependant, si cela est absolument inévitable, vous devez investir des ressources pour que le Big Data fasse partie de votre ensemble de données d'entraînement.

Un exemple classique sera lorsque vous effectuez une modélisation prédictive traditionnelle. En cela, vous pouvez atteindre un point de rendements décroissants où les rendements ne correspondront pas à la quantité de données que vous avez saisies. Vous aurez peut-être besoin de beaucoup plus de données pour surmonter cet obstacle. En évaluant soigneusement le modèle que vous avez choisi et votre problème spécifique, vous pouvez déterminer quand ce point arrivera et quand vous auriez besoin d'un volume de données beaucoup plus important.

De conclure

La création d'un ensemble de données d'entraînement détermine la qualité du modèle global d'apprentissage automatique. Grâce à ces facteurs, vous pouvez vous assurer que vous créez un ensemble de données d'apprentissage automatique hautes performances et que vous bénéficiez d'un modèle d'apprentissage automatique robuste, significatif et précis qui a " appris " d'un ensemble de données d'apprentissage aussi supérieur.

Vous souhaitez partager tout autre facteur majeur pouvant influencer la qualité de l'ensemble de données de formation pour l'apprentissage automatique ? Écrivez dans les commentaires ci-dessous et faites-nous part de vos réflexions.