Que se passe-t-il entre l'extraction de données et la visualisation ?
Publié: 2017-08-08Le Big Data a connu une croissance phénoménale au cours de la dernière décennie et son application généralisée par les entreprises en tant que catalyseur de croissance continue de donner des résultats positifs. L'échelle des données est énorme et le volume, la vitesse et la variété des données nécessitent un traitement plus efficace pour les rendre prêtes pour la machine. Bien qu'il existe une multitude de façons d'extraire des données telles que des API publiques, des services de grattage Web personnalisés , des sources de données internes, etc., il resterait toujours nécessaire d'effectuer un prétraitement pour rendre les données parfaitement adaptées aux applications métier.

Le prétraitement des données implique un ensemble de tâches clés qui exigent une infrastructure de calcul étendue, ce qui à son tour ouvrira la voie à de meilleurs résultats de votre stratégie Big Data. De plus, la propreté des données déterminerait la fiabilité de votre analyse et cela devrait être une priorité élevée lors de l'élaboration de votre stratégie de données.
Techniques de prétraitement des données
Étant donné que les données extraites ont tendance à être imparfaites avec des redondances et des imperfections, les techniques de prétraitement des données sont une nécessité absolue. Plus les ensembles de données sont volumineux, plus des mécanismes complexes sont nécessaires pour les traiter avant l'analyse et la visualisation . Le prétraitement prépare les données et rend l'analyse faisable tout en améliorant l'efficacité des résultats. Voici quelques-unes des étapes cruciales impliquées dans le prétraitement des données.
Nettoyage des données
Le nettoyage des données est généralement la première étape du traitement des données et est effectué pour supprimer les éléments indésirables ainsi que pour réduire la taille des ensembles de données, ce qui facilitera leur analyse par les algorithmes. Le nettoyage des données est généralement effectué à l'aide de techniques de réduction d'instance.
La réduction d'instance permet de réduire la taille de l'ensemble de données sans compromettre la qualité des informations pouvant être extraites des données. Il supprime les instances et en génère de nouvelles pour rendre l'ensemble de données compact. Il existe deux principaux algorithmes de réduction d'instance :
Sélection d' instance : la sélection d' instance est utilisée pour identifier les meilleurs exemples à partir d'un très grand ensemble de données avec de nombreuses instances afin de les conserver comme entrée pour le système d'analyse. Il vise à sélectionner un sous-ensemble de données pouvant remplacer l'ensemble de données d'origine tout en remplissant complètement l'objectif. Il supprimera également les instances redondantes et le bruit.
Génération d'instance : les méthodes de génération d'instance impliquent le remplacement des données d'origine par des données générées artificiellement afin de remplir les régions dans le domaine d'un problème sans exemples représentatifs dans les données de base. Une approche courante consiste à réétiqueter les exemples qui semblent appartenir à de mauvaises étiquettes de classe. La génération d'instance rend ainsi les données propres et prêtes pour l'algorithme d'analyse.
Outils que vous pouvez utiliser : Drake , DataWrangler , OpenRefine
Normalisation des données
La normalisation améliore l'intégrité des données en ajustant les distributions. En termes simples, il normalise chaque ligne pour avoir une norme unitaire. La norme est spécifiée par le paramètre p qui désigne la p-norme utilisée. Certaines méthodes populaires sont :
StandardScaler : effectue la normalisation afin que chaque entité suive une distribution normale.
MinMaxScaler : utilise deux paramètres pour normaliser chaque fonctionnalité dans une plage spécifique : limite supérieure et inférieure.
ElementwiseProduct : utilise un multiplicateur scalaire pour mettre à l'échelle chaque fonctionnalité.
Outils que vous pouvez utiliser : Analyseur de table , BDNA

Transformation des données
Si un ensemble de données est trop grand en nombre d'instances ou de variables prédictives, un problème de dimensionnalité se pose. Il s'agit d'un problème critique qui obstruera le fonctionnement de la plupart des algorithmes d'exploration de données et augmentera le coût du traitement. Il existe deux méthodes populaires de transformation des données par réduction de la dimensionnalité : la sélection des fonctionnalités et la transformation de l'espace.
Sélection des fonctionnalités : il s'agit du processus de détection et d'élimination d'autant d'informations inutiles que possible. FS peut être utilisé pour réduire considérablement la probabilité de corrélations accidentelles dans les algorithmes d'apprentissage qui pourraient dégrader leurs capacités de généralisation. FS réduira également l'espace de recherche occupé par les fonctionnalités, accélérant ainsi le processus d'apprentissage et d'exploration. Le but ultime est de dériver un sous-ensemble de caractéristiques du problème d'origine qui le décrit bien.
Transformations d'espace : les transformations d'espace fonctionnent de la même manière que la sélection d'entités. Cependant, au lieu de sélectionner les fonctionnalités précieuses, la technique de transformation de l'espace créera un nouvel ensemble de fonctionnalités en combinant les originaux. Ce genre de combinaison peut être fait pour obéir à certains critères. Les techniques de transformation spatiale visent finalement à exploiter des relations non linéaires entre les variables.
Outils utilisables : Talend , Pentaho
Imputation des valeurs manquantes
L'une des hypothèses courantes avec les mégadonnées est que l'ensemble de données est complet. En fait, la plupart des ensembles de données ont des valeurs manquantes qui sont souvent négligées. Les valeurs manquantes sont des données qui n'ont pas été extraites ou stockées en raison de restrictions budgétaires, d'un processus d'échantillonnage défectueux ou d'autres limitations dans le processus d'extraction des données. Les valeurs manquantes ne doivent pas être ignorées car elles pourraient fausser vos résultats.
Résoudre le problème des valeurs manquantes est un défi. Le manipuler sans le plus grand soin pourrait facilement entraîner des complications dans le traitement des données et des conclusions erronées.
Il existe des approches relativement efficaces pour résoudre le problème des valeurs manquantes. L'élimination des instances susceptibles de contenir des valeurs manquantes est la plus courante, mais elle n'est pas très efficace car elle pourrait entraîner des biais dans les analyses statistiques. En dehors de cela, rejeter des informations critiques n'est pas une bonne idée. Une méthode meilleure et plus efficace consiste à utiliser des procédures de maximum de vraisemblance pour modéliser les fonctions de probabilité des données tout en tenant compte des facteurs qui auraient pu induire l'absence. Les techniques d'apprentissage automatique sont jusqu'à présent la solution la plus efficace au problème des valeurs manquantes.
Identification du bruit
La collecte de données n'est pas toujours parfaite, mais les algorithmes d'exploration de données supposent toujours qu'elle l'est. Les données avec du bruit peuvent sérieusement affecter la qualité des résultats, il est crucial de s'attaquer à ce problème. Le bruit peut affecter les caractéristiques d'entrée, de sortie ou les deux dans la plupart des cas. Le bruit trouvé dans l'entrée est appelé bruit d'attribut alors que si le bruit se glisse dans la sortie, il est appelé bruit de classe. Si du bruit est présent dans la sortie, le problème est très grave et le biais dans les résultats serait très élevé.
Il existe deux approches populaires pour supprimer le bruit des ensembles de données. Si le bruit a affecté l'étiquetage des instances, des méthodes de polissage des données sont utilisées pour éliminer le bruit. L'autre méthode consiste à utiliser des filtres de bruit qui peuvent identifier et supprimer les instances avec du bruit des données et cela ne nécessite pas de modification de la technique d'exploration de données.
Minimiser les tâches de prétraitement
La préparation des données pour votre algorithme d'analyse de données peut impliquer de nombreux autres processus en fonction des exigences uniques de l'application. Cependant, les processus de base tels que le nettoyage, la déduplication et la normalisation peuvent être évités dans la plupart des cas si vous choisissez la bonne source d'extraction de données. Il est très peu probable qu'une source brute puisse vous fournir des données propres. En ce qui concerne l'extraction de données Web, un service de grattage Web géré comme PromptCloud peut vous fournir des données propres et prêtes à l'emploi , prêtes à être connectées à votre système d'analyse. Comme les données fournies par notre solution DaaS sont propres, vous pouvez économiser vos meilleurs efforts pour vos tâches de traitement de données spécifiques à l'application.
