Cosa succede tra l'estrazione e la visualizzazione dei dati

Pubblicato: 2017-08-08
Mostra il sommario
Tecniche di pre-elaborazione dei dati
Pulizia dei dati
Normalizzazione dei dati
Trasformazione dei dati
Assegnazione valori mancanti
Identificazione del rumore
Ridurre al minimo le attività di pre-elaborazione

I big data hanno mostrato una crescita fenomenale negli ultimi dieci anni e la loro diffusa applicazione da parte delle aziende come catalizzatore della crescita continua a fornire risultati positivi. La scala dei dati è enorme e il volume, la velocità e la varietà dei dati richiedono un'elaborazione più efficiente per renderli pronti per la macchina. Sebbene esistano molti modi per estrarre dati come API pubbliche, servizi di scraping web personalizzati , origini dati interne e così via, rimarrebbe sempre la necessità di eseguire un po' di pre-elaborazione per rendere i dati perfettamente adatti alle applicazioni aziendali.

pre-elaborazione dei dati

La pre-elaborazione dei dati comporta una serie di attività chiave che richiedono un'ampia infrastruttura computazionale e questo a sua volta consentirà di ottenere risultati migliori dalla tua strategia per i big data. Inoltre, la pulizia dei dati determinerebbe l'affidabilità della tua analisi e questo dovrebbe avere un'alta priorità durante il tracciamento della tua strategia per i dati.

Tecniche di pre-elaborazione dei dati

Poiché i dati estratti tendono ad essere imperfetti con ridondanze e imperfezioni, le tecniche di pre-elaborazione dei dati sono una necessità assoluta. Più grandi sono i set di dati, più complessi sono i meccanismi necessari per elaborarli prima dell'analisi e della visualizzazione . La pre-elaborazione prepara i dati e rende fattibile l'analisi migliorando l'efficacia dei risultati. Di seguito sono riportati alcuni dei passaggi cruciali coinvolti nella pre-elaborazione dei dati.

Pulizia dei dati

La pulizia dei dati è solitamente il primo passaggio nell'elaborazione dei dati e viene eseguita per rimuovere gli elementi indesiderati e per ridurre le dimensioni dei set di dati, il che renderà più semplice l'analisi degli algoritmi. La pulizia dei dati viene in genere eseguita utilizzando tecniche di riduzione delle istanze.

La riduzione delle istanze aiuta a ridurre le dimensioni del set di dati senza compromettere la qualità delle informazioni che possono essere estratte dai dati. Rimuove le istanze e ne genera di nuove per rendere compatto il set di dati. Esistono due principali algoritmi di riduzione delle istanze:

Selezione dell'istanza: la selezione dell'istanza viene utilizzata per identificare i migliori esempi da un set di dati molto ampio con molte istanze al fine di curarli come input per il sistema di analisi. Mira a selezionare un sottoinsieme di dati che può fungere da sostituto del set di dati originale soddisfacendo completamente l'obiettivo. Rimuoverà anche le istanze ridondanti e il rumore.

Generazione di istanze: i metodi di generazione di istanze implicano la sostituzione dei dati originali con dati generati artificialmente al fine di riempire le regioni nel dominio di un problema senza esempi rappresentativi nei dati anagrafici. Un approccio comune consiste nel rietichettare gli esempi che sembrano appartenere a etichette di classe sbagliate. La generazione dell'istanza rende così i dati puliti e pronti per l'algoritmo di analisi.

Strumenti che puoi utilizzare: Drake , DataWrangler , OpenRefine

Normalizzazione dei dati

La normalizzazione migliora l'integrità dei dati regolando le distribuzioni. In parole semplici, normalizza ogni riga per avere una norma unitaria. La norma è specificata dal parametro p che denota la norma p utilizzata. Alcuni metodi popolari sono:

StandardScaler: esegue la normalizzazione in modo che ogni funzione segua una distribuzione normale.

MinMaxScaler: utilizza due parametri per normalizzare ciascuna funzione a un intervallo specifico: limite superiore e inferiore.

ElementwiseProduct: utilizza un moltiplicatore scalare per ridimensionare ogni funzionalità.

Strumenti che puoi utilizzare: Analizzatore di tabelle , BDNA

Trasformazione dei dati

Se un set di dati è troppo grande nel numero di istanze o variabili predittive, sorge il problema della dimensionalità. Questo è un problema critico che ostacolerà il funzionamento della maggior parte degli algoritmi di data mining e aumenterà i costi di elaborazione. Esistono due metodi popolari per la trasformazione dei dati mediante riduzione della dimensionalità: selezione delle funzioni e trasformazione dello spazio.

Selezione delle funzionalità: è il processo di individuazione ed eliminazione di quante più informazioni non necessarie possibile. FS può essere utilizzato per ridurre significativamente la probabilità di correlazioni accidentali negli algoritmi di apprendimento che potrebbero degradare le loro capacità di generalizzazione. FS ridurrà anche lo spazio di ricerca occupato dalle funzionalità, rendendo così più veloce il processo di apprendimento e mining. L'obiettivo finale è ricavare un sottoinsieme di caratteristiche dal problema originale che lo descriva bene.

Trasformazioni spaziali: le trasformazioni spaziali funzionano in modo simile alla selezione delle funzioni. Tuttavia, invece di selezionare le caratteristiche preziose, la tecnica di trasformazione dello spazio creerà una nuova nuova serie di caratteristiche combinando gli originali. Questo tipo di combinazione può essere fatta per obbedire a determinati criteri. Le tecniche di trasformazione spaziale mirano infine a sfruttare le relazioni non lineari tra le variabili.

Strumenti che puoi usare: Talend , Pentaho

Assegnazione valori mancanti

Uno dei presupposti comuni con i big data è che il set di dati sia completo. In effetti, la maggior parte dei set di dati ha valori mancanti che vengono spesso trascurati. I valori mancanti sono datum che non sono stati estratti o memorizzati a causa di restrizioni di budget, un processo di campionamento errato o altre limitazioni nel processo di estrazione dei dati. I valori mancanti non sono qualcosa da ignorare in quanto potrebbero distorcere i risultati.

Risolvere il problema dei valori mancanti è impegnativo. Gestirlo senza la massima cura potrebbe facilmente portare a complicazioni nella gestione dei dati e conclusioni errate.

Esistono alcuni approcci relativamente efficaci per affrontare il problema dei valori mancanti. Scartare le istanze che potrebbero contenere valori mancanti è quello comune ma non è molto efficace in quanto potrebbe portare a errori nelle analisi statistiche. A parte questo, scartare le informazioni critiche non è una buona idea. Un metodo migliore e più efficace consiste nell'utilizzare procedure di massima verosimiglianza per modellare le funzioni di probabilità dei dati considerando anche i fattori che potrebbero aver indotto la mancanza. Le tecniche di apprendimento automatico sono finora la soluzione più efficace al problema dei valori mancanti.

Identificazione del rumore

La raccolta dei dati non è sempre perfetta, ma gli algoritmi di data mining presumerebbero sempre che lo fosse. I dati con rumore possono compromettere seriamente la qualità dei risultati, affrontare questo problema è fondamentale. Il rumore può influenzare le funzioni di input, output o entrambi nella maggior parte dei casi. Il rumore trovato nell'input è chiamato rumore di attributo mentre se il rumore si insinua nell'output, viene chiamato rumore di classe. Se è presente del rumore nell'uscita, il problema è molto serio e la distorsione nei risultati sarebbe molto alta.

Esistono due approcci popolari per rimuovere il rumore dai set di dati. Se il rumore ha influito sull'etichettatura delle istanze, vengono utilizzati metodi di lucidatura dei dati per eliminare il rumore. L'altro metodo prevede l'utilizzo di filtri di rumore in grado di identificare e rimuovere le istanze con rumore dai dati e ciò non richiede la modifica della tecnica di data mining.

Ridurre al minimo le attività di pre-elaborazione

La preparazione dei dati per l'algoritmo di analisi dei dati può coinvolgere molti più processi a seconda delle esigenze specifiche dell'applicazione. Tuttavia, i processi di base come la pulizia, la deduplicazione e la normalizzazione possono essere evitati nella maggior parte dei casi se si sceglie la giusta fonte per l'estrazione dei dati. È altamente improbabile che una fonte grezza possa fornirti dati puliti. Per quanto riguarda l'estrazione dei dati web, un servizio di scraping web gestito come PromptCloud può fornirti dati puliti e pronti per l'uso , pronti per essere collegati al tuo sistema di analisi. Poiché i dati forniti dalla nostra soluzione DaaS sono puliti, puoi risparmiare i tuoi migliori sforzi per le attività di elaborazione dei dati specifiche dell'applicazione.