Qué sucede entre la extracción de datos y la visualización
Publicado: 2017-08-08Big data ha mostrado un crecimiento fenomenal durante la última década y su aplicación generalizada por parte de las empresas como catalizador de crecimiento continúa brindando resultados positivos. La escala de datos es enorme y el volumen, la velocidad y la variedad de datos requieren un procesamiento más eficiente para que estén listos para la máquina. Aunque hay una multitud de formas de extraer datos, como API públicas, servicios de web scraping personalizados , fuentes de datos internas, etc., siempre existirá la necesidad de realizar un procesamiento previo para que los datos sean perfectamente adecuados para las aplicaciones comerciales.

El preprocesamiento de datos implica un conjunto de tareas clave que exigen una amplia infraestructura computacional y esto, a su vez, dará paso a mejores resultados de su estrategia de big data. Además, la limpieza de los datos determinaría la confiabilidad de su análisis y esto debe tener alta prioridad al trazar su estrategia de datos.
Técnicas de preprocesamiento de datos
Dado que los datos extraídos tienden a ser imperfectos con redundancias e imperfecciones, las técnicas de procesamiento previo de datos son una necesidad absoluta. Cuanto más grandes son los conjuntos de datos, más mecanismos complejos se necesitan para procesarlos antes del análisis y la visualización . El preprocesamiento prepara los datos y hace factible el análisis al mismo tiempo que mejora la efectividad de los resultados. Los siguientes son algunos de los pasos cruciales involucrados en el preprocesamiento de datos.
Limpieza de datos
La limpieza de los datos suele ser el primer paso en el procesamiento de datos y se realiza para eliminar los elementos no deseados, así como para reducir el tamaño de los conjuntos de datos, lo que facilitará el análisis de los algoritmos. La limpieza de datos generalmente se realiza mediante el uso de técnicas de reducción de instancias.
La reducción de instancias ayuda a reducir el tamaño del conjunto de datos sin comprometer la calidad de los conocimientos que se pueden extraer de los datos. Elimina instancias y genera otras nuevas para hacer que el conjunto de datos sea compacto. Hay dos algoritmos principales de reducción de instancias:
Selección de instancias: la selección de instancias se utiliza para identificar los mejores ejemplos de un conjunto de datos muy grande con muchas instancias para seleccionarlos como entrada para el sistema de análisis. Su objetivo es seleccionar un subconjunto de datos que pueda actuar como reemplazo del conjunto de datos original mientras se cumple completamente el objetivo. También eliminará las instancias redundantes y el ruido.
Generación de instancias : los métodos de generación de instancias implican reemplazar los datos originales con datos generados artificialmente para llenar regiones en el dominio de un problema sin ejemplos representativos en los datos maestros. Un enfoque común es volver a etiquetar los ejemplos que parecen pertenecer a etiquetas de clase incorrectas. La generación de instancias hace que los datos estén limpios y listos para el algoritmo de análisis.
Herramientas que puede usar: Drake , DataWrangler , OpenRefine
Normalización de datos
La normalización mejora la integridad de los datos ajustando las distribuciones. En palabras simples, normaliza cada fila para tener una norma de unidad. La norma se especifica mediante el parámetro p, que denota la norma p utilizada. Algunos métodos populares son:
StandardScaler: Realiza la normalización para que cada característica siga una distribución normal.
MinMaxScaler: utiliza dos parámetros para normalizar cada característica a un rango específico: límite superior e inferior.
ElementwiseProduct: utiliza un multiplicador escalar para escalar cada característica.

Herramientas que puede utilizar: analizador de tablas , BDNA
Transformación de datos
Si un conjunto de datos resulta ser demasiado grande en el número de instancias o variables predictoras, surge un problema de dimensionalidad. Este es un problema crítico que obstruirá el funcionamiento de la mayoría de los algoritmos de minería de datos y aumentará el costo de procesamiento. Hay dos métodos populares para la transformación de datos por reducción de dimensionalidad: selección de características y transformación de espacio.
Selección de características: es el proceso de detectar y eliminar tanta información innecesaria como sea posible. FS se puede utilizar para reducir significativamente la probabilidad de correlaciones accidentales en algoritmos de aprendizaje que podrían degradar sus capacidades de generalización. FS también reducirá el espacio de búsqueda ocupado por funciones, lo que agilizará el proceso de aprendizaje y minería. El objetivo final es derivar un subconjunto de características del problema original que lo describa bien.
Transformaciones de espacio: las transformaciones de espacio funcionan de manera similar a la selección de características. Sin embargo, en lugar de seleccionar las características valiosas, la técnica de transformación del espacio creará un nuevo conjunto de características al combinar las originales. Este tipo de combinación se puede hacer para obedecer ciertos criterios. Las técnicas de transformación espacial tienen como objetivo último explotar las relaciones no lineales entre las variables.
Herramientas que puede utilizar: Talend , Pentaho
Imputación de valores faltantes
Una de las suposiciones comunes con big data es que el conjunto de datos está completo. De hecho, la mayoría de los conjuntos de datos tienen valores faltantes que a menudo se pasan por alto. Los valores faltantes son datos que no se han extraído o almacenado debido a restricciones presupuestarias, un proceso de muestreo defectuoso u otras limitaciones en el proceso de extracción de datos. Los valores faltantes no son algo que se deba ignorar, ya que podrían sesgar los resultados.
Resolver el problema de los valores perdidos es un desafío. Manejarlo sin sumo cuidado podría conducir fácilmente a complicaciones en el manejo de datos y conclusiones erróneas.
Existen algunos enfoques relativamente efectivos para abordar el problema de los valores perdidos. Descartar las instancias que pueden contener valores faltantes es lo común, pero no es muy efectivo ya que podría generar sesgos en los análisis estadísticos. Aparte de esto, descartar información crítica no es una buena idea. Un método mejor y más eficaz consiste en utilizar procedimientos de máxima verosimilitud para modelar las funciones de probabilidad de los datos y, al mismo tiempo, considerar los factores que podrían haber inducido la ausencia. Las técnicas de aprendizaje automático son, hasta ahora, la solución más eficaz al problema de los valores perdidos.
Identificación de ruido
La recopilación de datos no siempre es perfecta, pero los algoritmos de minería de datos siempre asumirían que lo es. Los datos con ruido pueden afectar seriamente la calidad de los resultados, por lo que abordar este problema es crucial. El ruido puede afectar las características de entrada, salida o ambas en la mayoría de los casos. El ruido que se encuentra en la entrada se denomina ruido de atributo, mientras que si el ruido se cuela en la salida, se denomina ruido de clase. Si hay ruido en la salida, el problema es muy serio y el sesgo en los resultados sería muy alto.
Existen dos enfoques populares para eliminar el ruido de los conjuntos de datos. Si el ruido ha afectado el etiquetado de las instancias, se utilizan métodos de pulido de datos para eliminar el ruido. El otro método implica el uso de filtros de ruido que pueden identificar y eliminar instancias con ruido de los datos y esto no requiere modificar la técnica de minería de datos.
Minimizar las tareas de preprocesamiento
La preparación de los datos para su algoritmo de análisis de datos puede involucrar muchos más procesos dependiendo de las demandas únicas de la aplicación. Sin embargo, los procesos básicos como la limpieza, la deduplicación y la normalización se pueden evitar en la mayoría de los casos si elige la fuente adecuada para la extracción de datos. Es muy poco probable que una fuente sin procesar pueda brindarle datos limpios. En lo que respecta a la extracción de datos web, un servicio de raspado web administrado como PromptCloud puede brindarle datos limpios y listos para usar que están listos para conectarse a su sistema de análisis. Como los datos proporcionados por nuestra solución DaaS están limpios, puede guardar sus mejores esfuerzos para las tareas de procesamiento de datos específicas de su aplicación.
