Aborde los problemas de aprendizaje automático
Publicado: 2017-11-01Con la trayectoria de crecimiento agresivo del aprendizaje automático, cada vez más científicos de datos se centran en obtener resultados que imiten las aplicaciones prácticas del mundo real. Para ello, se basan en conjuntos de datos de entrenamiento para entrenar su modelo y 'aprender' mejor. Una vez hecho esto, se pasa a través de datos reales en los que no se ha entrenado, utilizando un conjunto de datos de prueba. Por lo tanto , el conjunto de datos de entrenamiento de aprendizaje automático son los datos para los que se entrenó el MLP utilizando el conjunto de datos de entrenamiento.
Tanto los conjuntos de datos de entrenamiento como los de prueba intentarán alinearse con muestras de población representativas. Esto asegura que los resultados serán universalmente aplicables para esta muestra. Eso es aprendizaje automático en pocas palabras.

¿Está buscando opciones gratuitas para empezar?
Si está buscando fuentes valiosas de bases de datos gratuitas para crear sus conjuntos de datos de entrenamiento, las siguientes opciones pueden ser un gran punto de partida para usted:
- UCI- Repositorio de aprendizaje automático
- Iris by UCI [Tiene 3 clases, 50 muestras para cada clase que suman 150 puntos de datos; buen recurso para principiantes]
- Kaggle
- Los conjuntos de datos abiertos ayudan a enseñar cosas y robots a ser inteligentes y más útiles
- Banco ML de R
- MÍAS
- mulán
- DataStock de PromptCloud
¿Qué factores deben tenerse en cuenta al crear un conjunto de datos de entrenamiento de aprendizaje automático ?
1. La cantidad adecuada
Debe evaluar y tener una respuesta lista para estas preguntas básicas sobre la cantidad de datos:
- El número de registros a tomar de las bases de datos.
- El tamaño de la muestra necesario para producir los resultados de desempeño esperados
- La división de datos para entrenamiento y prueba o usar un enfoque alternativo como la validación cruzada k-fold
2. El enfoque para dividir datos
Necesita datos para construir el modelo y necesita datos para probar el modelo. Debería haber un método para dividir el conjunto de datos en estas dos partes. Puede optar por una división aleatoria o una división basada en el tiempo. En este último, la regla general es que los datos más antiguos son para entrenamiento y los datos más nuevos para pruebas. Algunos conjuntos de datos necesitan otros enfoques, como el muestreo estratificado o el muestreo por conglomerados. Si realmente no está seguro, haga una pequeña prueba piloto para validar su modelo y luego ejecútelo completamente en todos los ámbitos.
3. La historia pasada
Muchos científicos de datos ya trabajaron en problemas en el pasado y crearon conjuntos de datos de entrenamiento para sus necesidades específicas de modelado. Trabajar en problemas de aprendizaje automático aplicado hace que sea más fácil no solo obtener el conjunto correcto de datos, sino que también hay certeza en los resultados anticipados.
Puede consultar los estudios que tienen problemas similares a su problema actual y tomar los datos para una mejor eficacia del proceso de construcción del modelo. Si tiene la suerte de obtener una gran cantidad de estudios similares realizados en el pasado, puede promediarlos para sus propósitos de construcción.
4. Experiencia en el dominio
La filosofía 'Basura dentro, basura fuera' es extremadamente válida para el conjunto de datos de entrenamiento para el aprendizaje automático. El algoritmo de aprendizaje automático aprenderá para cualquier dato que lo alimente. Entonces, si los datos proporcionados como entrada son de buena calidad, entonces el algoritmo de aprendizaje desarrollado también será de buena calidad. Por lo general, las muestras que alimenta necesitan poseer dos cualidades clave: independencia y distribución idéntica.
¿Y cómo determina si lo que se está ingresando es de buena calidad? Simple. Haga que un experto en la materia analice los datos con un par de ojos capacitados. Él / ella podrá evaluar si la muestra utilizada es adecuada, si la muestra está distribuida uniformemente y si la muestra es independiente.
El experto también puede ayudar a diseñar los datos de tal manera que obtenga un grupo más grande sin comprometer los principios básicos de cobertura y aplicabilidad universal. También puede ayudar a simular datos que no tiene actualmente pero que desea usar para entrenar el programa de aprendizaje automático.

5. El tipo correcto de transformación de datos
Una vez que haya procesado los datos limpios, puede transformarlos en función de sus objetivos de capacitación de aprendizaje automático. La experiencia en el dominio y las características/funciones del algoritmo pueden ayudarlo a determinar el tipo correcto de transformación que se aplicará para potenciar el conjunto de datos de entrenamiento. Este paso de la ingeniería de funciones ayuda a transformar los datos en uno más adecuado para un tipo particular de análisis. La ingeniería de características puede comprender uno o más de los siguientes procesos de transformación de datos.
una. Escalado : normalmente, un conjunto de datos procesados tendrá atributos que utilizan una variedad de escalas para métricas como pesos (kilogramos o libras), distancia (kilómetros o millas) o moneda (dólares o euros). Deberá reducir las variaciones en la escala para obtener un resultado mucho mejor. Este paso de escalado de características ayudará a analizar mejor los datos.
b. Descomposición : con la ayuda de la descomposición funcional, una variable compleja se puede dividir en un nivel granular en sus partes constituyentes. Estas partes constituyentes individuales pueden tener algunas propiedades o características inherentes que pueden aumentar en todo el proceso de construcción de aprendizaje automático. Por lo tanto, dividir para alcanzar estas características es importante. Ayuda a separar el 'ruido' de los elementos o componentes que realmente nos interesan para construir los conjuntos de datos de entrenamiento. La forma en que un método de red bayesiano intenta dividir una distribución conjunta a lo largo de su línea de falla causal es un ejemplo clásico de descomposición en acción.
C. Agregación : en el extremo opuesto de la descomposición se encuentra el método de agregación. Combina múltiples variables con atributos similares en una sola entidad más grande. Para algunos conjuntos de datos de aprendizaje automático, esta puede ser una forma más sensata de crear el conjunto de datos para resolver un problema en particular. Un ejemplo puede ser cómo se pueden rastrear las respuestas agregadas de la encuesta en lugar de mirar las respuestas individuales, para resolver un problema particular a través del aprendizaje automático.
Identificación del tipo de algoritmo en desarrollo
Puede optar por un algoritmo lineal o no lineal. Sabiendo qué tipo de algoritmo está ejecutando, podrá evaluar mejor el tipo y la cantidad de datos necesarios para construir el conjunto de datos de entrenamiento. Normalmente, los algoritmos no lineales se consideran más potentes. Son capaces de captar y establecer conexiones en relaciones no lineales entre las características de entrada y salida.
En términos de estructura general, estos algoritmos no lineales pueden ser más flexibles y no paramétricos (dichos algoritmos pueden calcular no solo cuántos parámetros se requieren, sino también determinar qué valores deben estar presentes para estos parámetros para resolver mejor un problema específico de aprendizaje automático). Dado que no es lineal, significa que puede mostrar un alto grado de variación, es decir, los resultados del algoritmo pueden variar en función de los datos que se utilicen para entrenarlo.
Esto también significa que un algoritmo no lineal necesita mucho más volumen de datos dentro del conjunto de datos de entrenamiento para comprender las conexiones y relaciones complejas entre las diferentes entidades que se analizan. La mayoría de las empresas más conocidas están interesadas en dichos algoritmos que siguen mejorando a medida que se ingresan más y más datos en su sistema.
Identificar correctamente 'si' y 'cuándo' se requiere Big Data
Cuando hablamos de crear un conjunto de datos de entrenamiento, debemos evaluar de manera inteligente si se necesitan grandes datos (un volumen muy alto de datos). Si es así, ¿en qué punto de la creación del conjunto de datos deberíamos incorporar los grandes datos? Además de ser costoso, la introducción de big data puede afectar significativamente el tiempo de comercialización de la creación del conjunto de datos. Sin embargo, si es absolutamente inevitable, entonces necesita poner recursos para que Big Data sea parte de su conjunto de datos de entrenamiento.
Un ejemplo clásico será cuando esté realizando un modelo predictivo tradicional. En esto, puede llegar a un punto de rendimientos decrecientes donde los rendimientos no se corresponderán con la cantidad de datos que ha ingresado. Es posible que necesite muchos más datos para superar esta barrera. Al evaluar cuidadosamente su modelo elegido y su problema específico en cuestión, puede determinar cuándo llegará este punto y cuándo necesitará un volumen de datos mucho mayor.
Para concluir
La creación de un conjunto de datos de entrenamiento impulsa la calidad del modelo general de aprendizaje automático. Con estos factores, puede asegurarse de crear un conjunto de datos de aprendizaje automático de alto rendimiento y obtener los beneficios de un modelo de aprendizaje automático sólido, significativo y preciso que ha "aprendido" de un conjunto de datos de entrenamiento tan superior.
¿Está interesado en compartir cualquier otro factor importante que pueda influir en la calidad del conjunto de datos de entrenamiento para el aprendizaje automático? Escriba en los comentarios a continuación y háganos saber sus pensamientos.
