Mejorando el valor de los científicos de datos en el ecosistema de Big Data

Publicado: 2016-10-15
Mostrar tabla de contenido
Manual
automatizado
Cómo agregar más al valor proporcionado por los científicos de datos

No se desconoce el inmenso alcance y la influencia de Big Data en casi todas las verticales de la industria. Con Big Data, la cadena de comunicación, comentarios y menciones de marca aparentemente masiva y compleja se analiza a nivel granular. El propósito de este ejercicio es desbloquear conocimientos que hasta ahora pueden haber permanecido ocultos a la vista de los tomadores de decisiones de una empresa. Tomemos el caso de American Express. El gigante de las compañías de tarjetas quería aportar algo más que indicadores dinámicos para llevar adelante sus agresivos planes de crecimiento. Esto llevó a AmEx a invertir en la construcción de modelos predictivos complejos pero poderosos que toman hasta 115 variables . ¿El propósito del ejercicio? Buscar formas de mejorar la lealtad a la marca entre los clientes y reducir la rotación de clientes con la ayuda de Big Data.

Ciencia de los datos

Este análisis predictivo es una de las formas de Data Science, el campo que ayuda a extraer conocimiento o información de Big Data (tanto estructurados como no estructurados). Algunas otras implementaciones de la ciencia de datos incluyen análisis estadístico, minería de datos, ingeniería de datos, modelos de probabilidad, visualizaciones y aprendizaje automático. La ciencia de datos es parte del dominio más amplio de la inteligencia competitiva, que también incluye el análisis y la extracción de datos.

Una mirada a impulsar la productividad de los científicos de datos de próxima generación

El evangelista de Big Data de IBM, James Kobielus, había producido un artículo interesante que destacaba las diferentes formas en que se puede mejorar la productividad de los científicos de datos de próxima generación. Esto, a su vez, puede afectar la suerte de la economía, las finanzas y la sociedad mundiales.

Ha reconocido el papel de misión crítica que desempeñan los científicos de datos para proporcionar valor al entorno empresarial siempre activo. Su valor abarca la integración de diferentes soluciones repetibles para ayudar a analizar los datos y generar conocimientos significativos para ayudar a las partes interesadas con su proceso de toma de decisiones.

grandes datos

Por qué es esencial impulsar la productividad de los científicos de datos

Los científicos de datos desempeñan una gran variedad de roles y responsabilidades dentro de todo el ecosistema de big data. Estos incluyen tareas tales como:

  1. Manual

  • Diseño y desarrollo de modelos estadísticos
  • Analizando el rendimiento de estos modelos
  • Verificación de los modelos con los datos del mundo real
  • Llevar a cabo la difícil tarea de transmitir los conocimientos de una manera que los no expertos en datos (partes interesadas y tomadores de decisiones) puedan entender
  1. automatizado

  • Iniciación, lluvia de ideas e investigación sobre el negocio del cliente y la recopilación de inteligencia.
  • Descubrimiento de datos
  • Perfilado de datos
  • Muestreo y organización de datos.

Como es evidente, estas tareas requieren un conjunto de conocimientos de capital humano que no se puede encontrar en un solo individuo. Se debe construir un equipo de personas que sean expertos en diferentes nichos. Más importante aún, deben estar alineados de manera que el objetivo comercial de tener un equipo de científicos de datos se cumpla de manera amistosa y sin política. Y esto se puede lograr al tener un conjunto sólido de procesos y protocolos que deben seguir todos los miembros del equipo.

Sin embargo, configurar y hacer cumplir estos protocolos no significa necesariamente una caída en la productividad de los científicos de datos. James echa un vistazo a los ejemplos de la vida real en los que se han configurado diferentes procesos para garantizar una productividad óptima de los científicos de datos en entornos de equipo complejos. Un ejemplo que ha mencionado específicamente en este contexto es Ben Lorica de O'Reilly. Este artículo busca ofrecer las siguientes ventajas en productividad a los científicos de datos:

  • Las disposiciones de una API lista para usar que puede estar disponible para abordar varios pasos principales y secundarios del dominio de visualización y análisis de datos. Simplificar el proceso de extremo a extremo del procesamiento de aprendizaje automático puede ayudar en cada hito del proyecto y puede mejorar exponencialmente la reducción de tiempo y costos. Y esta reducción es mucho mayor que el costo que implica incorporar el software a los sistemas existentes de su organización.
  • Los tipos de datos como multimedia (audio, video, contenido) juegan un papel fundamental en la transmisión de medios y la computación cognitiva. Con el aprendizaje automático automatizado, la absorción y el análisis de este tipo de datos se pueden realizar fácilmente. Ben sugiere usar canalizaciones de muestra para voz y visión por computadora y cargadores de datos para otros tipos de datos.
  • Las aplicaciones pueden ayudar a acelerar el entrenamiento, el uso y la perfección de los modelos estadísticos y predictivos. Los ejemplos de tales algoritmos de aprendizaje automático escalables incluyen los tiempos de ejecución basados ​​en Spark .
  • La productividad de los científicos de datos también se puede mejorar mediante la ampliación inteligente de las canalizaciones de procesamiento de los proyectos de aprendizaje automático multifuncional. Los ejemplos de dichos componentes incluyen la incorporación y carga de bibliotecas y optimizadores. Otras instancias de estos componentes incluyen la diversa gama de cargadores de datos , destacadores y asignadores de memoria.

También habla sobre el diseño, la definición clara y la configuración de límites de error para ayudar a verificar la eficacia de los proyectos de aprendizaje automático. Con la ayuda de este esfuerzo, el rendimiento real puede medirse frente a puntos de referencia predefinidos. Además, puede ayudar a ajustar el modelo si hay una desviación significativa del desempeño real del modelo de los resultados esperados.

Este es un ejemplo de los esfuerzos que se están realizando en todo el mundo en diferentes organizaciones para catapultar la productividad de los científicos de datos. Con estos esfuerzos, desempeñan sus funciones en entornos profundamente complejos que afectan a múltiples personas, procesos, protocolos y expectativas.

Cómo agregar más al valor proporcionado por los científicos de datos

Luego, James continúa destacando las formas en que los científicos de datos pueden lograr la excelencia en sus trabajos y hacerlo notablemente bien con el nicho de visualización y análisis de datos. Hay dos aspectos: uno es la tecnología en sí (en forma de soluciones como Hadoop, R, Python y Spark) y el otro es el equipo de expertos que forman puntos de contacto para los científicos de datos (desarrolladores de aplicaciones de datos, modeladores, ingenieros de datos, senior administración y expertos en ETL). Ambos deberían trabajar en conjunto para proporcionar un entorno que fomente una mayor productividad para los científicos de datos. James ha enumerado bastantes formas de lograr esto.

  1. Facilidad de trabajar con múltiples conjuntos de datos: tome el caso de un centro médico. Puede mantener y almacenar millones de registros de miles de pacientes. Estos pueden incluir datos estructurados y no estructurados (imágenes de patología, notas médicas, etc.). Una implementación típica de big data sería crear un lago de datos de Hadoop y aprovechar los datos para su uso posterior. Otro ejemplo puede ser el de las publicaciones y comentarios de las redes sociales que se toman y almacenan en grupos de datos. Un científico de datos debe poder adquirir fácilmente datos de conjuntos de datos tan diversos. Algunos de los ejemplos incluyen: lagos de datos, clústeres de datos, servicios en la nube.
  2. Excelencia en responsabilidades laborales: análisis de datos, modelado predictivo, aprendizaje automático, extracción de datos y visualización. Estas son solo algunas de las muchas funciones en las que está involucrado un científico de datos. Naturalmente, tendría que realizar una gran cantidad de actividades para llevar a cabo el trabajo. Esto puede incluir uno o más de descubrimiento de datos, agregación de datos similares, ponderación de datos para que coincidan con el universo, preparación y selección de modelos para una generación de información más profunda y formulación, prueba y validación de una hipótesis. Ya se trate de datos estructurados simples o de datos multiestructurados más complejos, el entorno de productividad necesita que el científico de datos sobresalga en diferentes responsabilidades laborales.
  3. Experiencia práctica: proporcione a los científicos de datos todos los alcances para implementar su conocimiento práctico de las aplicaciones de análisis de big data. Estos pueden incluir R, Python, Spark y Hadoop.
  4. Ampliar su versatilidad: como se mencionó anteriormente, los científicos de datos tienen que interactuar con muchos expertos en sus funciones y responsabilidades diarias. Estos incluyen desarrolladores de aplicaciones de datos, modeladores, ingenieros de datos, altos directivos y expertos en ETL. Los puntos de contacto deben compartir conocimientos sobre bibliotecas y plantillas que pueden ayudar a facilitar el trabajo y la comprensión de temas como el aprendizaje automático, la exploración estadística, las redes neuronales, el almacenamiento de datos, la transformación de datos y la adquisición de datos.
  5. Monitoreo del progreso: un científico de datos otorga mucha importancia a la concepción, el diseño y la puesta en marcha de procesos para manejar conjuntos de datos a gran escala que se utilizarán para el modelado, la investigación estadística y la extracción de datos. Él / ella también realiza muchas funciones auxiliares como el desarrollo de casos comerciales, la interacción con proveedores externos, la gestión del ciclo de vida de todo el proyecto de análisis de datos, manteniendo al equipo bien alineado hasta el final e interactuando con las partes interesadas con actualizaciones periódicas sobre el progreso. del proyecto. En un entorno propicio, un científico de datos debe poder rastrear, hacer cumplir y verificar el funcionamiento correcto de los diversos componentes que le permiten hacer el trabajo correctamente. Estos componentes incluyen bibliotecas, modelado, integraciones tecnológicas, datos, algoritmos y metadatos.

Con estos consejos útiles, James destaca las formas en que se puede mejorar el valor de los científicos de datos en el ecosistema de Big Data.

¿Planea adquirir datos de la web? Estamos aquí para ayudar. Háganos saber acerca de sus requisitos.