Cómo crear una pila de datos moderna
Publicado: 2022-05-06En la economía actual impulsada por la tecnología, el almacenamiento de datos se ha vuelto más complejo que nunca. Según IDC (International Data Corporation), en 2025 se generarán 175 Zettabytes de datos, lo que representa casi el triple de la cantidad generada en 2021 (61 Zettabytes).

El volumen de datos creados, capturados, copiados y consumidos en todo el mundo desde 2010 hasta 2025 de Statista
Si desea almacenar y administrar correctamente la información de su empresa, debe comprender las muchas opciones disponibles y cómo se pueden integrar entre sí.
Afortunadamente, esta guía lo ayudará a crear una pila de datos moderna que le permita recopilar, almacenar, analizar y, en última instancia, hacer uso de sus datos de la manera más efectiva posible. Este modelo es lo suficientemente flexible para que lo utilicen empresas en cualquier etapa de desarrollo, sin importar su tamaño o tipo de industria.
¿Por qué necesita una pila de datos moderna?
Una pila de datos moderna es un conjunto integrado de herramientas para manejar el ciclo de vida de los datos de extremo a extremo. Está diseñado para recopilar, procesar y activar información en tiempo real. Es esencial para cualquier organización que desee comprender las tendencias a nivel granular (p. ej., dentro de la organización de un cliente) y actuar sobre ellas antes de que se graben en piedra de forma permanente.
Crear una pila de datos moderna no es difícil, pero requiere algo de tiempo y compromiso y una comprensión de lo que necesita exactamente de sus datos. Si realmente quiere mejorar las operaciones y obtener información sobre sus clientes, valdrá la pena cada minuto de esfuerzo. El truco es saber por dónde empezar y cómo avanzar.
El resto de esta guía le brindará toda la información que necesita para crear una pila de datos moderna. Aprenderá cómo funcionan juntos los diferentes componentes y cómo elegir el software para cada parte de su pila de datos moderna. Una vez que termine de leer, ¡tendrá todo lo que necesita para comenzar a construir una pila de datos moderna en su organización hoy!
“Desde la perspectiva de los datos, los dispositivos de almacenamiento de datos son una verdadera mina de oro. Ponerlo a disposición de soluciones integradas verticalmente es el núcleo de la idea de la nube de la industria”.
Ashish Tusoo
Lagos de datos y almacenes de datos: las dos caras de una plataforma de datos en la nube moderna
Beneficios de una pila de datos moderna
¿Por qué invertir en una pila de datos moderna? Aquí hay algunos beneficios:
- Extraiga y cargue fácilmente sus datos en minutos a cualquier destino.
- Analice grandes cantidades de datos no estructurados (documentos, resultados de búsqueda, varias métricas, etc.) sin tener que escribir scripts personalizados o crear consultas ad hoc.
- Permita que cualquier equipo de negocios se sirva a sí mismo con datos operativos, confiables y actualizados en sus propias herramientas.
- Implemente innovaciones en su organización más rápido al integrar herramientas sin código para equipos comerciales
- Las pilas de datos modernas reducen los gastos generales de ingeniería de datos al eliminar la necesidad de crear y mantener una canalización de datos.
Comprender el entorno actual.
El primer paso para diseñar cualquier solución es comprender lo que está tratando de solucionar. Da un paso atrás y mira qué herramientas, procesos y procedimientos actuales está utilizando tu organización ahora. Entonces pregúntese: ¿Son eficientes? ¿Hay margen de mejora?
La pila de datos moderna tiene que ver con la eficiencia, por lo que si hay ineficiencias en su proceso actual (y créame, las hay), esa es un área donde puede optimizar.
En algunos casos, puede ser tan simple como aumentar la colaboración entre equipos o actualizar sus procesos, pero a veces puede significar reemplazar software obsoleto o incluso introducir nueva tecnología en su entorno.
Sea lo que sea, comience definiendo los problemas exactos que está resolviendo antes de continuar con cualquier trabajo de diseño. Hará que la implementación sea mucho más fácil en el futuro.
Identificar las necesidades y objetivos del negocio.
Antes de elegir una base de datos para su empresa, debe comprender su modelo de datos, qué tipo de consultas e informes necesitará y quién la utilizará. Obtener respuestas a estas preguntas también ayudará a su empresa a comenzar a planificar por adelantado (en lugar de realizar cambios en el futuro).
Una pregunta clave aquí es qué tan grande debe ser su almacén de datos. Por ejemplo, en un escenario OLAP (procesamiento analítico en línea), tendrá muchas filas pero pocos datos en cada una, pero en un escenario de procesamiento de transacciones en línea (OLTP), tendrá muchas filas con una gran cantidad de datos. en cada fila requiere mucho más espacio de almacenamiento. Y luego, hay necesidades de generación de informes de Business Intelligence (BI) que requieren aún más espacio. Para tales casos, BigQuery es el almacenamiento perfecto que puede manejar muy bien los tres escenarios.
Otra cosa a tener en cuenta es si desea utilizar la nube o el almacenamiento local. Por lo tanto, si ya ha invertido en infraestructura local, es posible que Google Cloud Platform no sea adecuado para usted.
Calcule la escalabilidad y el rendimiento
Al elegir un proveedor de la nube, es importante considerar si su aplicación escalará y funcionará como se espera con el tiempo.
Otra cosa crucial es comprender cómo se protegerán sus datos en cada entorno (por ejemplo, los centros de datos pueden experimentar desastres naturales, cortes de energía o fallas en los equipos).
Al igual que con todos estos pasos, es esencial investigar y hacer preguntas. Empresas como New Relic ofrecen herramientas que pueden ayudarlo a monitorear el rendimiento y el tráfico de su aplicación.
Además, organizaciones como Netflix han creado tecnologías de código abierto diseñadas específicamente para aplicaciones modernas que se ejecutan en nubes públicas. Por ejemplo, Netflix desarrolló Security Monkey, un software que ayuda a monitorear y proteger grandes entornos basados en AWS.
Vale la pena profundizar en estas tecnologías al evaluar a los proveedores de la nube; este tipo de conocimiento proviene de hablar con ingenieros de diferentes empresas y comprender sus experiencias.

Los componentes de una pila de datos moderna
Los datos son un activo estratégico. Para aprovecharlo al máximo, debe comprender los diversos componentes que componen una pila de datos y cómo funcionan juntos.
Estos son los componentes clave de una pila de datos que se deben incluir al diseñar su propia infraestructura de datos para su producto:
- Ingestión de datos
- Almacenamiento de datos
- Transformación de datos
- Análisis de datos
- Dato de governancia
1. Ingestión de datos
La ingesta de datos es la importación de datos desde una ubicación a un nuevo destino, como un almacén de datos o un lago de datos, para su posterior almacenamiento y análisis.
Su primer paso para crear una pila de datos moderna es identificar sus fuentes de datos. Gracias a las herramientas de ingesta de datos, podrás importar todos tus datos en minutos.
Supongamos que tiene un negocio de comercio electrónico, las consultas deben limitarse a los productos que vende y sus variaciones. No desea que cientos de consultas por día lleguen a su base de datos porque alguien consultó un artículo que ni siquiera compra. Clasifique y filtre sus productos por grupo de clientes, SKU u otros filtros y proporcione un acceso fácil de usar a través del botón "Visita mi tienda" para que los clientes puedan recuperar fácilmente su historial de pedidos para las ventas realizadas a través de su sitio.
Ejemplos de herramientas: Improvado, Fivetran, Stitch, Airflow
️Nuestra lista de las 16 mejores herramientas de ingestión de datos lo ayudará a elegir la mejor para su pila de datos️
2. Almacenamiento de datos
Con el auge de las aplicaciones y los microservicios nativos de la nube, la mayoría de las empresas generan enormes cantidades de datos que deben almacenarse y administrarse. Es una tarea desafiante para las bases de datos relacionales tradicionales, que fueron diseñadas para datos estructurados.
Las bases de datos NoSQL son ideales para datos no estructurados, pero pueden ser difíciles de implementar a escala, especialmente en entornos híbridos.
Los proveedores de la nube ofrecen sus propias soluciones administradas para ayudar con este paso. Por ejemplo, AWS ofrece una solución llamada Amazon Simple Storage Service (S3) para el almacenamiento de objetos. Google ofrece BigQuery como parte de Cloud Platform. Ambos servicios proporcionan una plataforma de baja latencia para almacenar grandes volúmenes de datos a escala.
Ejemplos de herramientas: Snowflake, Databricks, AWS, GCP
Lea nuestra lista de las 15 mejores herramientas de almacenamiento de datos para encontrar la que se ajuste a sus necesidades comerciales
3. Transformación de datos
La transformación de datos es el proceso de convertir datos de un formato o estructura a otro formato o estructura. Por lo general, la transformación de datos se realiza mediante técnicas de extracción, transformación y carga (ETL).
Descubra cómo el proceso ETL acelera las operaciones de datos manuales
La transformación de datos es crucial en el proceso de integración de datos porque prepara y normaliza los datos para su posterior análisis, generación de informes y visualización. La transformación de datos se puede realizar en cualquier tipo de conjunto de datos, independientemente de su formato o designación original.
Ejemplos de herramientas: Improvado DataPrep, Dbt,MCDM, Matillon, Alteryx, RestApp


4. Análisis de datos
La capa de análisis es responsable de agregar, analizar y presentar los datos a los usuarios. Su capa de análisis debe responder preguntas como:
- ¿Cuáles son las métricas clave para mi negocio?
- ¿Cómo cambian esas métricas con el tiempo?
- ¿Cómo afecta una métrica a otra?
La mayoría de las veces, esto significa que sus datos se transformarán en gráficos, cuadros, tablas y otras representaciones visuales que podrá comprender de inmediato.
Algunas plataformas de análisis de datos recientes tienen capacidades que permiten a personas no técnicas estudiar datos sin saber SQL.
Herramientas de ejemplo: Looker, Tableau, Power BI
“Sin el análisis de big data, las empresas están ciegas y sordas, deambulando por la web como ciervos en una autopista”.
Geoffrey Moore, autor y consultor.
5. Gobierno de datos
Es esencial garantizar una propiedad y un proceso claros para cada paso en la canalización de datos. Esto incluye establecer estándares para los tipos de datos que se recopilan y cómo se almacenan y se accede a ellos, junto con procesos para garantizar que estos estándares se cumplan y se cumplan.
Suponga que su objetivo es utilizar los datos para mejorar la eficiencia operativa. Puede decidir que todos sus sistemas de inventario deben usar el mismo sistema de código de barras para que pueda obtener una imagen completa de su cadena de suministro sin tener que reconciliar códigos o sistemas diferentes manualmente.
Herramientas de ejemplo: Atlan, Microsoft Azure Data Catalog, Informatica

Alternativa ETL inversa
Muchas empresas han construido sus pilas de datos utilizando tecnologías ETL. Estas tecnologías son útiles para procesar grandes cantidades de datos de múltiples fuentes y trasladarlos a un almacén de datos centralizado. Sin embargo, este enfoque aumenta la complejidad de su infraestructura y ralentiza el tiempo de entrega.
En el mundo actual, las decisiones comerciales se toman cada vez más en función de datos en tiempo real, ya sea en finanzas, gestión de la cadena de suministro o relaciones con los clientes. Una pila de datos moderna le permite brindar información en tiempo real en toda la organización al mantener sus datos actualizados, accesibles y seguros.
Aquí es donde Reverse ETL puede ayudarlo a crear una pila de datos moderna que brinde valor en tiempo real a la empresa y elimine el riesgo de fallas debido a información desactualizada.
Reverse ETL es un conjunto de métodos o procesos que sincronizan datos de un almacén de datos con herramientas operativas como CRM, CMS, productos o cualquier herramienta comercial (Slack, Google Sheet, etc.).

La idea detrás de este proceso es crear una fuente de datos única y completa que proporcione una vista cohesiva y confiable de los datos empresariales. Los procesos ETL inversos se utilizan generalmente para aumentar los procesos ETL existentes y se ejecutan en intervalos de tiempo definidos. Además, Reverse ETL permite Operational Analytics.
Analítica operativa frente a inteligencia empresarial
Operational Analytics es el uso de datos, análisis predictivo y herramientas de inteligencia comercial para obtener información sobre las operaciones comerciales y generar acciones en tiempo real gracias a los datos activados.
Investopedia define Business Intelligence (BI) como la infraestructura técnica y de procedimiento que recopila, almacena y analiza los datos producidos por las actividades de una empresa.
Business Intelligence se centra en el análisis de datos históricos.
Le ayuda a comprender lo que sucedió y por qué. Se utiliza para respaldar la toma de decisiones comerciales mediante la identificación de patrones y tendencias a través de comparaciones de datos, puntos de referencia y otras técnicas estadísticas.
Por ejemplo, tiene sentido crear un informe que muestre la cantidad de pedidos realizados en un período de tiempo determinado, el valor promedio de los pedidos y la cantidad total de pedidos.
El análisis operativo es una noción que se centra en el tiempo real y el futuro. Se enfoca en lo que sucede ahora y pronostica lo que sucederá a continuación para que pueda ayudar a aprovechar al máximo las oportunidades futuras.
En resumen, Operational Analytics muestra dónde debemos actuar ahora, mientras que Business Intelligence revela qué se ha hecho mal y cuáles son los puntos de mejora.
El análisis operativo ya no se limita a gigantes digitales como Google, Facebook y Netflix. Gracias a los datos en tiempo real, cualquier empresa que utilice una pila de datos moderna toma más decisiones basadas en datos.
Se requiere evolución organizacional
Cuando una empresa implementa una pila de datos moderna, hay tres cambios importantes en la forma en que se administran los datos:
Un cambio de De TI a usuarios comerciales
En el pasado, el departamento de TI respondía solicitudes de datos de departamentos y analistas. El desarrollo de herramientas de análisis de autoservicio como Tableau y Looker ha permitido a los usuarios comerciales acceder y analizar datos directamente.
Este cambio tiene enormes implicaciones en la forma en que las empresas organizan sus recursos en torno a los datos.
Del procesamiento de datos por lotes al en tiempo real
. A medida que las canalizaciones de datos se simplifican y los datos se vuelven más accesibles en toda la organización, el tiempo de retraso entre el momento en que ocurre un evento y el momento en que se analiza debe reducirse.
Esto significa que más empresas buscan el procesamiento en tiempo real de sus datos en lugar de agregar datos durante períodos de tiempo más largos.
De bases de datos aisladas a propiedad federada (Dominios)
Las arquitecturas de datos tradicionales se construyen alrededor de bases de datos en silos y propiedad federada, lo que ha llevado a la proliferación de lagos de datos, data marts y almacenes de datos.
Estas arquitecturas se centraron en los cálculos centralizados y la infraestructura de almacenamiento. A medida que los servicios en la nube han madurado y modernizado, también debería hacerlo el enfoque para diseñar pilas de datos.
Las arquitecturas de datos actuales deben poder manejar la escala y la complejidad de las aplicaciones modernas que se distribuyen en una variedad de tecnologías. Aquí es donde entra en juego el concepto de malla de datos: una nueva arquitectura que permite acceder a todo tipo de datos de forma segura, gobernada fácilmente y consumida por cualquier aplicación en cualquier lugar.
Confíe en sus partes interesadas
Hay tres tipos principales de partes interesadas cuando se trata de la pila de datos moderna.
Partes interesadas internas
Estas son las personas dentro de su organización que utilizarán los datos en su trabajo diario.
Por ejemplo, el equipo de ventas puede estar interesado en cuántos ingresos genera cada cliente y cómo aumentar esos ingresos. O tal vez el equipo de marketing esté interesado en qué tipos de contenido generan la mayor parte del tráfico del sitio web.
Las partes interesadas internas deben opinar sobre qué datos recopila, cómo estructura esos datos y qué herramientas usa para analizarlos.
Interesados externos
Estas son personas ajenas a su empresa, pero aún tienen un interés en su éxito.
Por ejemplo, si su empresa es una empresa de software como servicio (SaaS), los usuarios de su producto son partes interesadas externas. Si su empresa vende productos en línea y los envía a todo el país o al mundo, los clientes y proveedores son partes interesadas externas.
Es importante comprender lo que necesitan de usted para que pueda entregar esos datos de manera adecuada y eficiente.
Partes interesadas de terceros
Se trata de personas ajenas a su organización que también prestan servicios a su empresa. Por ejemplo, proveedores que suministran materias primas o consultores de TI que ayudan a configurar su infraestructura tecnológica. Si desea evitar moscas ciegas en términos de datos, debe dominar el análisis de datos. Esto requerirá cada vez más el desarrollo de datos fuera de sus cuatro paredes.
La pila de datos moderna fortalece la relación entre la empresa y sus partes interesadas con un intercambio de datos más eficiente gracias a los dominios definidos para cada equipo y la capacidad de usarlos en un entorno sin código.
Los dominios de datos fortalecen la relación entre los equipos ya que todos operan en ese mismo dominio.
Por ejemplo, un equipo de marketing quiere saber cuántas personas se suscriben a su nuevo producto o servicio y cuántos ingresos genera después del registro. Los datos generados por el equipo de producto son relevantes para el equipo de marketing porque ambos trabajan en un espacio similar.
Conclusión
Como puede ver, hay muchas cosas a considerar al configurar su pila de datos. Dados todos los diferentes componentes involucrados, esta es una gran tarea y puede ser difícil rodear con los brazos todas las partes móviles.
Comprender por qué necesita una pila de datos y cómo beneficiará a su negocio le permite planificar a largo plazo al establecer procesos y plazos claros para la implementación. Los beneficios de usar una pila de datos moderna superan cualquier desafío en el camino, no solo en términos de proyectos e iniciativas individuales, sino también en términos de establecer una base sólida que lo ayude a tomar mejores decisiones en general.
