“La preparación de los datos (Data Preparation) es quizá el paso más importante en cualquier tipo de análisis serio de datos. Y aunque sería ridículo intentar abarcar un campo de conocimiento tan amplio en un solo post, hemos preparado una lista de comprobación rápida que puedes consultar cuando te enfrentes al resto de preparar los datos para el análisis”.
Data Preparation a vista de pájaro
La preparación de datos, también conocida como “Data Preparation” o “preprocesamiento de datos”, es el proceso de transformar datos sin procesar en un formato adecuado para el análisis y la interpretación. Implica la limpieza, transformación y enriquecimiento de los datos para que sean precisos, consistentes y estén listos para su uso en diversas aplicaciones, como el aprendizaje automático o el análisis de negocio con plataformas analíticas como Sisense.
Sin duda es un paso crucial antes de afrontar cualquier análisis o modelado de datos, ya que una mala calidad de los mismos puede llevar a resultados incorrectos o engañosos.
De acuerdo con un informe de Aberdeen Group, la preparación de datos se refiere a “cualquier actividad diseñada para mejorar la calidad, usabilidad, accesibilidad o portabilidad de los datos. El objetivo final es dotar a las personas y a los sistemas analíticos de datos limpios aptos para su consumo con el fin de convertirlos en información procesable”.
Esto puede incluir toda una serie de procesos, pero vamos a centrarnos en la integración, el perfilado, la limpieza y la gobernanza de datos. Si bien, antes de adentrarnos en estas cuestiones, repasemos a vista de pájaro cuáles son las tareas que se realizan en el proceso de preparación de los datos:
Recopilación
La recopilación de datos consiste en reunir datos de múltiples fuentes y ponerlos a disposición en un formato que pueda ser fácilmente accesible para su tratamiento.
Limpieza
El proceso de limpieza (Data Cleansing), persigue identificar y corregir errores, incoherencias y duplicados en un conjunto de datos, con el fin de mejorar su calidad y dotarles de mayor utilidad para el análisis.
Transformación
El proceso de transformación (Data Transformation) se centra en convertir los datos de un formato a otro para que sea compatible con el sistema de destino, de forma que sean más útiles para el análisis y la toma de decisiones. identificar tendencias, patrones y relaciones a lo largo del tiempo.
Enriquecimiento
El enriquecimiento de los datos (Data Enhacement) es el proceso que busca la mejora y la utilidad de los datos agregando información adicional proveniente de diversas fuentes. Como resultado, los datos se convierten en activos más valiosos con una visión más profunda y precisa para la toma de decisiones.
Integración
La integración de datos (Data Integration) es el proceso de combinar datos de diversas fuentes para crear una vista unificada y coherente para facilitar el acceso a una visión completa de todo el universo de datos.
Validación
La validación de los datos (Data Validation) es el proceso que permite asegurar que los datos sean precisos, consistentes y estén correctamente formateados antes de ser utilizados para el análisis, la generación de informes o la toma de decisiones. Implica verificar que cumplen con un conjunto predefinido de reglas o restricciones, comprobando su tipo, rango, formato, etc.
En esencia, la preparación de datos busca resolver problemas comunes como:
Datos incompletos
Qué debemos hacer con los valores que faltan o que son nulos y que deberían ser tratados o rechazados durante el proceso de preparación.
Datos inconsistentes
Cómo debemos resolver la inconsistencia que aparece como consecuencia de que los datos tienen diferentes formatos o las unidades de medida son dispares y deben ser estandarizados.
Datos incorrectos
Cómo debemos gestionar los errores tipográficos, valores fuera de rango o datos erróneos que deberían ser corregidos para homogeneizar y dar consistencia al análisis.
Datos duplicados
Qué estrategias seguir para la eliminación de registros repetidos que pueden introducir sesgos en el análisis con impacto en los resultados.
Pero antes de comenzar, es importante definir con claridad qué necesita la organización y como alcanzar el objetivo.
Ya hemos descrito anteriormente a vista de pájaro en qué consiste el proceso de preparación de los datos, pero como pauta general, cualquier tipo de análisis de datos empieza por familiarizarse con las preguntas de la empresa a las que queremos responder y las métricas que pretendemos medir.
Una comprensión firme de los requisitos de la empresa nos permitirá más tarde relacionar estas demandas con los datos y los tipos de análisis que querremos realizar. No entender lo que la empresa espera puede, al principio, llevarnos a perder mucho tiempo y esfuerzo más adelante, así que no debemos saltarnos este paso ni tomarlo a la ligera.
He aquí una guía para la inspiración, una dinámica de trabajo basada en la experiencia de Parapentex Studios.
Comprendiendo y agrupando los requisitos, el contexto y los resultados esperados: Challenge layout

Seis preguntas que deberías hacerte al preparar los datos para si análisis
Una vez que tengas una idea clara de lo que tu empresa espera ver como producto final, deberás empezar a examinar los datos. Y lo primero que hay que hacer es encontrarlos.
(1) ¿Dónde están los datos?
La primera serie de preguntas se refiere a la integración de las fuentes de información, es decir, a las ubicaciones físicas en las que se almacenan los datos dentro de la organización. Para un despliegue pequeño, esto podría ser tan simple como una serie de hojas de cálculo; para aquellos casos dónde las ubicaciones son dispares, podrías estar buscando múltiples bases de datos, sistemas Hadoop, fuentes en la nube o un almacén de datos corporativo.
También tendrás que averiguar si tienes los permisos necesarios para acceder a los datos y con qué tipos o formatos de datos vas a tratar.
Las preguntas que conviene plantearse en esta fase son:
- ¿Con qué fuentes de datos trabaja mi organización?
- ¿Tengo los permisos o credenciales necesarios para acceder a los datos?
- ¿Cuál es el tamaño de cada conjunto de datos y cuántos datos necesitaré obtener de cada uno?
- ¿Hasta qué punto conozco las tablas subyacentes y el esquema de cada base de datos?
- ¿Necesito todos los datos para un análisis más detallado, o necesito un subconjunto para garantizar un rendimiento más rápido?
- ¿Necesitaré normalizar los datos debido a su disparidad, por ejemplo, combinando datos de una base de datos SQL con una fuente NoSQL como MongoDB?
- ¿Necesitaré analizar datos de fuentes externas, que residen fuera de los almacenes de datos de mi organización?
(2) ¿Necesito modificar los datos?
A menudo es necesario transformar o manipular manualmente los datos para realizar un análisis eficaz. Esto puede ser relevante cuando varias tablas o conjuntos de datos utilizan formatos diferentes para la misma información, cuando los datos son incoherentes o contienen información duplicada, o cuando se desea agrupar los datos de nuevas formas.
Esto es lo que hay que preguntarse:
- Para cada fuente individual: ¿está completa? ¿Es precisa? ¿Está actualizada?
- En su estado actual: ¿Puedo utilizar los datos para responder a mis preguntas empresariales?
- Si hay incoherencias o valores redundantes: ¿Qué tengo que hacer para depurar los datos? ¿Es cuestión de cambiar manualmente algunos valores o será necesario un enfoque más sistemático?
- ¿Mi herramienta se conectará a los datos brutos para que pueda realizar tareas descubrimiento de datos o una exploración en alta resolución? ¿Podré modificar los datos en su ubicación original o será necesario hacerlo en un entorno secundario (por ejemplo, en los casos en los que no tenga permisos para modificar los datos de producción)?
(3) ¿Cómo conectaré los datos?
Si trabajas con muchas fuentes de datos y tablas diferentes, tendrás que modelar los datos de forma que los usuarios puedan recibir rápidamente —en un informe o en un cuadro de mando— respuestas a consultas ad hoc combinando campos relacionados en diferentes tablas. La relación entre las distintas entidades de su modelo de datos determinará los tipos de consultas a los que podrás responder en los futuros análisis, así como la eficacia con la que se realizará.
Deberías empezar por preguntarte:
- ¿Qué relación se producirá una vez conectados estos campos? Evite las relaciones de muchos a muchos.
- ¿Será escalable mi modelo de datos?
- ¿Será fácil añadir fuentes de datos y realizar cambios en el modelo en el futuro?
- ¿Podemos simplificar la relación sin afectar al rendimiento?
Debes tener en cuenta que esto puede depender de las herramientas de preparación y análisis de datos que utilizas habitualmente.
(4) ¿Necesitas consolidar más los datos?
Para determinados tipos de análisis, sobre todo los más complejos, es posible que desees crear nuevas tablas además de las existentes. Un ejemplo de esto puede ser el análisis de embudo, en el que querríamos tomar la información básica sobre un proceso en curso de varias etapas y crear varios cubos en los que se clasificaría cada registro.
Algunos ejemplos de preguntas que pueden ayudarte a saber si está listo para empezar son:
- ¿Necesito crear tablas resumen para los tipos de análisis que quiero realizar?
- ¿Necesito unir los datos de las tablas con las que estoy trabajando mediante una unión interna o externa, o combinar estas tablas para crear una nueva?
(5) ¿Cómo importarás los datos?
Si bien hay ciertas situaciones en las que es adecuado crear informes y análisis consultando las bases de datos de producción, la mayoría de las herramientas e implementaciones de BI se basarán en una amalgama de los datos almacenados en un entorno secundario que servirá como su base de datos analítica.
Las preguntas que debes hacerte incluirán, entre otras, las siguientes:
- ¿El servidor local o en la nube al que traslado mis datos tiene suficiente software y hardware para procesar las cantidades de datos con las que estoy tratando? Ambas cosas dependen en cierta medida, ya que el software adecuado puede reducir los costes de hardware.
- ¿Con qué frecuencia debo importar los datos? Depende del ritmo al que cambien o crezcan los datos originales.
- ¿Cómo afectará la importación de datos a mi entorno de producción?
(6) ¿Cómo verificarás los resultados?
Antes de anunciar con orgullo que has terminado el proceso de preparación de los datos, querrás asegurarse de que el resultado final es exacto y de que no has cometido ningún error por el camino. Para verificar los datos, hazte preguntas como:
- ¿Tiene sentido a nivel general?
- ¿Las medidas que veo coinciden con lo que ya sé de la empresa?
- ¿Los cálculos en mi entorno analítico arrojan los mismos resultados que los mismos cálculos realizados manualmente en los datos originales?
Entonces, ¡ya puedes comenzar a analizar!
Una vez que hayas repasado toda la lista de comprobación anterior, habrás identificado los datos, los habrás transformado, habrás construido el modelo de datos y trasladado los datos a una base de datos analítica y verificado los resultados. Esto puede ser una cuestión de horas, días o más, dependiendo de la cantidad de datos con los que trabajes y de su complejidad.
Si todo ha ido bien, ya puedes empezar a crear cuadros de mando.
Y si lo consideras, nuestra guía de buenas prácticas de diseño de cuadros de mando te ayudará a asegurar de que sigues los principios básicos fundamentales para contar una historia clara y comprensible con tus datos.
¿Quieres saber cómo tu organización puede mejorar su estrategia de preparación de datos y cómo Sisense puede ayudarte a realizar este proceso con la máxima eficiencia?
Hablemos, te mostraremos cómo es posible hacerlo realidad viendo Sisense en acción.
Parapentex Studios, July 2025