Gestión de la calidad de los datos
Análisis precisos y decisiones correctas gracias a la limpieza de los datos
Los beneficios de la inteligencia empresarial dependen de la calidad de los datos utilizados. Las conclusiones que se obtienen a partir de datos poco limpios son incorrectas. Y las decisiones tomadas sobre esa base pueden acarrear problemas importantes. Fiel al lema «basura dentro, basura fuera». Por ello, la alta calidad de los datos es un factor de éxito decisivo para las empresas. Sin embargo, aunque en la mayoría de las empresas se reconoce la importancia de la calidad de los datos, en muchas de ellas éstos siguen siendo inadecuados.
¿Qué es la calidad de los datos y su gestión?
La calidad de los datos es un término subjetivo que debe definirse individualmente para cada empresa. Son todas las propiedades de una base de datos que cumplen los requisitos del usuario.
La gestión de la calidad de los datos se refiere a todos los procesos y procedimientos que tienen por objeto garantizar una alta calidad de los datos. Esto incluye la identificación, depuración y suministro de datos.
Las principales razones de la mala calidad de los datos
Los datos nunca son 100% limpios y perfectos. Esto puede deberse al hecho de que los datos llegan a una empresa de diferentes maneras. Como resultado, pueden estar desfasados, duplicados o ser incoherentes. Para garantizar la máxima calidad posible de los datos, es útil conocer las razones más importantes de los datos incorrectos. De este modo, puede evitar de antemano los datos de mala calidad. Estas son las razones más importantes:
- Introducción manual de datos: en muchas empresas, los datos se introducen manualmente. Sin embargo, esto es muy propenso a errores. Los datos pueden introducirse en el lugar equivocado o en el formato incorrecto, y es fácil que se produzca un error tipográfico o una transposición de dígitos.
- Conversión de datos: al transferir datos de una ubicación de almacenamiento a otra, los datos pueden perderse o modificarse accidentalmente. Esto puede deberse, por ejemplo, a que los datos se guardan en formatos distintos o a que la estructura de los datos es diferente.
- Actualizaciones en tiempo real: para tomar buenas decisiones, es importante trabajar con datos actualizados en todo momento. Sin embargo, aquí también pueden producirse errores si los registros de datos individuales aún no se han actualizado en el momento de un análisis o porque aún no ha habido tiempo suficiente para comprobar los datos.
- Fusión de datos: Si hay que fusionar datos, por ejemplo durante consolidaciones, fusiones de empresas o cambios en el sistema, también pueden producirse errores como formatos no válidos, duplicados y conflictos.
- Actualizaciones del sistema: las actualizaciones frecuentes del software también pueden provocar errores, ya que es posible que se borren o corrompan datos.
- Recogida indiscriminada de datos: las empresas suelen recoger todos los datos que se generan. Esto encierra cierto potencial, ya que los datos pueden ser necesarios en el futuro. Sin embargo, también dificulta la garantía de calidad y el análisis de datos. Por esta razón, sólo deben guardarse los datos que realmente se necesitan.
¿Cómo medir la calidad de los datos? Los criterios
Varios criterios le muestran la calidad de sus datos y si éstos son adecuados para una tarea específica.
- Exhaustividad: ¿Están completos todos los registros de datos obligatorios?
Los datos incompletos pueden no ser utilizables o serlo sólo parcialmente. Por lo tanto, debe garantizarse que un registro de datos contenga todos los atributos necesarios y que los atributos, a su vez, contengan todos los datos necesarios. - Pertinencia: ¿Se dispone de todos los datos necesarios para los fines previstos?
No todos los datos que se recogen son pertinentes para sus fines. Por lo tanto, deben recopilarse deliberadamente, de modo que sólo se registren los datos necesarios. Esto se aplica en particular a los datos de los clientes sujetos a protección de datos. - Precisión: ¿Los datos registrados son correctos y conformes?
Cuando se recogen datos, es importante asegurarse de que son correctos. Al mismo tiempo, también deben estar disponibles con el nivel de detalle necesario. Esto significa, por ejemplo, que deben guardarse todos los decimales necesarios. - Actualización: ¿Están actualizados los registros de datos?
En una empresa se crean constantemente nuevos datos. Por tanto, tiene sentido realizar siempre análisis con datos actualizados para detectar cambios o problemas en una fase temprana. En la práctica, solemos recomendar a nuestros clientes que se remitan a datos con un estado fiable a la hora de tomar decisiones. Dependiendo de la situación, puede tener sentido utilizar los datos del día anterior, por ejemplo, ya que los datos en directo pueden cambiar en un espacio de tiempo muy corto. - Validez: ¿Es fiable el origen de los datos o proceden de fuentes fiables?
El origen de los registros de datos debe poder rastrearse para evaluar si los datos son fiables. - Disponibilidad y accesibilidad: ¿Pueden los usuarios acceder fácilmente a los datos que necesitan? ¿Están disponibles en el formato requerido?
Si, por ejemplo, los datos pertinentes están distribuidos en distintas herramientas o no están disponibles en el formato correcto, no siempre es fácil acceder a ellos. - Coherencia: ¿Existen contradicciones o duplicaciones en los datos? ¿Hay discrepancias con otros datos?
Los datos deben ser inequívocos, sin contradicciones consigo mismos ni con otros datos y sin redundancias, así como uniformemente estructurados.
¿Qué se puede hacer para garantizar una alta calidad de los datos?
Para que los datos sean siempre de alta calidad, primero hay que determinar cómo se puede medir su calidad. A continuación, los datos deben analizarse, depurarse y controlarse en función de los criterios definidos. Este proceso debe llevarse a cabo con regularidad para mantener una alta calidad de los datos y poder eliminar permanentemente las fuentes de error.
1. definir criterios
El primer paso consiste en determinar qué criterios deben utilizarse para medir la calidad de los datos. Por ejemplo, define qué datos deben estar disponibles para sus fines y en qué formato deben estar disponibles.
2. perfilado de datos / análisis de datos:
El análisis de datos sirve para reconocer datos duplicados, contradicciones, errores e información incompleta. De este modo, se puede medir la calidad de los datos y limpiarlos y actualizarlos en etapas posteriores. Además, el análisis de los datos puede servir para identificar las fuentes de error y así tomar medidas para que los errores reconocidos no vuelvan a producirse en el futuro.
3. limpieza de datos / depuración de datos:
En la fase de depuración de datos se rectifican los problemas detectados en el análisis de datos. Esto significa que se suprimen los duplicados, se completan los datos incompletos o se corrigen las incoherencias.
4. control de datos / supervisión de datos:
Los datos existentes y los nuevos deben revisarse continuamente para garantizar una alta calidad de los datos a largo plazo.
Consejos para la gestión de la calidad de los datos
1. determinar quién es responsable
Sin alguien que asuma la responsabilidad de la calidad de los datos, puede que nadie se sienta responsable de ella. Por lo tanto, es importante definir quién es responsable. Según el registro de datos, puede tratarse de diferentes personas, pero también de un único empleado. Los responsables son responsables de garantizar que se respetan las normas definidas al crear los datos y que éstos se comprueban y mantienen periódicamente.
2. tratamiento de los defectos de calidad
La calidad de los datos no existe al cien por cien, ya que pueden producirse errores en cualquier momento. Sin embargo, en función de la aplicación, es posible determinar qué datos deben ser correctos para realizar análisis correctos y tomar así las decisiones adecuadas.
Nuestro consejo: es importante que el mayor número posible de registros de datos sean correctos. Sin embargo, la relación entre costes y beneficios de las correcciones puede ser mala, por ejemplo si la limpieza de los datos lleva mucho tiempo, pero después se utilizan muy poco o no tienen ninguna relevancia. Por lo tanto, debe dar prioridad a resolver las deficiencias de calidad de los datos esenciales.
3. mejorar la calidad de los datos directamente en la fuente
Las soluciones de inteligencia empresarial como myPARM BIact le ofrecen la posibilidad de modificar, corregir o añadir manualmente datos almacenados. Sin embargo, debe tener en cuenta que, con estas correcciones, la fuente de datos sigue siendo incorrecta y que las correcciones manuales también tienen un alto potencial de error. También puede ocurrir que se pasen por alto errores existentes. Por lo tanto, la calidad de los datos debe mejorarse en la fuente de datos siempre que sea posible. Esto proporciona al software de BI datos de alta calidad.
4. control continuo de los datos
Cuanto más a menudo reconozca los errores, los corrija y actúe contra ellos, mayor será la calidad de sus datos en el futuro. No obstante, es importante considerar la calidad de los datos como un proceso iterativo, ya que en cualquier momento pueden surgir nuevos errores, cambiar los requisitos de los datos o aumentar el volumen de éstos y su diversidad. Por tanto, el proceso de gestión de la calidad de los datos debe llevarse a cabo de forma continua.
Conclusión
Tomar decisiones basadas en datos y no en el instinto puede contribuir en gran medida al éxito de su empresa. Sin embargo, esto conlleva el riesgo de que los datos que condujeron a una decisión sean incorrectos. Por este motivo, es importante que una buena gestión de la calidad de los datos garantice que siempre pueda confiar en la exactitud de los mismos.
Más información sobre el software de inteligencia empresarial myPARM BIact:
¿Desea conocer myPARM BIact en una demostración? Entonces, ¡concierte una cita con nosotros ahora mismo!