En el mundo empresarial, los datos no productivos constituyen aproximadamente el 80% del total de información almacenada, superando ampliamente el volumen de los datos productivos que suelen centrarse en aplicaciones directas al cliente. Sin embargo, a diferencia de los datos productivos, que reciben una vigilancia rigurosa en materia de seguridad y privacidad, los datos no productivos suelen quedar al margen, lo cual implica un riesgo de gobernanza significativo que muchas organizaciones no están abordando debidamente.
Las empresas inspeccionan minuciosamente sus entornos productivos, implementando medidas estrictas para proteger los datos asociados a clientes, operaciones comerciales y sistemas en producción. No obstante, los entornos destinados al desarrollo de software, pruebas, aseguramiento de calidad, análisis de datos e incluso iniciativas de inteligencia artificial y aprendizaje automático, apenas reciben una atención comparable. Estas áreas, tradicionalmente vistas como necesidades operativas, deben pasar a considerarse prioridades estratégicas en términos de gobernanza.
Uno de los problemas más graves reside en la copia reiterada de datos productivos hacia ambientes no productivos, fenómeno que se repite entre ocho y doce veces para conjuntos de datos como información de clientes. Este proceso genera una dispersión masiva y difícil de controlar de los datos, donde los controles de seguridad suelen desaparecer, aplicarse de forma inconsistente o directamente ignorarse en el manejo de información sensible.
Cada duplicado de la información amplía la superficie de ataque vulnerable a intrusiones, mientras que las exenciones de cumplimiento aumentan los puntos ciegos en la supervisión. No es raro que un ingeniero de software tenga guardada una copia de una base de datos con datos de clientes en su equipo personal sin que nadie más en la organización lo sepa, e incluso que él mismo haya olvidado su existencia.
El informe Perforce 2025 State of Data Compliance and Security arroja luz sobre esta problemática: un 84% de los encuestados admite permitir excepciones de cumplimiento de datos en entornos no productivos, mientras que un 60% ha sufrido brechas o robos de datos en estos mismos entornos. Además, el 32% ha enfrentado problemas o fallos en auditorías de cumplimiento, y un 22% ha recibido multas regulatorias.
La complejidad añadida de la inteligencia artificial y la nube
La expansión de la nube multiplica las dificultades, pues ahora enorme parte de esos datos está distribuida en múltiples plataformas, ubicaciones geográficas y proveedores, lo que complica su localización, gestión y protección efectiva.
Antes era habitual suponer que la mayoría de los entornos de desarrollo y pruebas se encontraban bajo control en centros de datos propios. Actualmente, esos datos circulan entre entornos híbridos, con crecientes regulaciones sobre la soberanía de los datos que exigen un control exhaustivo sobre dónde residen y cómo se gestionan.
Por otro lado, la inteligencia artificial agrega un nivel adicional de complejidad al mover datos a una velocidad sin precedentes. Los agentes autónomos de IA realizan tareas como pruebas masivas o despliegues de nuevas funcionalidades sin supervisión humana directa, lo que incrementa exponencialmente los riesgos asociados a la gobernanza. Pese a ello, el 2026 Perforce State of DevOps Report revela que solo un 39% de 820 encuestados cuenta con auditorías totalmente automatizadas.
Una necesidad creciente de datos realistas y accesibles
El reto principal se desglosa en cuatro elementos clave:
- Los equipos de desarrollo, pruebas e IA requieren datos realistas con rapidez.
- Los desarrolladores y equipos de QA necesitan conjuntos de datos que reflejen con precisión situaciones reales.
- Los proyectos de inteligencia artificial demandan grandes volúmenes de datos para entrenar y validar modelos.
- Los programas de transformación en la nube dependen de ciclos continuos de desarrollo y pruebas mientras migran y modernizan aplicaciones.
Ante estas exigencias, el uso de datos productivos en entornos no productivos puede entenderse por la agilidad que ofrece. Obtener conjuntos de datos cumplidores con normativas suele conllevar procesos lentos que pueden demorar desde días hasta semanas, resultando incompatibles con las metodologías ágiles, las iteraciones rápidas y las correcciones urgentes.
Adicionalmente, existe la percepción —a menudo errónea— de que replicar la complejidad y realismo de los datos de producción, incluso mediante anonimización o datos sintéticos, es complicado. Por ello, el camino más sencillo suele ser utilizar directamente los datos reales, dejando los riesgos latentes hasta que ocurre un incidente.
Esta práctica ya no es sostenible. Las regulaciones internacionales sobre protección y soberanía de datos imponen cada vez mayores condiciones, y el avance de la inteligencia artificial traerá más obligaciones de cumplimiento normativo.
Facilitar el uso de datos seguros es la solución
La clave está en ofrecer alternativas seguras que sean más rápidas y sencillas de emplear que los propios datos productivos. Por ejemplo, los sistemas automatizados de autoservicio pueden entregar conjuntos de datos en minutos, reduciendo el incentivo para manejar datos originales en entornos no autorizados.
Las tecnologías de enmascaramiento y generación de datos sintéticos han mejorado sustancialmente y actualmente existe un amplio abanico de métodos y herramientas para diferentes aplicaciones.
El enmascaramiento dinámico, por ejemplo, oculta información sensible en tiempo real cuando se realiza una consulta, aunque los datos originales permanecen en el repositorio, exponiéndose al riesgo ante posibles ataques y por ello recomendándose generalmente solo para casos concretos como la analítica.
Enmascaramiento estático de datos
En entornos de desarrollo y pruebas, especialmente bajo estrictas regulaciones, el enmascaramiento estático es la opción más segura. Consiste en modificar los datos sensibles directamente en el conjunto de datos, de forma que incluso si un atacante accede al entorno, no podrá obtener información real, pues ya se ha desensibilizado.
Las tecnologías modernas además garantizan la integridad referencial, algo imprescindible para mantener la coherencia de los datos durante las pruebas que afectan múltiples sistemas.
Asimismo, el uso de datos sintéticos cobra cada vez más relevancia, especialmente en proyectos de desarrollo de aplicaciones nuevas y ciertas iniciativas de inteligencia artificial. Estos datos imitan las propiedades estadísticas y patrones de comportamiento de los datos reales sin contener información personal, permitiendo innovación y experimentación con menores riesgos.
Sea cual sea la tecnología, es crucial integrar el enmascaramiento y la generación de datos sintéticos en los flujos de trabajo y pipelines de CI/CD para eliminar barreras en su uso.
Otra necesidad vital para las organizaciones es tener una visibilidad exhaustiva del ciclo de vida de los datos: dónde se almacenan, si existen copias en backups o bases de datos adicionales, o si se han añadido nuevas categorías sensibles por parte de áreas de seguridad o reguladoras, y asegurarse de conocer exactamente dónde residen estos datos.
En regiones como EMEA, la soberanía de datos es un tema prioritario, por lo que la capacidad de rastrear el origen y la historia de los datos, y distinguir claramente entre datos reales y artificiales, es fundamental.
El factor cultural: gobernanza como prioridad estratégica
En tecnologías de la información, el éxito depende tanto de la cultura y los procesos como de las herramientas. Adoptar una mentalidad de gobernanza que considere los datos no productivos como una cuestión de ingeniería de primer orden es esencial. Esto implica aplicarles el mismo nivel de propiedad, monitorización y disciplina operacional que a los datos productivos.
La gobernanza no debe verse solo como una medida defensiva, sino también como una facilitadora que permite a las organizaciones avanzar más rápido, reducir fricciones operativas y elevar la eficiencia en el desarrollo.
Además, el ahorro económico es tangible. La virtualización y el uso de conjuntos de datos enmascarados más pequeños y de mayor calidad pueden disminuir las copias redundantes de datos no productivos, reduciendo así el almacenamiento y consumo de recursos computacionales.
Aunque los datos no productivos permanecen «bajo la superficie» en las infraestructuras TI de las empresas, su relevancia es incuestionable. Los riesgos en materia de seguridad, privacidad, cumplimiento y operatividad ya son demasiado altos para ser ignorados. Con la aceleración en la entrega de software y la movilidad de datos en entornos cada vez más distribuidos impulsadas por la inteligencia artificial, es el momento de dotar a estos datos del nivel de protección que merecen.