Databricks lanza OpenSharing para revolucionar el intercambio seguro de habilidades y modelos de IA

Databricks presenta OpenSharing, un protocolo abierto que reemplaza a Delta Sharing y permite compartir datos, habilidades y modelos de inteligencia artificial de forma segura y sin copias entre organizaciones y plataformas, impulsando la colaboración en IA.

Databricks ha lanzado OpenSharing, la evolución de su protocolo abierto Delta Sharing, con el objetivo de facilitar y asegurar el intercambio de datos y activos de inteligencia artificial (IA) entre empresas y plataformas. Esta nueva propuesta añade soporte para los clientes Apache Iceberg REST Catalog y amplía la integración con proveedores de almacenamiento on-premise como Everpure (antes Pure Storage), MinIO y Qumulo, entre otros.

Además, OpenSharing se convierte en un proyecto independiente dentro de la Linux Foundation, ampliando la capacidad de compartir sin necesidad de copiar los activos más allá de tablas, e incluyendo ahora habilidades para agentes, modelos de IA y datos no estructurados. Esto supone un avance significativo para el ecosistema de IA, que hasta ahora había carecido de un protocolo abierto que facilitara la colaboración segura y eficiente.

De Delta Sharing a OpenSharing: un salto hacia el futuro

En 2021, Databricks lanzó Delta Sharing como parte de Delta Lake, su formato abierto de tablas, presentándolo como el primer protocolo abierto para el intercambio seguro de datos entre organizaciones. Desde entonces, el protocolo se ha convertido en el estándar de facto, con miles de clientes y socios, incluyendo Amadeus, Atlassian, LSEG, SAP, Stripe y The Trade Desk.

Patrocinado

Matei Zaharia, CTO y cofundador de Databricks, ha destacado que «Delta Sharing demostró que la industria prefería una solución abierta frente a opciones cerradas y exclusivas». A pesar del lanzamiento de OpenSharing, los usuarios actuales de Delta Sharing seguirán operando sin alteraciones, ya que el nuevo protocolo garantiza la compatibilidad hacia atrás y añade nuevas funcionalidades y tipos de activos sin romper el sistema existente.

La solución al problema de «envíame un archivo por correo»

Akram Chetibi, responsable del equipo de producto para integraciones y ecosistemas en Databricks, revela que las habilidades para agentes son el tipo de activo más solicitado para compartir, seguidas por los modelos de IA. Antes de unirse a Databricks, Chetibi fue uno de los responsables de producto en AWS Data Exchange y contribuyó en el lanzamiento de AWS Clean Rooms.

Según Chetibi, «actualmente no existe una forma sencilla y eficiente de compartir habilidades para agentes. Normalmente, la gente se las envía por correo electrónico en archivos, pero cuando se requiere una actualización, surge el problema de la gestión y distribución de nuevas versiones».

OpenSharing aporta el primer protocolo abierto y neutral para el intercambio seguro de activos de IA, evitando los parches temporales o las integraciones personalizadas. Frente a las alternativas que pertenecen a mercados específicos o plataformas propietarias, como AgentExchange de Salesforce o los marketplaces de AWS y Microsoft, OpenSharing permite a los proveedores publicar una única vez una habilidad o modelo, que puede ser consumida por cualquier socio mediante APIs estándar para descubrimiento, autorización y acceso directo a la fuente, sin necesidad de copiar los datos.

Importante destacar que OpenSharing no impone un formato específico para las habilidades o modelos que se comparten, favoreciendo la flexibilidad y adaptabilidad.

Funcionamiento y soporte técnico del protocolo

El protocolo mantiene los requisitos fundamentales de colaboración externa: debe funcionar a través de nubes, regiones y plataformas, y ofrecer acceso en vivo o «zero-copy» para evitar la duplicación innecesaria de datos.

Las entidades proveedoras organizan los activos en una ‘share’ (compartición), que contiene esquemas. Un esquema puede ahora almacenar tablas, modelos de IA o habilidades para agentes. El método para compartir varía según el tipo de activo: los datos estructurados se comparten como archivos Parquet mediante URLs firmadas para cada partición y accesibles a través de APIs compatibles con Delta o Iceberg, con funcionalidades como feeds de cambio de datos. Por otro lado, los activos no estructurados y de IA se gestionan mediante la emisión de tokens en la nube para el almacenamiento subyacente, manteniendo independencia de la plataforma cloud.

Por ahora, el protocolo está diseñado para el intercambio externo de solo lectura entre organizaciones, sin incluir la gobernanza interna, que se espera sea abordada en futuras actualizaciones.

Integración con Apache Iceberg y expansión de la compatibilidad

OpenSharing amplía su interoperabilidad al añadir soporte para la API de Apache Iceberg, que complementa a Parquet y se está consolidando como estándar para compartir tablas analíticas. Chetibi enfatiza que los formatos pierden importancia en la práctica, ya que todos son variantes de Parquet con diferentes metadatos adjuntos.

Delta Sharing ya contaba con conectores para Apache Spark, Power BI, Excel y Python, además de soporte para Snowflake como destinatario. La inclusión de Iceberg abre el acceso a cualquier herramienta compatible, ampliando notablemente las opciones para los proveedores de datos.

Databricks ha apostado desde hace tiempo por esta convergencia tecnológica. En 2024 adquirió Tabular, una empresa fundada por creadores de Apache Iceberg, por un importe cercano a los 2.000 millones de dólares, y promueve la convergencia entre los metadatos de Delta y Iceberg en la especificación Iceberg v4.

Por su parte, Snowflake también ha extendido su ecosistema para compartir Iceberg y tablas Delta en varias nubes y regiones, presumiendo de un ecosistema abierto más de dos veces y media mayor que sus competidores. Sin embargo, mientras Databricks ofrece un protocolo abierto que otros pueden implementar, Snowflake opera su sistema de compartición principalmente a través de su propia plataforma.

El protocolo llega a entornos locales (on-premise)

Los proveedores de almacenamiento Everpure, MinIO y Qumulo están ofreciendo servicios gestionados basados en OpenSharing desde su lanzamiento, y compañías como Cohesity, Commvault, Hewlett Packard Enterprise, NetApp, Nutanix, Rubrik y VAST Data tienen previsto incorporarse próximamente.

Estos proveedores gestionan internamente los servidores OpenSharing, por lo que los clientes no necesitan mantener sus propias infraestructuras. Chetibi asegura que «una vez que los socios alojan el servidor localmente, puedes conectarte con el mismo protocolo que usarías con cualquier otra nube o plataforma».

Para que esto fuera posible, el protocolo tuvo que ser adaptado para soportar datos no estructurados y activos de IA, ya que las infraestructuras on-premise no se limitan a tablas, y Databricks quería que fueran los proveedores de almacenamiento, no los clientes, los responsables de operar los servidores.

Gobernanza abierta y colaboración comunitaria

OpenSharing se suma a los proyectos de Databricks bajo el paraguas de la Linux Foundation, como Delta Lake y Unity Catalog, que la propia empresa donó a LF AI & Data en junio de 2024. Esta decisión busca fomentar un ecosistema verdaderamente abierto y colaborativo.

«No queremos que esto sea algo exclusivo de Databricks; es un protocolo abierto utilizado y respaldado por muchas otras plataformas independientes», concluye Chetibi.

Add a Comment

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Patrocinado