Avec Polaris Catalog, Snowflake propose un catalogue de données ouvert pour Apache Iceberg

Aucun moteur de requête d'un fournisseur ne peut posséder et verrouiller les données clients. C'est la promesse que fait Snowflake avec le lancement de Polaris Catalog, un catalogue de données ouvert pour le format de table populaire Apache Iceberg. En parallèle, la firme a annoncé la disponibilité générale des Iceberg Tables, deux ans après leur lancement initial.

Célia Séramour

Publié le 4 juin 2024 à 19h00

Snowflake - Polaris catalog - tables Iceberg — Sridhar Ramaswamy, CEO de Snowflake, a dévoilé Polaris Catalog, un catalogue open source pour Apache Iceberg.

Alors que débute l'édition 2024 du Snowflake Summit, le spécialiste du data cloud a fait part de plusieurs annonces, notamment autour des tables Apache Iceberg, un format qui a gagné en popularité ces dernières années. "Ce que nous faisons ici, c'est introduire un nouveau catalogue de données ouvert, appelé Polaris Catalog, qui a pour but d'indexer et d'organiser les données conformes au format de tables ouvert Apache Iceberg", indique Christian Kleinerman, EVP of Product de Snowflake.

La firme veut mettre l'accent sur sa capacité, en tant que plateforme, à prendre en charge les données selon les conditions des entreprises, y compris les données non structurées. Car selon Snowflake, l'enjeu derrière – l'interopérabilité – est désormais clé pour les entreprises. Sa solution Polaris doit donc soutenir cette interopérabilité avec d'autres moteurs de requête.

Le pari de l'open source

En prime, l'entreprise prévoit de publier sa solution en open source dans les trois prochains mois pour proposer aux entreprises un maximum de choix, de flexibilité et de contrôle sur leurs données. En clair, avec Polaris Catalog, les utilisateurs disposent désormais d'un endroit centralisé où n'importe quel moteur peut trouver et accéder aux tables Iceberg d'une organisation avec une interopérabilité complète et ouverte.

Pour ce faire, Polaris s'appuie sur le protocole REST open source d'Iceberg, qui fournit un standard ouvert. Ainsi, les utilisateurs peuvent accéder à des données et les récupérer à partir de n'importe quel moteur prenant en charge l'API Rest d'Iceberg, notamment Apache Flink, Apache Spark, Dremio, Python, Trino et bien d'autres.

Mettre un terme au verrouillage des données clients

Les entreprises peuvent dès aujourd'hui exécuter Polaris Catalog hébergé dans l'AI Data Cloud de Snowflake (Snowflake-hosted en avant-première publique bientôt), ou l'auto-héberger dans leur propre infrastructure à l'aide de conteneurs tels que Docker ou Kubernetes. Comme l'implémentation du back-end de Polaris Catalog sera open source, l'avantage pour les entreprises réside dans la possibilité de changer librement d'infrastructure d'hébergement tout en éliminant le verrouillage du fournisseur.

Snowflake promet une interopérabilité d'Apache Iceberg avec un certain nombre d'entreprises dotées de moteurs de requête ouverts, incluant Amazon Web Services (AWS), Confluent, Dremio, Google Cloud, Microsoft Azure, Salesforce.

Les Tables Iceberg enfin disponibles pour tous

En parallèle, une autre des annonces phares concerne la disponibilité générale des Tables Iceberg sur les trois principaux fournisseurs de cloud dans toutes les régions. Le travail autour des Tables Iceberg a débuté en 2022 lorsque ces dernières ont été annoncées pour la première fois. Alors présentées par Christian Kleinerman comme des "tables de première classe", elles avaient pour objectif d'offrir "les mêmes fonctions de gestion, de DML et de CRUD que les tables internes, avec des performances similaires".

Lors de la publication des résultats du premier trimestre fiscal 2025 de Snowflake, son CEO Sridhar Ramaswamy, avait alors apporté quelques chiffres quant à l'utilisation de ces tables. "Nous avons annoncé la prise en charge des données non structurées il y a plus de deux ans. Aujourd'hui, environ 40% de nos clients traitent des données non structurées sur Snowflake. Et nous avons ajouté plus de 1 000 clients dans cette catégorie au cours des six derniers mois".

Un certain nombre d'entreprises utilisent déjà ces tables pour mettre en œuvre des data lakehouses, des data lakes et des data mesh, à l'instar de Booking, Capital One ou encore Indeed et ainsi développer des pipelines de données ou des modèles. "Avec Iceberg, nous pouvons élargir nos cas d'utilisation de Snowflake en tant que data lakehouse ouvert pour le machine learning, l'intelligence artificielle, la veille stratégique et l'analyse géospatiale, même pour les données stockées à l'extérieur", témoigne Thomas Davey, chief data officer de Booking.com.

Avec Polaris Catalog, Snowflake propose un catalogue de données ouvert pour Apache Iceberg

Le pari de l'open source

Mettre un terme au verrouillage des données clients

Les Tables Iceberg enfin disponibles pour tous

À lire aussi