Dans les environnements data, la documentation est souvent le maillon faible : sous-priorisée, partiellement maintenue, rarement alignée avec la réalité du code ou des données en production.

Snowflake Cortex et dbt Copilot

Deux outils basés sur l’IA commencent à faire leur place pour améliorer la documentation des data warehouse : Snowflake Cortex et dbt Copilot.

Voici une analyse comparative pour comprendre quand, comment et pourquoi les intégrer efficacement dans vos pipelines data.

Snowflake Cortex :

✅ Génère des descriptions de table/colonnes à partir de l’analyse des métadonnées et d'échantillons de données.

✅ Aucune configuration requise : utilisable directement depuis Snowsight.

✅ Très utile pour comprendre des bases de données historiques ou mal documentées.

❌ Génère parfois des descriptions génériques.

❌ Ne tient pas compte du contexte métier ni des règles de transformation.

🔎À utiliser pour : explorer des datasets bruts, documenter une base legacy ou initier une première passe de documentation.

H3 : dbt Copilot :

✅ Génère de la documentation directement dans votre projet dbt à travers un fichier .yml.

✅ Intègre le contexte du projet : transformation SQL, lineage, dépendances, nommage, logique métier.

✅ Parfait pour les équipes déjà organisées autour d’un data warehouse avec dbt.

✅ S’intègre naturellement dans une approche CI/CD et version control.

❌ Nécessite un projet dbt bien structuré (staging/ intermediate/ marts) en évitant les modèles monolithiques.

❌ Moins utile si vos tables ne sont pas modélisées dans dbt (raw layers, sandbox).

🔎 À utiliser pour : maintenir et automatiser une documentation, dès que les modèles dbt sont en place.

Conclusion

Snowflake Cortex est à considérer comme un outil de scanning, utile en amont, dans une logique d’audit ou d’exploration.

dbt Copilot brille dans des projets modélisés, pour industrialiser et fiabiliser la documentation des modèles métier.

La combinaison des deux est souvent la meilleure approche : Snowflake Cortex pour initier, dbt Copilot pour enrichir. Les équipes data peuvent ainsi gagner du temps sans sacrifier la qualité de la documentation.

#DATA
#EULIDIA