PodcastsBusinessBig Data Hebdo

Big Data Hebdo

Vincent Heuschling, Alexander Dejanovski, Jérôme Mainaud, Nicolas Steinmetz
Big Data Hebdo
Latest episode

228 episodes

  • Big Data Hebdo

    Episode 226 : Starlake.AI avec Hayssam Saleh

    20/02/2026 | 55 mins.
    Vincent Heuschling reçoit Hayssam Saleh, créateur de **Starlake**, une plateforme data open source française née de la factorisation de projets clients depuis 2017-2018. L'épisode intervient dans un contexte de consolidation du marché (rachat de DBT et de SQLMesh par Fivetran), qui invite à challenger les solutions établies.

    Starlake se distingue par une approche **entièrement déclarative** (YAML + SQL natif, sans Jinja) couvrant toute la chaîne data engineering : ingestion, transformation, orchestration et qualité des données. L'outil s'appuie sur les moteurs sous-jacents des plateformes cibles (Snowflake, BigQuery, Spark) et génère automatiquement les DAGs pour les orchestrateurs du marché (Airflow, Dagster, Snowflake Tasks).

    Parmi les fonctionnalités marquantes : le **data branching** (branches de données à la manière de Git), l'inférence automatique de schémas YAML à partir de fichiers sources, un **transpiler SQL** multi-plateformes, et l'extraction du lineage depuis du SQL brut sans annotation. L'intégration récente de **DuckLake** ouvre la voie à des architectures on-premise souveraines à coût maîtrisé (sous 300 €/mois sur OVH, Scaleway, Clever Cloud).

    Le modèle économique repose sur le support, la formation, et le consulting : Starlake s'installe dans le cloud du client, avec mise à jour automatique gérée par l'équipe, sans accès aux données.

    **Chapitres**
    **00:00:27** – Introduction : consolidation du marché data (rachat de DBT et SQLMesh par Fivetran) et présentation de l'épisode
    **00:03:13** – Hayssam et la genèse de Starlake : parcours Spark/Scala, POC à 4 000 formats de fichiers (2017-2018)
    **00:09:51** – Architecture et philosophie : load, transform, orchestration unifiés en déclaratif (YAML + SQL natif, pas de Jinja)
    **00:00:18:18** – Starlake vs DBT : différences philosophiques, composabilité, fonctionnalités 100 % open source
    **00:00:22:20** – Data branching, Starlake Labs (pipe syntax, transpiler SQL, lineage) et expérience développeur (DuckDB local, UI point-and-click)
    **00:36:35** – Modèle open source et économique : licence Apache, support, formation, marketplace cloud souveraine
    **00:43:42** – DuckLake : alternative on-premise/cloud souverain (OVH, Scaleway, Clever Cloud) et comment contribuer / démarrer

    **Le BigdataHebdo**
    Le BigdataHebdo est le podcast Francophone de la Data et de l'IA.
    Retrouvez plus de 200 épisodes https://bigdatahebdo.com
    Rejoignez la communauté sur le Slack https://join.slack.com/t/bigdatahebdo/shared_invite/zt-a931fdhj-8ICbl9dbsZZbTcze61rr~Q
  • Big Data Hebdo

    Episode 225 : La guerre des agents SDK

    04/11/2025 | 54 mins.
    Dans cet épisode du BigData Hebdo, Vincent Heuschling et Paul Peton explorent les dernières annonces d'OpenAI, d’Anthropic et de Google concernant les agents AI et leur monétisation. Au programme les SDK, les workflows, etc...

    **A retenir dans cet épisode**
    - Les dernières annonces d'OpenAI, Anthropic, et Google.
    - Les agents ont de l’argent, il commencent à être monétisés.
    - OpenAI vise à concurrencer Google et l'App Store d'Apple.
    - Les SDK sont essentiels pour le développement d'agents AI.
    - La capacité de prise de décision des agents est cruciale pour leur efficacité.
    - La tarification des gros modèles AI est démesurée.
    - Les navigateurs AI soulèvent des questions éthiques.
    - La connectivité des agents est un enjeu majeur.

    **Le BigdataHebdo** Le BigdataHebdo est le podcast Francophone de la Data et de l'IA.
    Retrouvez plus de 200 épisodes https://bigdatahebdo.com
    Rejoignez la communauté sur le Slack https://join.slack.com/t/bigdatahebdo/shared_invite/zt-a931fdhj-8ICbl9dbsZZbTcze61rr~Q
  • Big Data Hebdo

    Episode 224 : Données non structurées et modern OCR

    28/10/2025 | 51 mins.
    Dans cet épisode on explore les défis et les évolutions du RAG (Retrieval-Augmented Generation) dans le contexte de l'IA. L'équipe du Bigdata Hebdo discute des promesses des éditeurs, des difficultés rencontrées par les utilisateurs, et des mécanismes d'IA nécessaires pour traiter efficacement les documents.

    On parle des enjeux liés à l'OCR, au chunking, et à l'importance des modèles d'embeddings.

    00:00 Introduction
    03:06 La promesse des éditeurs
    08:05 Comprendre le RAG et son fonctionnement
    11:06 Difficultés liées à l'OCR et à l'extraction de données
    19:05 Recommandations pour l'optimisation des documents
    28:46 Mistral Document AI et ses fonctionnalités
    33:49 Chunking et gestion des documents
    40:55 Fine-tuning des modèles d'embeddings
    43:00 Formats de documents et leur pérennité
    47:23 Conclusion et perspectives

    Notes et ressources 
    https://bigdatahebdo.com/podcast/episode-224-donnees-non-structurees-et-modern-ocr
  • Big Data Hebdo

    Episode 223 : Aerospike

    16/10/2025 | 1h 3 mins.
    Dans cet épisode du Big Data Hebdo, Vincent Heuschling et Nicolas Wlodarczyk discutent des caractéristiques et des avantages de la base de données NoSQL Aerospike. Nicolas partage son parcours dans le domaine de l'IT et explique comment Aerospike se distingue par sa rapidité et sa scalabilité, et sa capacité à optimiser les infrastructures.

    Chapitres
    00:00:00 Introduction
    00:01:42 Présentation d'Aerospike
    00:21:03 Use-Cases
    00:27:25 Réduction de l'Infrastructure et Efficacité
    00:30:22 Intégration et Interopérabilité avec d'autres Systèmes
    00:41:53 Modèles de Consommation et Licensing
    00:49:12 Transactions et cohérence
    00:58:43 Ressources

    Notes et ressources
    https://bigdatahebdo.com/podcast/episode-223-aerospike
  • Big Data Hebdo

    Episode 222 - Chemise hawaienne et GPT5 qui flop

    10/10/2025 | 52 mins.
    Dans cet épisode du Big Data Hebdo, Vincent Heuschling, Paul Peton, et Jérôme Mainaud discutent des événements marquants de l'été 2025 dans le domaine de l'IA et du Big Data, notamment le drama autour de Luc Julia, du lancement raté de GPT5, de l'importance des modèles open source, et les initiatives européennes en matière de souveraineté technologique.

More Business podcasts

About Big Data Hebdo

Toute l'actualité du Bigdata et surtout de sa communauté francophone dans un podcast.
Podcast website

Listen to Big Data Hebdo, The Prof G Pod with Scott Galloway and many other podcasts from around the world with the radio.net app

Get the free radio.net app

  • Stations and podcasts to bookmark
  • Stream via Wi-Fi or Bluetooth
  • Supports Carplay & Android Auto
  • Many other app features
Social
v8.7.2 | © 2007-2026 radio.de GmbH
Generated: 3/5/2026 - 6:00:32 AM