Toute l'actualité du Bigdata et surtout de sa communauté francophone dans un podcast.
Vincent Heuschling, Alexander Dejanovski, Jérôme Mainaud, Nicolas Steinmetz
(00:00:00) Episode 217 : BDH live à Devoxx Paris 2025 (00:01:04) Conférence Bug Bash et tests autonomes (00:06:23) Windsurf : révolution du coding assistant (00:16:23) Automatisation de la veille technologique (00:22:28) LLM spécialisés vs généraux (00:37:00) Ariga Atlas pour les bases de données Cet épisode spécial du Big Data Hebdo, enregistré à Devoxx Paris, on donne la parole aux auditeurs ! On parle de Windsurf pour l'assistance au code, de test autonome avec Antithesis (qui a réussi à casser ETCD), et d'automatisation de la veille technologique, et pour finir d'automatisation pour les bases de données avec Ariga Atlas.
Dans cet épisode, on revient sur l'évolution de la data-ingénierie à travers deux outils : DBT et SQLMesh. Comment ces outils ont émergé avec la montée en puissance du SQL dans les architectures modernes ? Comment ils répondent aux enjeux de modélisation, d'industrialisation et de gouvernance de la donnée ? L'épisode est aussi l'occasion d'aborder l'évolution des métiers de la data, notamment l'émergence du rôle d'analytic engineer, à la croisée des chemins entre data engineering et data analytics.La révolution du SQL modulaire → Retour sur l'historique du SQL dans l'analytique moderne, l'explosion du SQL dans les moteurs cloud et les limites des requêtes monolithiques.DBT → Origine de DBT, philosophie “analyst-friendly”, séparation entre DBT Core et DBT Cloud, gestion du versioning, testing, documentation, templating avec Jinja.Le rôle d'Analytic Engineer → Mutation des équipes BI vers plus d'autonomie technique, convergence entre modélisation métier et industrialisation.Pourquoi SQLMesh ? → Introduction à SQLMesh comme alternative à DBT, positionnement technique, différences d'usage, réflexion sur les cas d'adoption.Retrouvez les épiosodes et show notes sur https://bigdatahebdo.com-----------------Cette publication est sponsorisée par Datatask (https://datatask.io/) et CerenIT (https://www.cerenit.fr/) .CerenIT (https://www.cerenit.fr/) vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr (https://cerenit.fr) et retrouvez-nous aussi au Time Series France (https://www.timeseries.fr/) .Datatask (https://datatask.io/) vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consultez le blog de Datatask (https://datatask.io/blog/) pour en savoir plus. Le générique a été composé et réalisé par Maxence Lecointe
Dans cet épisode du Big Data Hebdo, on fait le point sur le RAG (Retrieval-Augmented Generation) : est-il toujours au cœur des usages d'IA générative en entreprise, ou dépassé par les nouveaux paradigmes comme l'agentic AI ?Paul, Jérôme, Nicolas et Vincent reviennent sur :Les fondamentaux du RAG : pourquoi est-il apparu ?Comment fonctionne techniquement un pipeline RAG ?Les erreurs à éviter quand on passe en productionLes bonnes pratiques : hybrid search, cache, feedback utilisateursCe qui change en 2025 : modularité, agentic RAG, graph RAG, et plus encore !Retrouvez les épiosodes et show notes sur https://bigdatahebdo.com-----------------Cette publication est sponsorisée par Datatask (https://datatask.io/) et CerenIT (https://www.cerenit.fr/) .CerenIT (https://www.cerenit.fr/) vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr (https://cerenit.fr) et retrouvez-nous aussi au Time Series France (https://www.timeseries.fr/) .Datatask (https://datatask.io/) vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consultez le blog de Datatask (https://datatask.io/blog/) pour en savoir plus. Le générique a été composé et réalisé par Maxence Lecointe
Dans cet épisode du Big Data Hebdo,
Le BigDataHebdo reçoit Florian Caringi, responsable des plateformes Data & IA au sein du groupe BPCE. On discute de l'évolution des architectures Big Data, de Hadoop aux environnements hybrides et cloud, avec une adoption massive de Google Cloud (BigQuery, Vertex AI) pour des usages analytiques et data science.Florian partage son expérience sur les défis de migration, de FinOps, et l'intégration des IA génératives. Une discussion passionnante sur la modernisation des infrastructures et l'impact des nouvelles technologies dans les grandes organisations.Show notes et chapitres sur http://bigdatahebdo.com/podcast/episode-212-cloud-hybride-bpce/
Le BigDataHebdo, reçoit Mehdi, Developer Advocate chez MotherDuck, pour explorer l'univers de DuckDB et MotherDuck. Au programme, les origines académiques de DuckDB, son évolution en tant que moteur SQL analytique performant, et son extension MotherDuck qui permet de l'utiliser comme un Data Warehouse en ligne.Show notes sur http://bigdatahebdo.com/podcast/episode-211-motherduck/
Dans cet épisode on revient brièvement sur l'année écoulée, et on vous parle de ce qu'on prévoit sur 2025. Evidement ces prédictions sont très tintées d'IA ! Retrouvez tous les épisodes avec leurs shownotes : https://bigdatahebdo.com/?src=shownotes-----------------Cette publication est sponsorisée par Datatask (https://datatask.io/) et CerenIT (https://www.cerenit.fr/) .CerenIT (https://www.cerenit.fr/) vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr (https://cerenit.fr) et retrouvez-nous aussi au Time Series France (https://www.timeseries.fr/) .Datatask (https://datatask.io/) vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consultez le blog de Datatask (https://datatask.io/blog/) pour en savoir plus. Le générique a été composé et réalisé par Maxence Lecointe
Dans cet épisode on revient sur FoundationDB. FoundationDB est le socle de beaucoup de services (Icloud, Snowflake...) mais reste peu connue.Qui de mieux que l'équipe de spécialistes de Clever cloud qui l'a utilisé pour construire ses "Databases as a Service" pour en parler ? C'est donc un épisode conjoint avec leur podcast "Message à Caractère informatique" que vous retrouvez ici.Show notes de l'épisode : https://bigdatahebdo.com/podcast/episode-209-foundationdb-labrique-elementaire-----------------Cette publication est sponsorisée par Datatask (https://datatask.io/) et CerenIT (https://www.cerenit.fr/) .CerenIT (https://www.cerenit.fr/) vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr (https://cerenit.fr) et retrouvez-nous aussi au Time Series France (https://www.timeseries.fr/) .Datatask (https://datatask.io/) vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consultez le blog de Datatask (https://datatask.io/blog/) pour en savoir plus. Le générique a été composé et réalisé par Maxence Lecointe
Dans cet épisode on revient sur FoundationDB. FoundationDB est le socle de beaucoup de services (Icloud, Snowflake...) mais reste peu connue.Qui de mieux que l'équipe de spécialistes de Clever cloud qui l'a utilisé pour construire ses "Databases as a Service" pour en parler ? C'est donc un épisode conjoint avec leur podcast "Message à Caractère informatique" que vous retrouvez ici.Show notes de l'épisode : https://bigdatahebdo.com/podcast/episode-208-aux-sources-de-foundationdb-feat-maci-----------------Cette publication est sponsorisée par Datatask (https://datatask.io/) et CerenIT (https://www.cerenit.fr/) .CerenIT (https://www.cerenit.fr/) vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr (https://cerenit.fr) et retrouvez-nous aussi au Time Series France (https://www.timeseries.fr/) .Datatask (https://datatask.io/) vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consultez le blog de Datatask (https://datatask.io/blog/) pour en savoir plus. Le générique a été composé et réalisé par Maxence Lecointe
Episode enregistré en Live au Salon de la Data et De l'IA de Nante en Septembre 2024. On débat de la Data-Quality avec la contribution du public.à retrouver aussi sur Youtube https://youtu.be/9_C6hbZpDrwLes shownotes de cet épisode sont à retrouver surhttps://bigdatahebdo.com/podcast/episode-207-live-salon-data-ia/Retrouvez tous les épisodes de ce podcast sur https://bigdatahebdo.comEt sur la chaine Youtube
Les shownotes de cet épisode sont à retrouver surhttps://bigdatahebdo.com/podcast/episode-206-portes-ouvertes-chez-openai/Retrouvez tous les épisodes de ce podcast sur https://bigdatahebdo.comEt sur la chaine Youtube
Les shownotes de cet épisode sont à retrouver surhttps://bigdatahebdo.com/podcast/episode-205-Kestra-avec-Ludovic-DehonRetrouvez tous les épisodes de ce podcast sur https://bigdatahebdo.comEt sur la chaine Youtube
Les shownotes de cet épisode sont à retrouver surhttps://bigdatahebdo.com/podcast/episode-204-70-milliards-de-relections/ Retrouvez tous les épisodes de ce podcast sur https://bigdatahebdo.comEt sur la chaine Youtube ------------------Cette publication est sponsorisée par Datatask et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Datatask vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consulter le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous !Le générique a été composé et réalisé par Maxence Lecointe
Les shownotes de cet épisode sont à retrouver surhttps://bigdatahebdo.com/podcast/episode-203-pas-de-treve-olympique-pour-les-llms/ Retrouvez tous les épisodes de ce podcast sur https://bigdatahebdo.com------------------Cette publication est sponsorisée par Datatask et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Datatask vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consulter le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous !Le générique a été composé et réalisé par Maxence Lecointe
Retrouvez les shownotes de cet épisode sur https://bigdatahebdo.com/podcast/episode-202-data-architecture-avec-frederic-brossard-de-dcube/ ------------------Cette publication est sponsorisée par Datatask et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Datatask vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consulter le blog de Datatask pour en savoir plus. Le générique a été composé et réalisé par Maxence Lecointe
Retrouvez les liens de cet épisode dans les shownotes sur https://bigdatahebdo.com/podcast/episode-201-snowflake-summit-24-part-2-ml-et-genai/------------------Cette publication est sponsorisée par Datatask et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Datatask vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consulter le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
Retrouvez les liens de cet épisode dans les shownotes sur https://bigdatahebdo.com/podcast/episode-200-snowflake-summit-24-part-1-data-engineering/------------------Cette publication est sponsorisée par Datatask et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Datatask vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consulter le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
Retrouvez les liens de cet épisode dans les shownotes sur https://bigdatahebdo.com/podcast/episode-199-databricks-dais-2024/------------------Cette publication est sponsorisée par Datatask et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Datatask vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consulter le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
Retrouvez les liens de cet épisode dans les shownotes sur https://bigdatahebdo.com/podcast/episode-198-ia-gen-et-anssi/------------------Cette publication est sponsorisée par Datatask et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Datatask vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consulter le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
Retrouvez les liens de cet épisode dans les shownotes sur https://bigdatahebdo.com/podcast/episode-197-gladia-avec-jean-louis-queguiner/------------------Cette publication est sponsorisée par Datatask et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Datatask vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consulter le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
Retrouvez les liens de cet épisode dans les shownotes sur https://bigdatahebdo.com/podcast/episode-196-python-news-et-autres/------------------Cette publication est sponsorisée par Datatask et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Datatask vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consulter le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
Retrouvez les liens de cet épisode dans les shownotes sur https://bigdatahebdo.com/podcast/episode-195-dbt-avec-florian-eiden------------------Cette publication est sponsorisée par Datatask et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Datatask vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consulter le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
Retrouvez les liens de cet épisode dans les shownotes sur https://bigdatahebdo.com/podcast/episode-194-self-service-data-avec-tristan-mayer/------------------Cette publication est sponsorisée par Datatask et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Datatask vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consulter le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
Retrouvez les liens de cet épisode dans les shownotes sur https://bigdatahebdo.com/podcast/episode-193-microsoft-fabric-avec-marie-aubert------------------Cette publication est sponsorisée par Datatask et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Datatask vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consulter le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
Retrouvez les liens de cet épisode dans les shownotes sur https://bigdatahebdo.com/podcast/episode-192-duckdb-et-autres-avec-christophe-blefari------------------Cette publication est sponsorisée par Datatask et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Datatask vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consulter le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
Retrouvez les liens de cet épisode dans les shownotes sur https://bigdatahebdo.com/podcast/episode-191-popsink-avec-benjamin-djidi ------------------Cette publication est sponsorisée par Datatask et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Datatask vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consulter le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
Retrouvez les liens de cet épisode dans les shownotes sur https://bigdatahebdo.com/podcast/episode-190-databricks-dbrx-avec-quentin-ambard------------------Cette publication est sponsorisée par Datatask et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Datatask vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consulter le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
Retrouvez les liens de cet épisode dans les shownotes sur https://bigdatahebdo.com/podcast/episode-189-la-compta-du-futur-et-autres-news/------------------Cette publication est sponsorisée par Datatask et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Datatask vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consulter le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
Retrouvez les liens de cet épisode dans les shownotes sur https://bigdatahebdo.com/podcast/episode-188-data-ops-avec-matthieu-rousseau/------------------Cette publication est sponsorisée par Datatask et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Datatask vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consulter le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
Retrouvez les liens de cet épisode dans les shownotes sur https://bigdatahebdo.com/podcast/episode-186-plus-jquery-que-terraform/------------------Cette publication est sponsorisée par Datatask et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Datatask vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Consulter le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
* La Nuit de la Data et de l'IA - And the winners are... : -> https://www.republikgroup-it.fr/palmares-2024-tda* IA ACT * Probabl is a new AI company built around popular library scikit-learn -> https://techcrunch.com/2024/02/01/probabl-is-a-new-ai-company-built-around-popular-library-scikit-learn/* From Silos to Standardization: Leveraging DBT for a Democratized Data Framework -> https://medium.com/uc-engineering/from-silos-to-standardization-leveraging-dbt-for-a-democratized-data-framework-f444dcd07cd9* DuckDB vs Polars -> https://medium.com/gitconnected/duckdb-vs-polars-2ff19cc7af41* Meetup Python sur les frameworks UI -> https://youtu.be/yspHNEFjKfQ?list=PLv7xGPH0RMUT1GSCGHJmqnswpk-nyz5aq* NiceGUI -> https://nicegui.io------------------Cette publication est sponsorisée par Affini-Tech et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Affini-Tech vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! (Affini-Tech, Datatask) Consulter le blog d'Affini-Tech et le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
Shownotes sur : https://bigdatahebdo.com/podcast/episode-184-pour-une-poignee-de-dollars/
### Promptologues* How to Cut RAG Costs by 80% Using Prompt Compression -> https://towardsdatascience.com/how-to-cut-rag-costs-by-80-using-prompt-compression-877a07c6bedb* Prompt Compression avec LLMLingua -> https://github.com/microsoft/LLMLingua### LLM Infra* Introducing Pinecone Serverless -> https://www.pinecone.io/blog/serverless/* embedchain/embedchain: The Open Source RAG framework -> https://github.com/embedchain/embedchain* A Guide to Large Language Model Abstractions - Two Sigma -> https://www.twosigma.com/articles/a-guide-to-large-language-model-abstractions/### Data eng* How to Scale Your Data Pipelines and Data Products with Contract Testing and Dbt -> https://towardsdatascience.com/how-to-scale-your-data-pipelines-and-data-products-with-dbt-and-contract-testing-10c92ea9a443* dbt Alternatives -> https://www.greenmountaindatasolutions.com/blog/alternatives-to-dbt-data-build-tool
Shownotes sur : https://bigdatahebdo.com/podcast/episode-182-zuck-fabric-une-agi-avec-des-data-contracts/
Shownotes sur : https://bigdatahebdo.com/podcast/episode-181-le-maestro-du-gptstore/
https://bigdatahebdo.com/podcast/episode-180-quelques-news-pour-demarrer-2024/
### LLM fever* [GAIC-fr] Analyse des annonces IA de MS Ignite -> https://www.youtube.com/watch?v=rJTcJHh6bcY* LightOn annonce la seconde version d'Alfred, son modèle LLM open-source -> https://www.actuia.com/actualite/lighton-annonce-la-seconde-version-dalfred-son-modele-llm-open-source/* Introducing Claude 2.1 -> https://www.anthropic.com/index/claude-2-1* Welcome to the Hallucination Index! -> https://www.rungalileo.io/hallucinationindex### data-engineering* Multithreading Framework for Data Ingestion -> https://awstip.com/multithreading-framework-for-data-ingestion-3c3c8480b8d0* Talend Open Studio c'est fini au 31/1/202 -> https://community.talend.com/s/question/0D55b00009OuDGPCA3/update-on-the-future-of-talend-open-studio?language=en_US* MotherDuck: Making PySpark Code Faster with DuckDB -> https://motherduck.com/blog/making-pyspark-code-faster-with-duckdb* How to Extract Data Observability Metrics from Snowflake Using SQL -> https://towardsdatascience.com/how-to-extract-data-observability-metrics-from-snowflake-using-sql-9bf001038788
### LLM fever* Kyutai, le laboratoire d'intelligence artificielle en mode science ouverte -> https://www.sciencesetavenir.fr/high-tech/intelligence-artificielle/kyutai-le-laboratoire-d-intelligence-artificielle-en-mode-science-ouverte-qui-veut-concurrencer-les-gafam_175123* ChatGPT Réinventé: comment le faire philosopher pour améliorer ses résultats -> https://generationia.flint.media/p/step-back-prompting-reculer-pour-mieux-sauter* Microsoft optimise Azure avec ses propres puces d'IA -> https://www.actuia.com/actualite/microsoft-optimise-azure-avec-ses-propres-puces-dia/### Data-eng* data load tool (dlt) -> https://dlthub.com/* Microsoft and Google join forces on OneTable, an open-source solution for data lake challenges -> https://venturebeat.com/data-infrastructure/exclusive-microsoft-and-google-join-forces-on-onetable-an-open-source-solution-for-data-lake-challenges/------------------Cette publication est sponsorisée par Affini-Tech et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Affini-Tech vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! (Affini-Tech, Datatask) Consulter le blog d'Affini-Tech et le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
* Why can't datacenter operators stop thinking about atomic power? -> https://www.theregister.com/2023/09/27/datacenters_nuclear_power### LLM fever* Evaluate LLMs and RAG a practical example using Langchain and Hugging Face -> https://www.philschmid.de/evaluate-llm* Introducing the Giskard Bot: Enhancing LLM Testing & Debugging on Hugging Face -> https://huggingface.co/blog/JMJM/giskard-llm-testing-and-debugging-hf* Introducing Canopy: An easy, free, and flexible RAG framework powered by Pinecone -> https://www.pinecone.io/blog/canopy-rag-framework/### Tools* Pijul -> https://pijul.org/* Pijul la théorie -> https://pijul.org/manual/theory.html### meetup* "Ou va la modern Data Stack ?" le 31 janvier 2024 chez Criteo -> https://www.linkedin.com/company/modern-data-stack-france/------------------Cette publication est sponsorisée par Affini-Tech et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Affini-Tech vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! (Affini-Tech, Datatask) Consulter le blog d'Affini-Tech et le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
* ⚠️ Don't try this at home: CSS _as_ the backend - introducing Cascading Server Sheets! -> https://dev.to/thormeier/dont-try-this-at-home-css-as-the-backend-what-3oih### LLM fever* Open AI Dev day 2024 -> https://openai.com/blog/new-models-and-developer-products-announced-at-devday* Knowledge Distillation: Principles, Algorithms, Applications -> https://neptune.ai/blog/knowledge-distillation* Quand la boîte noire des IA génératives livre ses secrets -> https://www.lexpress.fr/amp/economie/high-tech/quand-la-boite-noire-des-ia-generatives-livre-ses-secrets-BFUANKGCOZF2DDGJRNFDNAVHZU/### Data-Science* Hidden Markov Models Explained with a Real Life Example and Python code -> https://medium.com/towards-data-science/hidden-markov-models-explained-with-a-real-life-example-and-python-code-2df2a7956d65### Data-eng* Open Data Contract Standard -> https://github.com/bitol-io/open-data-contract-standard* Twitter's Owner Elon Musk refuses to pay Google Cloud Bill -> https://medium.com/codex/twitters-owner-elon-musk-refuses-to-pay-google-cloud-bill-8e0ec1030101
### Data-science* XGBoost 2.0: New Tool for Training Better AI Models on More Complex Data -> https://aibusiness.com/ml/xgboost-2-0-new-tool-for-training-better-ai-models-on-more-complex-data* Semantic link in Microsoft Fabric: Bridging BI and Data Science -> https://blog.fabric.microsoft.com/en-us/blog/semantic-link-use-fabric-notebooks-and-power-bi-datasets-for-machine-learning-data-validation-and-more* Mastering Customer Segmentation with LLMs -> https://towardsdatascience.com/mastering-customer-segmentation-with-llm-3d9008235f41### Tools* ELT with Meltano (PostgreSQL -> Snowflake) -> https://medium.com/@danthelion/elt-with-meltano-postgressql-snowflake-a543c077ae1a* Fast, Git Friendly API Client -> https://www.usebruno.com------------------Cette publication est sponsorisée par Affini-Tech et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Affini-Tech vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! (Affini-Tech, Datatask) Consulter le blog d'Affini-Tech et le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
### LLM fever* Zephyr 7B -> https://www.linkedin.com/posts/lewis-tunstall_heres-a-simple-recipe-to-train-a-7b-model-activity-7117523535991857152-LuYg/?utm_source=share&utm_medium=member_desktop* Bing Chat Enterprise -> Your AI-Powered Chat for Work | Bing Chat Enterprise (microsoft.com)* promptflow -> promptflow/examples/tutorials/e2e-development/chat-with-pdf.md at main · microsoft/promptflow (github.com)* n8n langchain -> https://n8n.io/workflows/1959-ailangchain-ai-chatbot-that-can-query-the-web/### Data-eng* DuckDB Extensions for AWS Lambda -> https://extensions.quacking.cloud/* Build Data Lake Pipelines with Google Pub/Sub -> https://medium.com/illumination/build-data-lake-pipelines-with-google-pub-sub-6ecb8da87c08* Kestra has raised $3 million -> https://www.linkedin.com/posts/ludovic-dehon_opensource-activity-7115612770783350785-6nGr/* Terraform @ scaleway -> https://datatask.io/blog/scaleway-terraform/------------------Cette publication est sponsorisée par Affini-Tech et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Affini-Tech vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! (Affini-Tech, Datatask) Consulter le blog d'Affini-Tech et le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
Linkedin Live avec Paul : Embeddings audio & image avec Serge Retkowsky -> https://www.linkedin.com/events/7101846404389580800/comments/### LLM* First Impressions with GPT-4V(ision) -> https://blog.roboflow.com/gpt-4-vision/* Expanding access to safer AI with Amazon -> https://www.anthropic.com/index/anthropic-amazon* AutoGen: Enabling next-generation large language model applications -> https://www.microsoft.com/en-us/research/blog/autogen-enabling-next-generation-large-language-model-applications/### Cloud* Motherduck (managed DBT) pricing -> https://motherduck.com/pricing/* Real-time Analytics with Snowflake Dynamic Tables & Redpanda -> https://www.arecadata.com/real-time-analytics-with-dynamic-tables-in-snowflake-redpanda/* Announcing BigQuery Omni cross-cloud joins -> https://cloud.google.com/blog/products/data-analytics/announcing-bigquery-omni-cross-cloud-joinsCette publication est sponsorisée par Affini-Tech et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Affini-Tech vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! (Affini-Tech, Datatask) Consulter le blog d'Affini-Tech et le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
### LLM* Mistral 7B is here! -> https://mistral.ai/product/* What's going on with the Open LLM Leaderboard? -> https://huggingface.co/blog/evaluating-mmlu-leaderboard* How do I use ChatGPT Browse with Bing to search the web? -> https://help.openai.com/en/articles/8077698-how-do-i-use-chatgpt-browse-with-bing-to-search-the-web* Meta AI assistant uses Microsoft Bing Search results -> https://searchengineland.com/meta-ai-assistant-uses-microsoft-bing-search-results-432565* The iliad Group is making strategic investments in Artificial Intelligence -> https://s3.fr-par.scw.cloud/iliad-strapi/DP_iliad_AI_260923_Eng_462ff3265c.pdf### Cloud and DBs* Announcing DuckDB 0.9.0 -> https://duckdb.org/2023/09/26/announcing-duckdb-090.html* A Guide To The Snowflake Results Cache -> https://teej.ghost.io/a-guide-to-the-snowflake-results-cache/Cette publication est sponsorisée par Affini-Tech et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Affini-Tech vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! (Affini-Tech, Datatask) Consulter le blog d'Affini-Tech et le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
* Modern Data Stack Meetup : Streamlit + Kestra### Gen AI* Deploy Your LLM Chatbot With Retrieval Augmented Generation (RAG), llama2-70B (MosaicML inferences) and Vector Search -> https://www.databricks.com/resources/demos/tutorials/data-science-and-ai/lakehouse-ai-deploy-your-llm-chatbot?itm_data=demo_center* LLMs in Action: A Practical Guide for Software Architects and Developers -> https://www.linkedin.com/pulse/llms-action-practical-guide-software-architects-s%C3%A9bastien-brasseur?utm_source=share&utm_medium=member_ios&utm_campaign=share_via* Lantern — a PostgreSQL vector database for building AI applications -> https://docs.lantern.dev/blog/2023/09/13/hello-world### Data science* Announcing Python in Excel: Combining the power of Python and the flexibility of Excel. -> https://techcommunity.microsoft.com/t5/excel-blog/announcing-python-in-excel-combining-the-power-of-python-and-the/ba-p/3893439* NEW Python in Excel - PYTHON + EXCEL + ChatGPT = Easy! -> https://youtu.be/-_1IaUjO-hk?si=ZA8-ztkfzQfA3cc0* Excel Just Got Python | Prime Reacts -> https://youtu.be/iAQJhYQEx-s?si=l_v3YC8o01Vyyar6### Cloud Native* Kubernetes OWASP Top 10: Secrets Management -> https://itnext.io/kubernetes-owasp-top-10-secrets-management-c996faa87b47Agenda* Bigdatapero à Paris 27/09/2023Cette publication est sponsorisée par Affini-Tech et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Affini-Tech vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! (Affini-Tech, Datatask) Consulter le blog d'Affini-Tech et le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
### Tools* Ruff -> https://beta.ruff.rs/docs/### Cloud* Mountpoint for Amazon S3 -> https://aws.amazon.com/blogs/aws/mountpoint-for-amazon-s3-generally-available-and-ready-for-production-workloads/### Time Series* Is Flux being deprecated with InfluxDB 3.0? -> https://community.influxdata.com/t/is-flux-being-deprecated-with-influxdb-3-0/30992/8?u=pauldix* Timeseries dans le podcast AWS en Français -> https://aws.amazon.com/fr/blogs/france/podcasts/### Database* Awesome DuckDB -> https://github.com/davidgasquez/awesome-duckdb### GenAI* RAG vs Finetuning — Which Is the Best Tool to Boost Your LLM Application? -> https://towardsdatascience.com/rag-vs-finetuning-which-is-the-best-tool-to-boost-your-llm-application-94654b1eaba7* Best practices for your ChatGPT ‘on your data' solution -> https://medium.com/@imicknl/how-to-improve-your-chatgpt-on-your-data-solution-d1e842d87404* OpenAI, maker of ChatGPT, reportedly nears $1 billion in annual sales -> https://www.fastcompany.com/90946849/openai-chatgpt-reportedly-nears-1-billion-annual-sales?partner=rss&utm_source=feedly&utm_medium=feed&utm_campaign=rss+fastcompany&utm_content=rss?utm_source=tldrnewsletter### Vector DB* Jina-AI -> https://github.com/jina-ai/vectordb* Redis 7.2 LLM / VectorDB features -> ttps://redis.com/blog/introducing-redis-7-2/* AlloyDB -> https://techcrunch.com/2023/08/29/googles-alloydb-ai-transforms-databases-to-power-generative-ai-apps/?utm_source=substack&utm_medium=email&guccounter=2* Pinecone -> https://www.pinecone.io/blog/azure/?hss_channel=lcp-20299330&utm_content=256569107&utm_medium=social&utm_source=linkedin* pgvector -> https://jkatz05.com/post/postgres/pgvector-overview-0.5.0/* Vector Search Isn't Enough | BRKFP301H -> https://www.youtube.com/watch?v=5Qaxz2e2dVg### AI* AWS Entity Resolution: Match and Link Related Records from Multiple Applications and Data Stores | AWS News Blog -> https://aws.amazon.com/blogs/aws/aws-entity-resolution-match-and-link-related-records-from-multiple-applications-and-data-stores/### Agenda* Timeseries France 13/09/2023 -> https://timeseries.fr/edition/timeseriesfr-18/* Bigdatapero à Paris 27/09/2023 ->Cette publication est sponsorisée par Affini-Tech et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Affini-Tech vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! (Affini-Tech, Datatask) Consulter le blog d'Affini-Tech et le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe
Dans cet épisode nous accueillons Ilyes Mehaddi de Snowflake pour nous parler de Snowflake Data Cloud et des annonces du SummitRetrouvez Ilyes sur le slack du bigdatahebdo ou alors sur son blogData Cloud World Tour : 5 octobre à Paris Recap du Summit 2023 par secteurs d'activités Recap des annonces du Summit 2023 SponsorsCette publication est sponsorisée par Affini-Tech et CerenIT.CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.Affini-Tech vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! (Affini-Tech, Datatask) Consulter le blog d'Affini-Tech et le blog de Datatask pour en savoir plus. On recrute ! Venez cruncher de la data avec nous ! Ecrivez nous à recrutement@affini-tech.comLe générique a été composé et réalisé par Maxence Lecointe