#DataOops

Share on

DataOops : savoir-faire et compÃ©tences rÃ©unies autour des sujets donnÃ©es et DevOps. On y parle : - databases & performances : techniques d'optimisations, bonnes et mauvaises pratiques, dÃ©tections des problÃ¨mes et mÃªme de hardware et de cloud - modÃ©lisations des donnÃ©es : les diffÃ©rents types de modÃ©lisation et leur spÃ©cificitÃ©s. - devops : des bases du devops aux Ã©lÃ©ments les plus pointus et bien sur les liens entre les 3 domaines Retrouves nous sur https://www.dataoops.org pour plus de dÃ©tails.

Romain Ferraton, Fabien Beaumont, Eric Duquesnoy

Apr 6, 2024 LATEST EPISODE
monthly NEW EPISODES
1h 10m AVG DURATION
46 EPISODES

Search for episodes from #DataOops with a specific topic:

Latest episodes from #DataOops

Episode 47 : PostgreSQL : MVCC et Vacuum – PowerBI : Analyser les performances – Modélisation One Big Table et le stockage colonne à la rescousse – Détection d’anti-pattern dans MSSQL

Play Episode Listen Later Apr 6, 2024

Retour pgday Paris. PostgreSQL : MVCC et Vacuum. PowerBI : Analyser les performances et quelques conseils pour les optimiser. OBT : modélisation One Big Table et le stockage colonne à la rescousse. Clause Non-Sargable et détection d'anti-pattern avec les extended events sur MSSQL

performance pattern retour vacuum one big power bi analyser postgresql obt colonne rescousse stockage big table mssql mvcc

Episode 46 : Adrien Nayrat nous rejoint pour parler postgresql – DuckDB v0.10 – C/C++ bannis par les USA ?

Play Episode Listen Later Mar 10, 2024

Adrien Nayrat un spécialiste postgresql rejoint l'équipe Dataoops, il se présente et en profite pour nous rappeler l'histoire de postgresql et glisser quelques conseils sur les extensions. La deuxième partie concerne DuckDB et les nouveautés de la v0.10 ainsi que des remarques sur une nouvelle concernant les languages C/C++ considérés comme "à risques" par l'administration américaine.

united states parler cc postgresql rejoint les usa bannis duckdb

Episode 45 : Chargement massif 1 Milliard de lignes dans un columnstore SQL Server en 6min, DuckDB v0.10, MS Fabrics et Vacuum

Play Episode Listen Later Feb 19, 2024 67:09

Comment accélérer un chargement massif dans un columnstore sur SQL Server : un retour d'expérience approfondi avec 1 milliard de lignes chargé en 6 minutes. DuckDB passe en v0.10 et stabilise son stockage. MS Fabric annonce que le Vacuum sera bientot possible et voici pourquoi c'est une bonne chose...

fabric vacuum milliard lignes sql server massif duckdb

Episode 44 : REX dataoops modélisation et postgresql performance, DuckDB stars, MS Fabric ratio prix/performance

Play Episode Listen Later Jan 31, 2024 66:09

REX sur des erreurs de modélisation avec des vues trop imbriquées, performance postgresql windows vs linux. DuckDB une star sur Github qui rejoint Postgresql. MS Fabric des prix d'appel pour les entreprises avec un ratio prix/performance attractif.

performance stars github fabric prix ratio postgresql duckdb

Episode 43 : bilan 2023 une année spéciale pour la data avec l’émergence de l’IA et la progression des stockages objets et lakehouse

Play Episode Listen Later Dec 31, 2023 62:01

Episode 43 : bilan 2023 avec les lakehouses, la gouvernance des données, les bases de données vectorielles, les IA génératives et autres LLM, Oracle Cloud et les bases Autonomous

data ia progression autonomous bilan avec l llm objets une ann oracle cloud

Episode 42 : MSSQL Server replication oops / Qdrant, PostgresML et LanceDB / chdb / tpch / oracle autonomous db

Play Episode Listen Later Dec 26, 2023

Episode timeline

oracle server autonomous replication mssql

Episode 41 : Onyxia et SSP Cloud avec Frederic Comte

Play Episode Listen Later Dec 20, 2023 0:01

Onyxia est une UX open source pour mettre en place un datalab avec des services basés sur des containers et orchestrés par K8s. Minio pour le stockage, Keycloak et Vault pour la sécurité s'intègre parfaitement. Cette solution est mise en oeuvre à l'INSEE avec le datalab SSP et Frederic Comte, Architecte Data à l'INSEE nous en explique les fondements et les avantages.

cloud vault ux frederic ssp comte k8s minio onyxia

Episode 40 – Microsoft Fabric passe en GA

Play Episode Listen Later Dec 6, 2023 67:10

Microsoft Fabric passe en GA : on en parle

ga passe microsoft fabric

Episode 39 : Interview Sylvain Lesage, Développeur chez Hugging Face

Play Episode Listen Later Nov 19, 2023 65:28

Une interview de Sylvain Lesage développeur chez Hugging Face dans l'équipe en charge de la prévisualisation des datasets : le dataset viewer. Il nous parle de son parcours et de son expérience chez Hugging Face, une société très inspirée dans le monde de l'IA.

chez sylvain hugging lesage

Episode 38 : PowerBI et Couche Sémantique – Databases et Comptage Approximatif – Parquet méthode d’encodage

Play Episode Listen Later Nov 8, 2023 57:09

Partie 1 : La couche sémantique et l'architecture de Power BI. Partie 2 : Comptage approximatif et l'algorythme hyperlolog. Partie 3 : les différents types d'encodage avec les columnstore index SQL Server & Apache Parquet et des stockages colonnaires en général

databases power bi parquet couche

Episode 37 : Oracle Data Cartbidge, SQL Server Minimal Logging, Parquet et tri des données, Database of Databases Dashboard, DataGouvernance

Play Episode Listen Later Oct 15, 2023 66:43

Episode 37 : Oracle Database Data Cartbridge ou comment faire une extension dans la base Oracle. SQL Server Journalisation Minimale. L'importance du tri des données pour les performances avec Parquet. Le tableau de bord des bases de données : +900 databases étudiées. La DataGouvernance un sujet qui n'est pas uniquement technique.

oracle databases minimal dashboard donn logging sql server parquet

Episode 36 : les tendances des bases de données / Une formation Databricks testée / DB Vectorielles : les points importants

Play Episode Listen Later Oct 5, 2023 68:06

Databricks : formation en ligne gratuite et aparté Delta Lake 3.0. Oracle DB : un dashboard sur les features et innovation depuis la 11.2 avec 1608 features. Les tendances des bases de données (Relationnelles et NoSQL). Les bases de données vectorielles : qu'est ce qui les différencie et les points importants pour les choisir.

points formation bases donn tendances nosql databricks importants

Episode 35 : SQL invulnérable / Microsoft DataFabric

Play Episode Listen Later Sep 23, 2023 63:10

SQL : un language incontournable dans le traitement des données. On en parle avec une approche historique, les dialectes et les nouvelles approches qui rendent ce language plus vivant que jamais. Dans la deuxième partie de l'épisode on vous parle de Microsoft DataFabric : où en est-on avec ce nouveau service orienté données proposé par Microsoft.

microsoft dans sql

Episode 34 : DataLakeHouse et architecture médaillon / Nouveautés d’Oracle Database 23c

Play Episode Listen Later Aug 21, 2023 60:34

DataLakehouse et Architecture Médaillon. Les nouveautés d'Oracle Database 23c

architecture databases nouveaut oracle database

Episode 33 : Bases de données vectorielles essai avec SQL Server + Microsoft Fabric Partie 2

Play Episode Listen Later Jul 10, 2023 67:26

Dans cette épisode on parle d'un essai d'implémentation de recherche sémantique et vectorielle avec SQL Server. Dans la seconde partie : Approfondissement de Microsoft Fabric.

dans bases donn essai sql server microsoft fabric

Episode 32 : Avis sur Microsoft Fabric + Les bases de données vectorielles ou la mémoire des IAs

Play Episode Listen Later Jun 18, 2023 62:05

Microsoft a lancé un nouveau service chapeau : Microsoft Fabric. Senser regrouper tous les services autour de l'analytique, ce service est plein de promesses. Premiers avis sur ce service avec Fabien Beaumont. Romain Ferraton aborde ensuite les bases de données vectorielles, support de la mémoire des IAs. Capables de recherches sémantiques accélérées les bases de données vectorielles ont le vent en poupe. Mais on peut aussi faire ce type de recherche semantique avec des bases classiques comme postgresql avec une extension (pgvector) voir même avec sql server, oracle ou n'importe quelle base de données relationnelles en faisant des calculs de distances. Ce qui manquera toutefois à ces bases non-spécialisées : des index adaptées aux vecteurs.

microsoft bases premiers donn moire ias microsoft fabric senser

Episode 31 : REX dataoops SQL Server et IOT, Observabilité, DataMesh

Play Episode Listen Later May 28, 2023 99:00

4 sujets dans cet épisode : Une REX sur un problème de modélisation de données IOT dans SQL Server. L'arrivée des fonctionnalités spatiales sur DuckDB. Discussion sur l'observabilité : théorie et un exemple de log machine friendly avec Serilog. Discussion sur le datamesh

iot sql server duckdb

Episode 30 : Parquet to SQL / 3 000 milliards de lignes dans SQL Server

Play Episode Listen Later May 12, 2023 68:10

On parle de chargement de données Parquet dans SQL Server via C# et bulkcopy. On parle également des bonnes pratiques pour sql server pour stocker 3000 milliards de lignes. Dernière partie avec une overview

derni milliards lignes sql server parquet

Episode 29 : TPCH MSSQL entre dans la danse + ChatGpt Premiers tests

Play Episode Listen Later Apr 27, 2023 81:36

TPCH : nouveaux tests avec SQL Server et influence de la collation sur les performances. Autres Tests TPCH SF100 : DuckDB & Hyper sur un laptop vs, Snowflake (XS to 4xLarge). Quelques mots sur nos premiers essais avec ChatGPT

chatgpt tests dans la quelques premiers la danse sql server mssql

Episode 28 : TPCH Cloud Databases vs DuckDB, les outils autour de Terraform et les extended events sur SQL Server.

Play Episode Listen Later Apr 1, 2023 100:07

On parle un tout petit peu de chatGPT mais d'abord des évènements étendus (extended events) sur SQL Server et de leurs capacités à faire remonter des informations précieuses pour le diagnostique voir l'analyse du code. Ensuite nous abordons le benchmark TPCH et la comparaison des performances des bases Cloud comme comme Snowflake, BigQuery, SingleStore et Synapse vs DuckDB. Eric nous parle également des outils permettant se faciliter la vie avec Terraform.

events chatgpt cloud databases snowflakes autour ensuite outils terraform synapse sql server bigquery singlestore duckdb

Episode 27 : Data Virtualisation + Hardware NVMe-oF

Play Episode Listen Later Mar 18, 2023

Data virtualisation remise au gout du jour avec sql server 2022, la data virtualisation permet d'accéder à de nombreuses sources (SGBDR, Datalake, Fichiers...) depuis un point unique. Ce type d'architecture permet de simplifier le paysage architectural. On en parle sur Dataoops. Les disques NVMe apparus il y a quelques années on permis d'accélerer considérablement les accès disques. Les SAN en bénéficient maintenant plus efficacement avec le NVMe-oF : NVMe over Fabric.

data hardware fabric data lake nvme virtualisation

Episode 26 : Big Data is Dead (DuckDB) / Data Gouvernance

Play Episode Listen Later Feb 26, 2023 77:52

On discute de l'article Big Data is Dead : de Jordan Tigani. On discute des avantages de DuckDB. Puis un on aborde la data gouvernance avec Fabien

dead big data puis fabien gouvernance duckdb

Episode 25 : DataLakeHouse, ADBC et Configuration VMWare pour les bases de données

Play Episode Listen Later Jan 23, 2023 76:13

1) Premières impression sur le DatalakeHouse de Databricks. 2) Le protocole ADBC (Arrow Database Connectivity) 3) Bonnes pratiques de configuration des VMs pour les bases de données

premi bases vmware donn bonnes configuration vms databricks

Episode 24 : MongoDB avec Frédéric Favelin

Play Episode Listen Later Dec 24, 2022

MongoDB est devenu la principale base de données NoSQL du marché. De type document, elle cherche à toucher le plus de cas d'usages possibles. Frédéric Favelin Directeur Technique chez MongoDB viens nous parler de ses spécificités.

mongodb avec fr nosql

Episode 23 : PowerBI External Tools

Play Episode Listen Later Dec 14, 2022 56:56

Les external tools de powerBI permettent d'augmenter la productivité des développements. Fabien nous explique comment et quels tools choisir

tools external fabien power bi

Episode 22 : Datalake & Datasharing + DevOps & FinOps + Silicon Chalet

Play Episode Listen Later Oct 28, 2022 95:03

Un tour d'horizon sur les solutions Datalake du marché et discussion sur le Datasharing Coté Devops : comme le devops est perçu suivant le type d'entreprise FinOps : pilotage des couts News : Nouveau Meetup Silicon Chalet

devops silicon chalet data lake finops

Episode 21 : REX sur crash databases mssql + AWS AppRunner + les Certifications IT

Play Episode Listen Later Oct 10, 2022 91:52

Episode 21 : Rex sur un crash d'une infrastructure virtuelle et l'impact sur les bases de données (MSSQL). Découverte de AWS App Runner et discussions sur les certifications IT

crash databases certifications mssql

Episode 20 : Microsoft Dataverse & les secrets d’un stockage performant pour les bases de données

Play Episode Listen Later Sep 10, 2022

Microsoft Dataverse : une base de données universelle ? Retour sur EightKB 2022 et les indicateurs de performances critiques selon les fichiers utilisés par SQL Server (Journal, Datafiles, Backup Files) : Latence vs Bande Passante

retour bases donn les secrets performant stockage microsoft dataverse

Episode 19 : MS SQL Server 2022 nouveautés et AWS CloudFront CDN

Play Episode Listen Later Aug 10, 2022

Quelques nouveautés de SQL Server 2022 : optimisation des index columnStore, opérateur Is (Not) Distinct From, DateTrunc, DateBucket, Greatest, Least. 2ème partie avec Aws Cloudfront ou le CDN selon AWS. 3ème partie : Coups de coeurs avec Apache Arrow Flight SQL et HashiCorp Learn

greatest aws quelques coups cdn nouveaut sql server cloudfront

Episode 18 : DuckDB et Apache Arrow

Play Episode Listen Later Jul 16, 2022 58:56

DuckDB est une base de données OLAP in-process et très légère : très utile pour la préparation de données en SQL Surtout quand cette base est compilée en C++, très performante, dotée de nombreuses fonctions, capable de lire et écrire des fichiers csv ou parquet et utilisable via ODBC,JDBC, API python ou C++ ou tout simplement via CLI. Apache Arrow est un format pour la représentation colonnaire données analytiques et permet d'éviter la serialisation et la perte de temps associée.

api cli olap apache arrow jdbc duckdb odbc

Episode 17 : Retours DevopsDays Genève + AWS S3 et Athena+

Play Episode Listen Later Jun 15, 2022

Retours sur les DevOpsDays de Genève 2022. Discussion sur AWS S3 et les services Analytiques dérivés AWS Athena et Glue. On parle également de Apache Parquet et du requêtage via SQL de ces fichiers ==> Datalake

glue sql retours data lake aws s3 devopsdays

Episode 16 : BigQuery & Etourno de Domwee

Play Episode Listen Later Jun 8, 2022

BigQuery et la sécurité des accès aux données et Domwee Etourno un ELT SAAS pour BigQuery et Snowflake

snowflakes bigquery

Episode 15 : BigQuery un datawarehouse serverless sur GCP

Play Episode Listen Later May 30, 2022 68:50

BigQuery : un datawarehouse serverless sur GCP tarifé à la requête. Brice Michetti, spécialiste GCP et BigQuery depuis plus de 5 ans nous en parle

serverless gcp bigquery

Episode 14 : Data Gouvernance // Monitoring de bases de données

Play Episode Listen Later May 24, 2022

Data Gouvernance : les rôles Monitoring de bases de données : 3 types d'outillage : les spécialisés, les outils d'APM et les frameworks de monitoring type ELK

data monitoring bases elk donn gouvernance

Episode 12 : Datalake intro et aide pour les débutants dans le cloud

Play Episode Listen Later May 17, 2022 85:34

On parle des bases d'un datalake et quelques conseils pour débuter ans le cloud

cloud aide les d data lake

Episode 11 : Result Cache // FinOps & Ressources

Play Episode Listen Later May 10, 2022 63:58

Le result cache (ou query cache) en base de données permet d'accélérer les requêtes répétitives et consommatrices sur les bases de données. Quelles databases disposent de cette fonctionnalité ? Optimiser sa consommation de ressources dans le cloud : le FinOps

result quelles cache ressources optimiser finops

Episode 10 : DataHub & Strategie Data

Play Episode Listen Later May 3, 2022 67:33

Datahub : définition(s) et approche. Data stratégie : comment mieux intégrer et gérer la données dans l'entreprise

data strategie datahub

Episode 9 : Slowly Changing Dimensions // API

Play Episode Listen Later Apr 26, 2022 68:20

Coté Modélisation : les SCD ou Slowly Changing dimensions (dimensions à évolution lente) ==> on discute des SCD1, SCD2, SCD3 et même SCD6. Eric nous parle API, REST bien sur !

slowly api dimensions scd

Episode 8 : Bases Graphes Neo4j // Parallélisme dans les databases relationnelles

Play Episode Listen Later Apr 12, 2022 76:18

Bases de données graphes // Performance & Database : Le parallélisme

dans les databases bases parall neo4j

Episode 7 : Gestion des plans d’exécution (SPM) | Les étapes pour construire son datavault | Introduction à Terraform

Play Episode Listen Later Mar 29, 2022 111:55

3 parties dans cet épisode : la gestion des plans d'exécution particuliers dans les bases de données, les étapes pour concevoir son datavault et finalement une introduction a Terraform

tapes gestion construire terraform

Episode 6 : Plan d’exécution, Orchestrateur de containeurs et multi-temporalité dans le datavault

Play Episode Listen Later Mar 15, 2022

Le plan d'exécution dans une base de données : la base et quelques outils. L'orchestrateur de containers : pourquoi un orchestrateur et quel orchestrateur choisir en 2022. La multi-temporalité dans le datavault : snapshot or not snapshot !

plan d

Episode 5 : Clef en SHA256 (binary) ou BigInt ? // Indexation et InMemory

Play Episode Listen Later Mar 1, 2022 57:59

Dans un datavault les clefs ne sont pas incrémentales, alors quelle technique utiliser : SHA256 ou fonction de hashache vers un entier ? Une partie sur l'indexation et l'ordre des colonnes, une autre sur le InMemory, la compression et le stockage colonne sur SQL Server, Oracle et HANA.

dans oracle binary sql server clef indexation sha256

Episode 4 : performance et Data Vault, Devops et Docker, Indexation dans les bases de données

Play Episode Listen Later Feb 15, 2022 87:14

Modélisation : Data Vault la suite DevOps : Docker PerformanceIndexation dans les bases de données

performance data vault dans les bases devops mod donn docker indexation

Episode 3 : Partitionnement, Data Vault et le CALMS du DevOps

Play Episode Listen Later Feb 1, 2022 80:18

Performance Database : Partitionnement (Oracle & SQL Server) DevOps : Les fondements (CALMS) Modélisation DataVault: définition et utilité

data vault devops calms

Episode 2 : Modélisation en étoile ou flocon, GitOps intro et performance sql des fonctions UDF

Play Episode Listen Later Jan 18, 2022 69:45

Modélisation en étoile et en flocon : définition et utilité Gitops : principes et intérêts Performance Database : Fonctions Utilisateurs (UDF) dans les bases de données, cas d'utilisation et problèmes de performance

performance mod toile fonctions gitops

Episode 1 : Modélisation en 3ème forme normale / Performance : Curseur vs ensembliste et sargable

Play Episode Listen Later Jan 3, 2022 48:17

Modélisation et formes normales : définition et utilité Performance Database : Curseur vs Ensemble et notion de Sargable

performance ensemble mod forme normale

Claim #DataOops

In order to claim this podcast we'll send an email to with a verification link. Simply click the link and you will be able to edit tags, request a refresh, and other features to take control of your podcast page!

Claim Cancel