Here we are discussing topics and news somehow related to the data engineering
Механизмы DataOps What is DataOps? And How To Not Screw It Up, отличаются ли они от Data Governance. Мы обсудили практики работы с данными, нашли аналогии и различия с DevOps.
Обсудили статью Data Mesh / Data Product Security Pattern в которой Data Mesh рассматривается с новой стороны, как подход в котором удобно защищать данные и можно выстроить периметры data продуктов, а так же следить какие чувствительные данные кто из коллег запрашивает.
Ребята из lakeFS нарисовали красивую картинку про State of Data Engineering 2022, а мы её упомянули в дайджесте #20. С этой картинкой всё совсем непросто, так что там прямо есть что обсудить, а можно и что-то новое узнать!
Одна из самых сложных штук в распределённых системах — распределённый консенсус, кворум, консенсус и всё вокруг них. На удивление у нас нет общего видения того, как правильно и поэтому не только рассказываем, но и выясняем истину по ходу дела.
Здесь мы обсуждаем статью How The Modern Data Stack Is Reshaping Data Engineering из дайджеста #15
Здесь мы обсуждаем статью The Future of the Data Engineer из дайджеста #14 Is the data engineer still the “worst seat at the table?” Thoughts on the past, present, and future of tooling, processes, and culture in our industry.
Разговариаем про всякое — и про худи, и про DWH, и про DataLake, и про C# с LINQ'ом
Здесь мы обсуждаем статью Why you should try something else than Airflow for data pipeline orchestration из дайджеста #12
Здесь мы обсуждаем статью 4 Things You Need to Know When Solving for Data Quality из дайджеста #10 К нам присоединяется Сергей Ярымов, вместе с которым мы говорим про лайнэйдж, зачем он нежен, кто как его делает и, в частности, как его делает Slack. В процессе выпуска всплыл тул sqlglot — парсер и транспайлер SQL, написанный на голом пайтоне.
Здесь мы обсуждаем статью 4 Things You Need to Know When Solving for Data Quality из дайджеста #7 В целом обсуждаем TDD, тестирование данных и другие аспекты жизни дата инжинера, связанные с качеством
По мотивам дайджеста #7 Hudi, Iceberg and Delta Lake: Data Lake Table Formats Compared Apache Kafka Rebalance Protocol, or the magic behind your streams applications Big Data World, Part 4: Architecture
Здесь мы обсуждаем статью и видео по мотивам недавно прошедшего Data Quality Meetup #4 из дайджеста #6 Представляемся Разговариваем про тестирование пайплайнов Проблемы фейковых данных: Закономерности Правила генерации Опаздывающие данные Lineage Metadata Management SmartData