Esse podcast tem como principal objetivo esclarecer as mais diversas faces de Big Data. Hoje em dia a quantidade de produtos e tecnologias disponÃveis no mercado é imensa e saber o que usar e quando irá posicionar qualquer engenheiro de dados no topo da cadeia alimentar. Iremos apresentar diversas discussões calorosas além de explicações em detalhes sobre as mais diversas necessidades para se tornar um profissional diferenciado nessa área.
The Engenharia de Dados [Cast] podcast is an incredibly informative and engaging show that I stumbled upon recently, and I am so glad that I did. From my first listen last night, I was instantly hooked and have been listening to it non-stop since then. As someone who listens to many different podcasts, this one stands out as something truly special.
One of the best aspects of The Engenharia de Dados [Cast] podcast is its level of information. The hosts are extremely knowledgeable in the field of data engineering, and they cover a wide range of topics related to this subject. Whether it's discussing the latest trends in data engineering, providing tips and tricks for professionals in the industry, or exploring case studies and success stories, each episode is filled with valuable insights and practical advice. For anyone interested in or working in the field of data engineering, this podcast is an invaluable resource.
Another great aspect of this podcast is its ability to keep listeners engaged. The hosts have a fantastic rapport with each other, creating a friendly and conversational atmosphere throughout each episode. This makes it feel like you're sitting down with friends who happen to be experts in data engineering and having an enlightening discussion. Additionally, the episodes are well-structured and thoughtfully organized, making it easy to follow along and absorb all the information being shared. It truly feels like you're part of a community of like-minded individuals passionate about data engineering.
While The Engenharia de Dados [Cast] podcast excels in many areas, there are a few minor drawbacks worth mentioning. Firstly, some episodes may be more technical than others, which could potentially be overwhelming for listeners who are new to or less experienced in the field of data engineering. However, the hosts do their best to explain complex concepts in a clear and accessible manner, so even beginners can still gain valuable insights from these episodes. Secondly, as with any podcast that covers a specific subject, there may be episodes that are not as relevant or interesting to some listeners. However, this is a minor issue and can easily be overlooked considering the wealth of valuable content available in each episode.
In conclusion, I cannot recommend The Engenharia de Dados [Cast] podcast enough. It is an incredibly informative and engaging show that has quickly become one of my favorites. Whether you're a seasoned data engineer looking for new insights or someone who is simply interested in learning more about the field, this podcast has something for everyone. The hosts are passionate, knowledgeable, and skilled at delivering high-quality content that will keep you coming back for more.
No episódio de hoje Mateus Oliveira entrevistou Ananda Ellen (Engenharia de Dados), Leonardo Côco e Victor Grutner, integrantes do time de dados da One Way Solution.Spark e Engenharia de Dados para Iniciantes, são tópicos extremamente relevantes nos dias de hoje, afinal, todos nós fomos iniciantes um dia.Nesse bate-papo conversamos sobre quais desafios e conquistas temos durante o aprendizado de Apache Spark.Não somente isso, falamos também sobre a área de Analytics na visão do Leonardo e do Victor, consultores da One Way Solution.Neste podcast iremos falar sobre:Área de AnalyticsApache Spark para IniciantesEsse podcast tem como principal intuito mostrar os desafios que os profissionais iniciantes na área de dados tem em comum, e como você pode se sobressair nestes desafios, com experiências de quem já passou por isso. Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje Mateus Oliveira entrevistou Alessandro Gums (Analytics Engineer), Bruno Bento (Analytics Engineer) e Franklin Ferreira (Arquiteto de Dados), integrantes do time de dados da Clicksign. Analytics Engineer se tornou uma grande thread do mercado e também uma necessidade nas empresas de hoje. fazer o split das responsabilidades de uma determinada área é comum e isso tinha que acontecer na engenharia de dados, devido a complexidade dos processos e necessidades de especialistas.Neste bate papo iremos falar sobre:Analytics EngineerModelagem de Dados nas empresasEsse podcast tem como principal intuito mostrar o dia-a-dia dos Analytics Engineer nas empresas para que você, aspirante a esta área, entenda o exercicio da profissão na realidade.Além disso, queremos demonstrar o quanto esta profissão vem crescendo e expandindo em grandes empresas como Clicksign.Linkedin do time ClicksignFranklin Ferreira (Arquiteto de dados): https://www.linkedin.com/in/franklinfs390/Alessandro Gums (Analytics Engineer):https://www.linkedin.com/in/alessandro-gums/Bruno Bento (Analytics Engineer):https://www.linkedin.com/in/bruno-pereira-bento/ Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Mateus Oliveira entrevistam Franklin Ferreira (Arquiteto de Dados) e Vinicius Gasparaini (Engenheiro de Dados), ambos integrantes do time de dados da Clicksign.Arquitetura de Dados & Engenharia de Dados, são áreas que estão ganhando muita tração nos últimos anos, entender como elas funcionam dentro de uma empresas data-driven é, não só um dos melhores metódos de estudo de mercado, como também escolha de qual caminho seguir.Neste bate papo iremos falar sobre:Arquiteturas de DadosEngenharia de DadosEsse podcast tem como principal intuito entender melhor como criar e evoluir arquiteturas de dados para melhor atender o negócio e como a engenharia de dados é usada dentro das grandes empresas, indo além de tecnologias e falando de metodologias e processos.Linkedin do time ClicksignFranklin Ferreira (Arquiteto de dados): https://www.linkedin.com/in/franklinfs390/Vinicius Gasparini (Engenharia de Dados): https://www.linkedin.com/in/vngasp/ (editado) Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Leonardo Souza & Mateus Oliveira entrevistam Filipe Mubarac (Analista de dados), Acácio Komesu (Analista de BI), Levi de Carvalho (Analista de Dados) e Franklin Ferreira (Arquiteto de Dados), integrantes do time de dados e analytics da Clicksign.Data Analytics sempre foi um das principais áreas dentro de uma empresa. Nos últimos anos, com certeza, passou de uma área de apoio a tomada de decisão a uma área core da empresa, pois o mundo hoje é data-driven, e tornou-se uma questão competitiva produzir e ler dados em grande escala, além de analisá-los para decisões usando Machine Learning, NLP e Generativa.Neste bate-papo iremos falar sobre:Data Analytics;Analytics e Business.Este podcast tem como principal objetivo mostrar como as empresas constroem suas áreas de dados e analytics no dia a dia, como se tornar um profissional atrativo para empresas data-driven como a Clicksign, e como alinhar tudo com o business da empresa.Linkedin do time ClicksignFranklin Ferreira (Arquiteto de dados): https://www.linkedin.com/in/franklinfs390/Filipe Mubarac (Analista de Dados): https://www.linkedin.com/in/filipemubarac/Acácio Komesu (Analista de BI): https://www.linkedin.com/in/ac%C3%A1cio-komesu-14b244b5/Levi de Carvalho (Analista de Dados) :https://www.linkedin.com/in/levidecarvalho/ Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Luan Moreno & Mateus Oliveira entrevistam o time do Orion da One Way Solution.Plataforma de Dados no Kubernetes é um dos tópicos mais pedidos para falarmos aqui no Podcast, principalmente para quem tem a necessidade de uma plataforma agnóstica a cloud e de baixo custo.Neste bate papo iremos falar sobre:Nas trincheiras da consultoria;Aprendendo Kubernetes;Plataforma de Dados no Kubernetes.Esse podcast tem como principal objetivo mostrar os desafios de criar uma plataforma customizada usando open-source.LinkedIn do time OrionSite da One Way SolutionStrimziMinIOAirflow Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Luan Moreno & Mateus Oliveira entrevistaram Thiago Rocha (Scrum Master), Marco Coimbra (Data Product Manager), José Ivamotto (Head de Dados) e Franklin Ferreira (Arquiteto de Dados), integrantes do time de dados da Clicksign.Gestão & Dados com Produto são tópicos extremamente relevantes nos dias de hoje.Falar sobre dados sem se preocupar com a gestão, pode trazer impactos negativos às entregas envolvendo dados nas organizações.Além disso, entender como as empresas vem produzindo dados é um excelente benchmarking para inovações.Neste bate papo iremos falar sobre:Dados como Produto;Times de dados;Gestão de Dados.O principal objetivo deste episódio é mostrar como as empresas estão tratando esses tópicos no cotidiano.Não apenas no nível técnico e gerencial, mas também com a visão de todos os envolvidos, Scrum Master e DPM (Data Product Manager).Linkedin do time ClicksignThiago Rocha (Scrum Master): https://www.linkedin.com/in/thiago-rocha98/Marco Coimbra (Data Product Manager): https://www.linkedin.com/in/marcoantoniocoimbrafilho/Jose Ivamotto (Head de dados): https://www.linkedin.com/in/jose-ivamotto/Franklin Ferreira (Arquiteto de dados): https://www.linkedin.com/in/franklinfs390/ Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Luan Moreno e Mateus Oliveira entrevistaram Aron Willians, atualmente como Community Manager/ Developer Advocate na Ampare. Aaron é apaixonado por trazer novas tecnologias para desenvolvedores atuais e para a próxima geração, por meio de hacking e treinamento prático. Neste podcast, você vai aprender sobre: Desafios na construção da comunidade de código aberto; Visão gerencial de comunidades de dados;Empresas que estão investindo no impulsionamento do Pulsar.Falamos também nesse bate-papo sobre os seguintes temas:Tecnologia como Kuberbetes; Apache Pulsar.Aprenda mais sobre as comunidades de dados e sobre as principais tecnologias do Mercado.Ararob Willians= https://www.linkedin.com/in/aaron-don-williams/ Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Luan Moreno e Mateus Oliveira entrevistam Ivan Lima, atualmente Director of Machine Learning & Data Engineering no Ifood.Ifood é uma das maiores empresas do Brasil e, claro, leva o assunto sobre dados muito a serio. Imagine receber diversos dados do aplicativo, além de possuir várias sessões analíticas e dados em alto volume.Neste podcast, conversamos sobre:Desafios na área de dados de grandes corporações;Visão gerencial.Falamos também sobre os seguintes temas:Mercado de trabalho no Brasil em 2022;Tecnologias usadas dentro do Ifood;Softskills;Gestão de times de dados.Aprenda mais sobre como as empresas estão lidando com o desafio de dados internamente, principalmente de grande porte como Ifood.Ivan Lima = Linkedin Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Luan Moreno, Mateus Oliveira e Orlando Marley entrevistam Bill Inmon, criador do conceito de Data Warehouse e escritor de diversos livros com temáticas voltadas para dados.Data Warehouse é o conceito de centralização de dados analíticos das organizações, de forma estruturar um visão 360° do business. Neste episódio, você irá aprender: Diferenças entre OLTP e OLAP;Histórico dos dados para tomada de decisão;Criar um processo resiliente para entender os fatos dos dados.Falamos também, neste bate-papo, sobre os seguintes temas: História do Bill Inmon;Pilares de sistemas analíticos;Nova geração de plataforma de dados analíticos;Aprenda mais sobre análise de dados, como utilizar tecnologias para tornar o seu ambiente analítico confiável e resiliente com as palavras do pai do Data Warehouse. Bill Inmon = Linkedin Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Luan Moreno e Mateus Oliveira entrevistam Brian Olsen, atualmente Head of Developer Relations na Tabular.Trino é um produto open-source, para virtualizar os dados através de queries. Imagine uma engine de SQL capaz de consultar dados do Apache Kafka, Cloud Storage, Databases e diversas outras fontes de forma simples e extremamente eficaz. Com Trino, você tem os seguintes benefícios:Diversos conectores para múltiplas fontes de dadosGerar queries analytics de forma simples e eficazTrabalhar com modelos de Lakehouse como Iceberg e DeltaFalamos também neste bate-papo sobre os seguintes temas:História do TrinoCapacidades do TrinoRecursos avançados Novas featuresAdaptive Query ExecutionCasos de UsoAprenda mais sobre Trino, e como utilizar esta tecnologia para explorar os dados em diversas fontes diferentes, junto com um dos principais vozes da comunidade. Brian Olsen Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Luan Moreno e Mateus Oliveira entrevistam Neha Pawar, atualmente Founder Engineer na StarTree.Apache Pinot é um banco de dados OLAP de baixa latência, que foi desenvolvido para queries analíticas dentro do Linkedin.O objetivo é resolver um dos problemas que tecnologias como o Apache Kafka não resolvem, consultar bilhões de eventos com performance e baixa latêcia . Com Apache Pinot, você tem os seguintes benefícios: Alto desempenho de consultas analíticas; Dados que residem no Apache Pinot são comprimidos; Habilita milhares de acessos concorrentes aos dados residentes no Apache Pinot.Falamos também sobre os temas: Criação do Apache Pinot; User Facing Analytics;Tipos de Deployment no Apache Pinot; O que vem por aí no Apache Pinot.Aprenda mais sobre Apache Pinot, uma tecnologia capaz de armazenar dados em tempo real, e executar queries com baixa latência, chegando até milissegundos.Neha Pawar = Linkedinhttps://pinot.apache.org/ Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Luan Moreno e Mateus Oliveira conversam com Matheus Willian, atualmente Head de Engenharia de Dados na One Way Solution.dbt é uma das tecnologias mais faladas e utilizadas fora do país, possibilitando aos times de todos os portes trabalhar com o conceito de Modern Data Stack, tornando o desenvolvimento de transformações dos dados de forma simples e com SQL.Com dbt, você tem os seguintes benefícios:Desenvolvimento de pipeline de dados usando SQL;Reutilização dos códigos usando estruturas de git;Simplificação da Stack de dados;Processamento em Modern Data Warehouses dentro outros adapters.Falamos também nesse bate-papo sobre os seguintes temas:Dados como pilar central;Dbt;Times de BI Moderno.Aprenda mais sobre dbt, como utilizar uma tecnologia para Modern Data Stack, junto com o time da One Way Solution, que mais impulsiona a comunidade, tanto com conteúdo, como com treinamentos e eventos para ajudar os profissionais de dados brasileiros em vagas de trabalho dentro e fora do país.Matheus Willian = https://www.linkedin.com/in/matheuswillian/https://www.getdbt.com/ Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Luan Moreno e Mateus Oliveira conversam sobre a participação no Kafka Summit London 2023. Kafka Summit é uma das maiores conferências de tecnologia do mundo, onde empresas de tecnologias de streaming anunciam novidades e podemos entender mais sobre como as elas estão usando estas tecnologias no dia a dia.Na conferência tivemos 3 momentos:Keynote - (Anúncios);Vendor Hall - (Onde os patrocinadores ficam); Sessions - (Salas que os palestrantes fazem suas apresentações).Falamos também nesse bate-papo sobre os seguintes temas: Anúncios Open-Source;Anúncios Confluent;Overview das sessões;Hall dos patrocinadores;Impressões principais da Conferência.Aprenda mais sobre tecnologias como Apache Kafka, Apache Flink dentre outras de Streaming. Além disso, vamos entender como as empresas como financeiras europeias, Apple, Uber, Netflix, entre outras, estão usando o Apache Kafka para resolver problemas de negócio.Kafka Summit 2023 Londonhttps://www.confluent.io/events/kafka-summit-london-2023/ Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Luan Moreno & Mateus Oliveira entrevistaram André Araújo , atualmente como Field Engineer, Data in Motion na Cloudera.CDP é uma Plataforma de Dados Enterprise Cloudera, com foco na versatilidade em casos de uso como Streaming Platform, possuindo tecnologias como Apache Kafka e Apache Flink .Com CSP, você tem os seguintes benefícios: Apache Kafka - Plataforma de armazenamento de Streaming de Dados líder de mercado;Apache Flink - Plataforma de Processamento de Dados.Neste bate-papo vamos falar sobre:Plataforma de Dados Cloudera ;Plataforma de transmissão Cloudera .O Cloudera sempre foi uma das plataformas mais utilizadas no mercado, agora com a nova versão e casos de uso que atendem diversos cenários, como o caso do CSP ( Cloudera Stream Platform ).André Araújo = LinkedinCloudera = webpage Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Mateus Oliveira e Matheus Willian entrevistaram Aurimas Griciūnas, atualmente Fundador e CEO da Swirl AI & Arquiteto Sênior de Soluções da neptune ai.Engenharia de Dados e Ciência de Dados são, hoje, as áreas de maior demanda no mercado internacional e nacional.O primeiro, cria soluções para disponibilização de dados da melhor forma e o segundo, cria algoritmos de predição para aprimorar e automatizar decisões.Para melhor entender a relação entre as áreas, vamos falar sobre:O que é Engenharia de Dados e quais as suas vertentes?O que é Ciência de Dados e quais as suas vertentes?Falamos também, neste bate-papo, sobre os seguintes temas:Profissões de dados;Dados como produto;Universo de Ciência de Dados;Aprenda como funciona essa relação entre os times e como o mercado está se movendo para segmentações de alguns cargos emergentes de outros cargos.Swirl AI = https://www.swirlai.com/Aurimas Griciūnas = Linkedin Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Luan Moreno, Mateus Oliveira e Antony Lucas entrevistaram Dipankar Mazumdar, atualmente como Data Advocate na Dremio.Dremio é uma das mais conhecidas tecnologias de Self-Service SQL Analytics de mercado, unificando a visão dos dados e utilizando a lingua franca de dados: o SQL. Alinhado com o Apache Iceberg, o Dremio traz a proposta de ser um Open Data Lakehouse. Com Apache Iceberg, você tem os seguintes benefícios:Compactação de Dados;Time Travel;ACID;Hidden Partition;Desenvolvido para multi-plataforma.Falamos também nesse bate-papo sobre os seguintes temas:Engenharia de Dados;Apache Iceberg;Dremio.Aprenda mais sobre como o Dremio e Iceberg que juntos, podem prover mais uma opção de Data Lakehouse, principalmente para casos que vamos trabalhar com plataformas distintas de processamento e exploração de dados.Dipankar Mazumdar = Linkedinhttps://www.dremio.com/https://iceberg.apache.org/ Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Luan Moreno e Mateus Oliveira entrevistaram Denny Lee & Mathew Powers, atualmente Developer Advocates na Databricks.Delta Lake é um produto open-source, que nos permite aplicar o famoso Data Lakehouse {Data Lake + Data Warehouse}, desenvolvido pela empresa dos criadores do Apache Spark. Delta Lake resolve o problema do Apache Spark, armazenamento, processamento de dados no Data Lake de forma otimizada.Com Delta Lake, você tem os seguintes benefícios:Formato de arquivo como se fosse uma tabela;Time Travel;ACID;Batch e Streaming Unificados.Falamos também nesse bate-papo sobre os seguintes temas:Estado da arte dos dados;Delta Lake.Aprenda mais sobre Delta Lake, como utilizar uma tecnologia para Data LakeHouse, junto com o time da databricks que mais impulsiona a comunidade com conteúdos, releases e eventos para ajudar este produto open-source.Denny Lee - Linkedin Mathew Powers - Linkedinhttps://delta.io/ Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Luan Moreno, Mateus Oliveira & Tiago Xavier entrevistaram Hudson Buzby, atualmente como Arquiteto de Soluções na Spot by NetApp. SPOK ou Spark Operator on Kubernetes, é o deployment para Apache Spark que utiliza um Operator de Kubernetes para melhor gerenciar os drivers e executors usando Kubernetes como infraestrutra escalável. Com SPOK, você possui os seguintes benefícios:Melhor utilização de recursos escaláveis.Infraestrutura mais leve.Criação de serviços Serverless {Ocean} Falamos também nesse bate-papo sobre os seguintes temas:HistóriaSpark Operator on KubernetesOcean for Apache SparkDicas das trincheirasNesta sessão você aprenderá a utilizar melhor o Apache Spark no Kubernetes, e entender um pouco mais porque os clientes da Spot embarcaram nesta jornada.SpotHudson BuzbyData MechanicsOcean for Apache Spark Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Luan Moreno & Mateus Oliveira entrevistaram Tobias Mao, atualmente como Co-Founder e CTO na Tobiko Data.SQLMesh é um framework desenvolvido em Python para automatizar tudo que se faça necessário para uma plataforma de dados escalável utilizando o conceito de DataOps.Com SQLMesh, você possui os seguintes benefícios:Foco nos dados do negócio, usando DataOps como premissa principal. Foco em escalabilidade sem se preocupar com seu Data Warehouse ou Engine de Query.Nosso bate papo iremos falar sobre:Estado dos Dados {State of Data}SQLMeshDataOpsPython e SQL para Engenharia de DadosTobiko DataEm todas as organizações independentemente do porte, vemos a necessidade de tornar o processo de uso dos dados mais escalável, sendo assim o SQLMesh é uma excelente opção para otimizar o processo de DataOps.Tobias MaoSQLMeshTobiko Data Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Luan Moreno e Mateus Oliveira entrevistaram Lucas Galindo Data Engineer/Software Engineer & Gabs Ferreira Community Builder, ambos trabalhando na Alvin.A solução Alvin cria e mantém automaticamente um conjunto de dados de gráfico conectando em fontes de dados, como Snowflake, Redshift, dentre outros entregando uma solução da Data Lineage robusta.O Alvin oferece os seguintes benefícios:Uma maneira automatizada de detectar e rastrear erros/bugsdo pipeline, reduzindo o tempo de inatividade dos dados.Automatiza o teste de regressão, fornecendo um relatório detalhado do impacto downstream antes da implantação do código.Mapeia automaticamente os fluxos de dados dentro e entre os sistemas e mostra como eles são consumidos em toda a empresa.Neste podcast, foi também argumentado assuntos como governança, democratização e qualidade dos dados.Conceitos de Linhagem de Dados e Governança de DadosFeatures Integrações disponíveis na Plataforma da Alvin.Diferenças de mercado (Nacional & Internacional).Comunidade de Dados.Entenda porque precisamos de governança de dados e como a Alvin pode nos entregar um produto focado em Linhagem de Dados para agregar valor para aos seus cliente.AlvinGabs FerreiraLucas Galindo Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Mateus Oliveira entrevistou Jakub Scholz, atualmente como Senior Principal Software Engineer na Red Hat.Strimzi é um Kubernetes Operator para deployment de Apache Kafka, modular e versátil para ambientes de todos os portes, open-source.Com Strimzi, você tem os seguintes benefícios:Apache Kafka no KubernetesElasticidade do seu deploymentExtensibilidade do seu produto com Apache KafkaFalamos também nesse bate-papo sobre os seguintes temas:Apache KafkaNovas features do StrimziComunidadeAprenda como utilizar o Strimzi, Apache Kafka no Kubernetes, com um dos criados e um dos profissionais que mais apoia a comunidade e o projeto open-source.Jakob Scholz = Linkedin Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Luan Moreno e Mateus Oliveira entrevistaram Xiran Waibel, atualmente engenheira de dados Sênior na Netflix.A Engenharia de Dados é um das profissões que estão em alta no mercado de trabalho, mas entender como funciona é algo que até hoje as empresas tem dificuldades.Engenharia de Dados engloba:Entendimento de novas tecnologias orientadas a Big DataTrabalhar com soluções de dados que resolvem problemas de negócioConstruções de pipelines de dados resilientes e escaláveisFalamos também nesse bate-papo sobre os seguintes temas:Engenharia de Dados na Netflix;Dicas de Engenharia de Dados;Soft Skills;Comunidade.Aprenda um pouco como a Netflix trabalha utilizando dados como um dos produtos mais valiosos da empresa, além de uma cultura interna forte e funcional.Xiran Waibel Medium Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Luan Moreno e Mateus Oliveira entrevistaram Marc Lamberti, atualmente como Head of Customer na Astronomer.Vamos entender o Apache Airflow em um nível mais avançado para aplicar soluções para problemas de dados no dia-a-dia, visando melhores práticas. Abaixo alguns pontos sobre técnicas avançadas de Apache Airflow:Executar pipelines do Airflow com acesso imediato aos recursos mais recentes. Reduzir o consumo de infraestrutura para tarefas de longa duração.Reduzir latência de tarefa com configuração e dimensionamento automático.Coletar metadados automaticamente por meio do Open Lineage integrado.Falamos também nesse bate-papo sobre os seguintes temas:Características do Apache AirflowAstro Python SDKDynamic TaskAstro CloudApache Airflow vs. Perfect vs. MageAprenda como utilizar o Apache Airflow em um nível mais avançado para orquestrar o seus data pipelines.Marc LambertiMarc Youtube ChannelEngenharia de Dados Academy Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje, Luan Moreno e Mateus Oliveira entrevistaram Tatiana Al-Chueyr Martins, atualmente como Engenheira de Software na Astronomer. O Astro Python SDK é um SDK desenvolvido em Python Open-Source criado pela Astronomer, empresa que acelera o Apache Airflow, para tornar simples o processo de ETL. Astro Python SDK oferece os seguintes benefícios:Operações de ETL com Operadores para Abstração de ComplexidadeCarga de Dados de Forma Escalável e Eficiente (Native Transfers)Transformações Utilizando SQL & DataFramesEntrega dos Dados nos Principais Data Warehouses ModernosOperações Dinâmicas e EscaláveisFalamos também nesse bate-papo sobre os seguintes temas:Apache AirflowAstronomerAstro CloudAprenda como o Astro Python SDK pode de fato mudar a forma com que seu time cria e desenvolve pipelines de ETL dentro do Apache Airflow.Tatiana Al-Chueyr MartinsAstro Python SDKAstronomer Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Nesse episódio Luan Moreno & Mateus Oliveira entrevistam Rodrigo Oliveira, atualmente como Arquiteto de Solução na Databricks.Databricks é uma plataforma de linguagem unificada que tem como motor de processamento o Apache Spark, possibilitando o processamento de dados em batch e streaming em um serviço gerenciado presente nas principais nuvens (AWS, Azure e GCP).Além disto, o Databricks proporciona:Experiência de Notebook AvançadaWorkspace para Times de DadosCriação de Clusters para o seu Use-CasePlataforma de Desenvolvimento de PipelinesNesse bate papo foi feito a abordagem dos seguintes temas:Apache Spark (Open-Source)Delta Lake (Open-Source)Data LakehouseUnity CatalogWorkflowsDelta Live Tables (DLT)Databricks SQLSnowflake vs. DatabricksEntenda melhor como utilizar o Databricks em um ambiente corporativo para colaboração entre os times de dados, além de uma solução de fácil desenvolvimento e entrega de valor para sua empresa, se tornando cada vez mais uma plataforma de dados.Rodrigo OliveiraDatabricks Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Nesse episódio Luan Moreno & Mateus Oliveira entrevistam João Bosco, atualmente como Software & Solution Strategist no Nubank e Marcelo Costa, atualmente como Head of IT na Cia. Hering. Ambos os convidados e apresentadores são Confluent Community Catalysts.Confluent Community Catalysts são profissionais que investem seu tempo em divulgar, contribuir seja no código, ou respondendo ativamente nos forums e perguntas do Stack Overflow sobre Apache Kafka, sendo reconhecidos pela comunidade e pela Confluent pelo trabalho exercido.Nesta mesa redonda conversamos sobre os seguintes temas:Conceitos de Apache KafkaEvolução de Tecnologias de Mensageria para Plataforma de StreamingHistórias das Trincheiras sobre Apache Kafka e CuriosidadesDesafios para Implementação Inicial com Apache Kafka e AdoçãoAprenda com a experiência de profissionais que trabalharam diariamente com Apache Kafka usando as melhores práticas de mercado para construir uma plataforma robusta de streaming em tempo-real que é líder de mercado atualmente.Marcelo CostaJoão BoscoConfluent Catalyst Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Nesse episódio Luan Moreno & Mateus Oliveira entrevistam Timo Walther, atualmente como Principal Software Engineer na Confluent após a recente aquisição da Immerok pela Confluent Cloud.O Apache Flink é uma engine de processamento de dados unificada que aplica tanto batch quanto tempo-real. Tem ganhado grande adoção entre as grandes empresas por oferecer um modelo de computação extremamente eficiente, principalmente para streaming e computação que retenha estado (stateful). Além de ser uma plataforma Open Source, capaz de responder aos seguintes requisitos de forma efetiva como:In-Memory ProcessingGraph ProcessingBatch ProcessingReal-Time Stream ProcessingNesse bate papo falamos sobre os seguintes temas:State Backend & RocksDBProcessamento de Dados em Tempo RealComunicação entre API de Alto e Baixo NívelCheckpoint & EOS (Exactly-Once Semantics)Recursos e Melhores Práticas para ImplementaçãoAprenda como o Apache Flink pode ser adicionado a seus pipelines de dados e como ele pode se diferenciar como uma plataforma de processamento em tempo-real para atender grandes demandas de dados.Apache FlinkConfluent Cloud + ImmerokTimo Walther Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Neste episódio falamos com Maayan Salom sobre dbt e Elementary e como essas duas ferramentas tem ajudado times de dados a implementar de forma eficiente e segura pipelines de dados.O dbt se tornou uma das ferramentas mais utilizadas para transformar dados dentro do Data Warehouse por trazer a facilidade de se usar a linguagem SQL para processamento dos dados. Com dbt é possível ter uma visão ampla do que está acontecendo dentro da sua fonte da verdade analítica, além de proporcionar diversas capacidades interessantes para times que desejam escalar de forma rápida e estruturada.O Elementary é um produto open-source cuja responsabilidade é aplicar o conceito de observabilidade dentro dos pipelines de dados construídos no dbt. Essa solução entrega relatórios, detecção de anomalias, validação de desempenho do seu pipeline e pode até entregar alerta no Slack, isso tudo para aprimorar e enriquecer seu processo de ETL.Nesse bate papo você irá entender como o dbt e o Elementary podem reduzir a complexidade durante a criação e observabilidade dos seus pipelines de dados e trazer seu time de dados para um ambiente confiável e monitorado. dbtElementaryMaayan Salom Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Neste episódio entrevistamos o Kishore Gopalakrishna, Co-Fundador e CEO da empresa StarTree, Luan Moreno e Mateus Oliveira batem um papo com o co-criador dessa poderosa ferramenta chamada Apache Pinot.O Pinot é um OLAP DataStore desenvolvido para responder consultas analíticas com tempo de resposta na casa dos milissegundos, podendo ser considerado um banco de dados para consultas em tempo-real. Capaz de ingerir de fontes de dados em Batch (Hadoop HDFS, Amazon S3, Azure ADLS, Google Cloud Storage), bem como fontes de dados em Stream (Apache Kafka, Apache Pulsar, Amazon Kinesis).O Pinot foi projetado para executar consultas OLAP em tempo real, com baixa latência em grandes quantidades de eventos para entregar o conceito de User-Facing Analytics.Foi criado e desenvolvido por engenheiros do LinkedIn e do Uber e projetado para escalar e expandir sem limites.Apache PinotKishore GopalakrishnaStarTree Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Neste episódio vamos conhecer o Director of Apache Airflow Engineering da empresa Astronomer, Kaxil Naik.Kaxil Naik vai nos dar uma visão mais apurada sobre o Apache Airflow e os produtos da Astronomer, como desenvolvedor e PMC Committer, apaixonado por produtos Open-Source.O Astro produto da Astronomer oferece os seguintes benefícios:Executar pipelines do Airflow com acesso imediato aos recursos mais recentes.Reduzir o consumo de infraestrutura para tarefas de longa duração.Reduzir latência de tarefa com configuração e dimensionamento automático.Coletar metadados automaticamente por meio do Open Lineage integrado.Além disto vamos falar sobre:Apache Airflow em geral e novidades.Principais casos de uso.Python como linguagem franca.Você vai ouvir isso e muitas outras experiências das trincheiras, trocadas com Luan Moreno e Mateus Oliveira, aqui, no nosso Engenharia de Dados Cast.Kaxil NaikAstronomer Luan Moreno = https://www.linkedin.com/in/luanmoreno/
O Microsoft Ignite é o evento mais esperado por profissionais da Microsoft que desejam se atualizar nas diversas tecnologias entregue pela empresa.Durante 3 dias, a Microsoft traz 800 sessões técnicas gratuitas divididas da seguinte forma:AIAzureBusiness ApplicationsEdgeIndustry CloudMicrosoft 365Power PlatformSecurityWindowsLuan Moreno e Matheus Oliveira batem um papo sobre as novidades referente a Engenharia de Dados, os seguintes tópicos são cobertos nesse episódio (Azure Data):Microsoft Intelligent Data PlatformAzure CosmosDBAzure SQL Database for PostgresAutoScale for Azure Database for MySQLAzure Data StudioAzure Data ExplorerSAP Change Data ConnectorAzure Data FactoryMicrosoft PurviewPara a lista completa de novidades acesse:Microsoft Ignite 2022 Book of News Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Neste podcast conversamos com Igor Lukanin um dos desenvolvedores do Cube, uma ferramenta incrível para camada semântica de dados. Conversamos sobre coisas bem legais do universo de dados relacionadas a Big Data & Analytics, como: Os desafios dos profissionais de dados atualmenteBusiness Intelligence para resolver problemas modernosQuais são os conceitos do Headless BIO que é o CubeArquitetura, componentes, características dentre outrosConversamos um pouco sobre o modelo SaaS (Software como Serviço)Oferta do Cube CloudIgor LukaninCube.Dev Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Neste episódio falaremos sobre o Dremio, o projeto open-source que se descreve como The Data Lake Engine, sendo uma ferramenta que permite realizar a integração de dados provenientes das mais variadas fontes de dados.O projeto, The Data Lake Engine, tem benefícios e arquitetura integrada com bancos relacionais, bases colunares, indexadores dentre outros tipos. Hoje recebemos Alex Merced, Desenvolvedor e Advocate na Dremio e Data Lakehouse Evangelist que compartilhou conosco seu vasto conhecimento sobre o assunto.Dremio = The Easy and Open Data Lakehouse Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Spoiler Alert = Mind-Blowing ContentHave you ever asked yourself if someone has thought about how to unwrap and simplify stream processing?Or, would stream processing be available in Python using the best-of-breed libraries and Pythonic code and yet scale horizontally?If you're about to listen to this episode, this one may not only change your mind but also would drastically change the way you look at Python.Zander Matheson is a distinguished Python engineer and founder of the Bytewax company, which aims to simplify real-time stream processing using today's lingua franca, Python.Bytewax is an Open-Source Python framework that simplifies end-to-end data pipeline workflows. It offers a non-JVM approach to abstract and solves complex data problems.Hence, it's wicked fast and straightforward to use. It also offers a CLI where you can easily deploy the DataFlows.In this episode, we wade through the following topics:Python for Data Engineers and ScientistsPopularity and LibrariesBytewax & MotivatorsMain CapabilitiesAdoptionUpcoming FeaturesZander Matheson = https://www.linkedin.com/in/alexandermatheson/Bytewax = https://bytewax.io/ Luan Moreno = https://www.linkedin.com/in/luanmoreno/
This episode sets a new momentum on the Podcast. We've interviewed one of the most active and well-known professionals in the Streaming quadrant.Kai Waehner currently holds the title of Field of CTO at Confluent with the main goal of working closely with customers and partners across the world (US, EMEA, APAC), internal teams (sales, engineering, product, marketing, evangelism), public relations (industry analysts, press).We've talked about different topics that involve streaming needs and how Apache Kafka and Confluent Cloud can help the customer along its data streaming journey.Some of the topics covered are:Challenges for companies nowadaysThe true definition of a Streaming PlatformApache Kafka and its main use-casesThe background between Lambda & Kappa architectureConfluent Cloud & Apache KafkaFeatures of Confluent CloudKai Waehner = https://www.linkedin.com/in/kaiwaehner/Blog = https://www.kai-waehner.deApache Kafka = https://kafka.apache.org/ Confluent Cloud = https://www.confluent.io/confluent-cloud Luan Moreno = https://www.linkedin.com/in/luanmoreno/
No episódio de hoje estamos com Andre Pretto, profissional com uma bagagem de 15 anos em Engenharia de Dados, trabalhando ativamente no mercado europeu.Suas stacks têm foco em soluções open source, improvement cloud no ks8 e streaming de dados.Veremos que o Click House é um banco de dados colunar de código aberto para processamento analítico online, usado em cenários que necessitam de análise de dados em grande velocidade.Por exemplo, a telemetria de IOT, análise de métrica, entre outros.Fique com a gente até o final, no nosso Engenharia de Dados Cast! Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Nesse episódio, Luan Moreno e Mateus Oliveira trazem as novidades da conferência data Summit 2022, sobre o Snowflake a plataforma nativa da nuvem que elimina a necessidade de data warehouses, data lakes e data marts separados, permitindo o compartilhamento seguro de dados em toda a organização e as novidades são As melhorias no snowflake:Unistore;Snowflake e iceberg Tables;Replicação, Failover e disaster recover; e muito mais dentro do nosso Engenharia de Dados[Cast] fique agente ate o final!Anúncios e Novidades da Conferência do Snowflake Summit 2022, segue informações:https://www.snowflake.com/summit/ StreamLithttps://events.snowflake.com/summit/agenda/session/887881 Inovações na Plataformahttps://events.snowflake.com/summit/agenda/session/849842Inovação do Armazenamento de Dados com Unis torehttps://events.snowflake.com/summit/agenda/session/834016 Snowflake Governancehttps://events.snowflake.com/summit/agenda/session/834019 O Futuro da Colaboraçãohttps://events.snowflake.com/summit/agenda/session/834018 Replicação e Failoverhttps://events.snowflake.com/summit/agenda/session/834021 Expansão das Capacidades do Storage com Apache Iceberghttps://events.snowflake.com/summit/agenda/session/884559 No YouTube possuímos um canal de Engenharia de Dados com os tópicos mais importantes dessa área e com lives todas as quartas-feiras.https://www.youtube.com/channel/UCnErAicaumKqIo4sanLo7vQ Quer ficar por dentro dessa área com posts e updates semanais, então acesse o LinkedIN para não perder nenhuma notícia.https://www.linkedin.com/in/luanmoreno/ Disponível no Spotify e na Apple Podcasthttps://open.spotify.com/show/5n9mOmAcjra9KbhKYpOMqYhttps://podcasts.apple.com/br/podcast/engenharia-de-dados-cast/ Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Anúncios e Novidades da Conferência da Databricks, Data+AI Summit 2022, segue informações:https://databricks.com/dataaisummit/ Delta Lake 2.0https://databricks.com/blog/2022/06/30/open-sourcing-all-of-delta-lake.html MLFlow 2.0https://databricks.com/blog/2022/06/29/introducing-mlflow-pipelines-with-mlflow-2-0.html Project Lightspeedhttps://databricks.com/blog/2022/06/28/project-lightspeed-faster-and-simpler-stream-processing-with-apache-spark.html Spark Connecthttps://databricks.com/blog/2022/07/07/introducing-spark-connect-the-power-of-apache-spark-everywhere.html Databricks Runtime 11.0https://docs.databricks.com/release-notes/runtime/releases.html Databricks Workflowshttps://databricks.com/blog/2022/05/10/introducing-databricks-workflows.html DBT em Produção no Databrickshttps://databricks.com/blog/2022/06/29/top-5-workflows-announcements-at-data-ai-summit.html Delta Live Tables e Projeto Enzymehttps://databricks.com/blog/2022/06/29/delta-live-tables-announces-new-capabilities-and-performance-optimizations.html Novos Conectores do Databricks SQLhttps://databricks.com/blog/2022/06/29/connect-from-anywhere-to-databricks-sql.htmlDatabricks SQL ServerLesshttps://databricks.com/blog/2022/06/28/databricks-sql-serverless-now-available-on-aws.html Unity Cataloghttps://databricks.com/blog/2022/06/28/whats-new-with-databricks-unity-catalog-at-the-data-ai-summit-2022.htmlTerraform para Databrickshttps://databricks.com/blog/2022/06/22/databricks-terraform-provider-is-now-generally-available.html No YouTube possuímos um canal de Engenharia de Dados com os tópicos mais importantes dessa área e com lives todas as quartas-feiras.https://www.youtube.com/channel/UCnErAicaumKqIo4sanLo7vQ Quer ficar por dentro dessa área com posts e updates semanais, então acesse o LinkedIN para não perder nenhuma notícia.https://www.linkedin.com/in/luanmoreno/ Disponível no Spotify e na Apple Podcasthttps://open.spotify.com/show/5n9mOmAcjra9KbhKYpOMqYht Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Os grandes desafios da área de dados fazem com que necessitemos buscar pessoas de calibre para nos ajudar a entender todos os segmentos dessa grande vertente de Engenharia de Dados que tem tomado cada vez mais espaço no mercado brasileiro.Trazemos o ilustre Filipe Comparini da LuizaLabs para explicar e falar um pouco dos desafios da Engenharia de Dados e como ele e seu time desenvolve seus produtos internos de forma escalável e inteligente.Filipe Comparini = https://www.linkedin.com/in/filipe-comparini-06919b35/ LuizaLabs = https://medium.com/luizalabs No YouTube possuímos um canal de Engenharia de Dados com os tópicos mais importantes dessa área e com lives todas as quartas-feiras.https://www.youtube.com/channel/UCnErAicaumKqIo4sanLo7vQ Quer ficar por dentro dessa área com posts e updates semanais, então acesse o LinkedIN para não perder nenhuma notícia.https://www.linkedin.com/in/luanmoreno/ Disponível no Spotify e na Apple Podcasthttps://open.spotify.com/show/5n9mOmAcjra9KbhKYpOMqYhttps://podcasts.apple.com/br/podcast/engenharia-de-dados-cast/ Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Trazemos novamente o especialista Samuel Matioli para falar do banco de dados colunar mais querido da Fortuna 500, O Apache Cassandra é o banco de dados utilizado por grandes empresas como: Uber, Facebook, Netflix, Instagram, Spotify e Instacart.Nesse bato papo sobre banco de dados NoSQL falamos sobre os seguintes tópicos:Crescimento na Utilização de NoSQL no MercadoDiferença entre HBase e Apache CassandraO que é o Apache CassandraTipos de Deployment e Opções de UtilizaçãoCasos de Uso Quais os Problemas o Apache Cassandra ResolveApache Cassandra = https://cassandra.apache.org/ Samuel Matioli = https://www.linkedin.com/in/samuelmatioli/ No YouTube possuímos um canal de Engenharia de Dados com os tópicos mais importantes dessa área e com lives todas as quartas-feiras.https://www.youtube.com/channel/UCnErAicaumKqIo4sanLo7vQ Quer ficar por dentro dessa área com posts e updates semanais, então acesse o LinkedIN para não perder nenhuma notícia.https://www.linkedin.com/in/luanmoreno/ Disponível no Spotify e na Apple Podcasthttps://open.spotify.com/show/5n9mOmAcjra9KbhKYpOMqYhttps://podcasts.apple.com/br/podcast/engenharia-de-dados-cast/ Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Neste Podcast, conversamos com um dos Tech Leads de Data Engineering do NuBank Wellington C. Faria. Falamos sobre o mercado de Engenharia de Dados, Carreiras de Dados e as tecnologias mais utilizadas em um papo descontraído e muito instrutivo.NuBank = https://nubank.com.br/ Wellington C. Faria = https://www.linkedin.com/in/wellicfaria/ No YouTube possuímos um canal de Engenharia de Dados com os tópicos mais importantes dessa área e com lives todas as quartas-feiras.https://www.youtube.com/channel/UCnErAicaumKqIo4sanLo7vQ Quer ficar por dentro dessa área com posts e updates semanais, então acesse o LinkedIN para não perder nenhuma notícia.https://www.linkedin.com/in/luanmoreno/ Disponível no Spotify e na Apple Podcasthttps://open.spotify.com/show/5n9mOmAcjra9KbhKYpOMqYhttps://podcasts.apple.com/br/podcast/engenharia-de-dados-cast/ Luan Moreno = https://www.linkedin.com/in/luanmoreno/
O Apache Pulsar é a nova plataforma de streaming mais querida da Fortune 500 e o Samuel Matioli, Arquiteto de Dados da DataStax traz toda sua experiência de campo para falar sobre esse tópico no nosso podcast.Nesse episódio falamos sobre:Mercado de Dados Hoje em DiaSoluções em Batch vs. StreamingThe Killing Features do Apache PulsarAstra Streaming - Serviço Auto-Gerenciável de StreamingApache Kafka vs. Apache PulsarKubernetes como Tipo de Deployment para Soluções de Dados em Tempo-RealSamuel Matioli = https://www.linkedin.com/in/samuelmatioli/ Astra Streaming = https://www.datastax.com/products/astra-streaming No YouTube possuímos um canal de Engenharia de Dados com os tópicos mais importantes dessa área e com lives todas as quartas-feiras.https://www.youtube.com/channel/UCnErAicaumKqIo4sanLo7vQ Quer ficar por dentro dessa área com posts e updates semanais, então acesse o LinkedIN para não perder nenhuma notícia.https://www.linkedin.com/in/luanmoreno/ Disponível no Spotify e na Apple Podcasthttps://open.spotify.com/show/5n9mOmAcjra9KbhKYpOMqYhttps://podcasts.apple.com/br/podcast/engenharia-de-dados-cast/ Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Nesse episódio com os dois maiores especialistas do Brasil sobre esse assunto, Thiago Santiago e Gustavo Gattass, falamos sobre a nova plataforma de dados da Cloudera, como sempre trazendo inovação no mercado de Big Data e Analytics. Doug Cutting, criador do famoso sistema Apache Hadoop fez com que tudo fosse possível em 2006 para processamento de dados massivo e agora, a nova plataforma da Cloudera unificada CDP, traz os seguintes grandes benefícios para seus consumidores:Nuvem HíbridaCloudera SDX para Plataforma de Deployment Unificada com KubernetesEngenharia e Ciência de Dados como Produto de Entrega UnificadaData Warehouse e Visualização de DadosEntenda o futuro da Engenharia e Ciência de Dados em uma plataforma aonde se tem como principal objetivo a entrega de uma solução completa fim a fim, embarque no Cloudera CDP.Thiago Santiago = https://www.linkedin.com/in/thiagosantiago/ Gustavo Gattas = https://www.linkedin.com/in/ggattass/ No YouTube possuímos um canal de Engenharia de Dados com os tópicos mais importantes dessa área e com lives todas as quartas-feiras.https://www.youtube.com/channel/UCnErAicaumKqIo4sanLo7vQ Quer ficar por dentro dessa área com posts e updates semanais, então acesse o LinkedIN para não perder nenhuma notícia.https://www.linkedin.com/in/luanmoreno/ Disponível no Spotify e na Apple Podcasthttps://open.spotify.com/show/5n9mOmAcjra9KbhKYpOMqYhttps://podcasts.apple.com/br/podcast/engenharia-de-dados-cast/ Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Trazemos nesse episódio o especialista Pedro Toledo para falar um pouco da sua experiência com a tecnologia de Big Data mais utilizada do mundo. Discutimos sobre os seguintes temas:Importância do Apache Spark e Casos de UsoCurva de AprendizagemLinguagens de ProgramaçãoProblemas ComunsDBT vs. Apache Spark e Stack Moderna de DadosDelta Lake e Data LakehouseDicas para IniciantesA intenção principal é mostrar para um Engenheiro de Dados como o Apache Spark é uma poderosa ferramenta de Analytics e como a mesma pode ser utilizada para resolver problemas na área de Big Data.No YouTube possuímos um canal de Engenharia de Dados com os tópicos mais importantes dessa área e com lives todas as quartas-feiras.https://www.youtube.com/channel/UCnErAicaumKqIo4sanLo7vQ Quer ficar por dentro dessa área com posts e updates semanais, então acesse o LinkedIN para não perder nenhuma notícia.https://www.linkedin.com/in/luanmoreno/ Disponível no Spotify e na Apple Podcasthttps://open.spotify.com/show/5n9mOmAcjra9KbhKYpOMqYhttps://podcasts.apple.com/br/podcast/engenharia-de-dados-cast/ LinkedIN do Pedro Toledo = https://www.linkedin.com/in/pedro-toledo/ Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Trazemos nesse episódio o especialista Lucas Magalhães para falar um pouco de projetos de Big Data e Analytics dentro do Google GCP Discutimos sobre os projetos que podem ser facilmente implementados assim como melhores formas e tecnologias utilizadas para lidar com processamento massivo de dados.No YouTube possuímos um canal de Engenharia de Dados com os tópicos mais importantes dessa área e com lives todas as quartas-feiras.https://www.youtube.com/channel/UCnErAicaumKqIo4sanLo7vQ Quer ficar por dentro dessa área com posts e updates semanais, então acesse o LinkedIN para não perder nenhuma notícia.https://www.linkedin.com/in/luanmoreno/ Disponível no Spotify e na Apple Podcasthttps://open.spotify.com/show/5n9mOmAcjra9KbhKYpOMqYhttps://podcasts.apple.com/br/podcast/engenharia-de-dados-cast/ Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Trazemos nesse episódio o especialista Carlos Barbosa para falar um pouco de projetos de Big Data e Analytics dentro da Amazon AWS. Suas importantes considerações e recomendações para a criação de pipelines em batch e streaming e como otimizar recursos e aumentar valor utilizando os produtos de forma mais eficaz.Falamos também sobre as melhores práticas de implementação assim como casos de uso e o dia a dia de um engenheiro de dados trabalhando na maior nuvem do mercado hoje em dia.No YouTube possuímos um canal de Engenharia de Dados com os tópicos mais importantes dessa área e com lives todas as quartas-feiras.https://www.youtube.com/channel/UCnErAicaumKqIo4sanLo7vQ Quer ficar por dentro dessa área com posts e updates semanais, então acesse o LinkedIN para não perder nenhuma notícia.https://www.linkedin.com/in/luanmoreno/ Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Nesse episódio falamos sobre Big Data no Microsoft Azure com o convidado especial Vitor Henrique Mendes.Tocamos em alguns pontos muito interessantes para a construção de uma solução de Big Data e Analytics no ecossistema de nuvem da Microsoft.Alguns pontos abordados:Experiências Marcantes Serviços mais UtilizadosSynapse AnalyticsRecomendação de ArquiteturaDicas de Estudo para Engenheiro de DadosCenários de Utilização Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Trazemos nesse episódio o especialista João Bosco Seixas, Community Catalyst para falar sobre Apache Kafka, nesse bate-papo falamos das vertentes de Desenvolvimento e Engenharia de Dados e como cada área pode utilizar o Apache Kafka de forma mais efetiva.* Apache Kafka para Desenvolvimento de Software* Engenharia de Dados com Apache Kafka e Analytics em Tempo-Real* Curva de Aprendizagem da Tecnologia* Casos de Uso* Experiências de Campo* Dicas para IniciantesA intenção principal é mostrar para um Engenheiro de Dados como o Apache Kafka é usado não somente para Analytics mais sim por toda a empresa principalmente na construção de microsserviços. Luan Moreno = https://www.linkedin.com/in/luanmoreno/
O Apache Kafka é uma plataforma de streaming de dados, capaz de ingerir e processar milhões de eventos por segundo entretanto, alguns pontos são importantes e normalmente não temos muitas explicações sobre os mesmos, como:O Apache Kafka é um Banco de DadosTransações no Apache KafkaArmazenamento e Processamento DesacopladoComparação de Banco de Dados vs. Apache KafkaEsse episódio irá de uma vez por todas desmistificar o Apache Kafka e tirar todas as suas dúvidas referentes a seus pontos fortes e fracos e como você pode extrair o melhor dessa tecnologia open-source da Apache Software Foundation. Luan Moreno = https://www.linkedin.com/in/luanmoreno/
Os produtos de Big Data open-source são os mais utilizados pelas médias e grandes empresas para operacionalizar processos de análise de dados em grande escala para todas as áreas e departamentos de uma empresa.Porém, depender de um provedor de nuvem para essa tarefa pode te trazer alguns problemas a longo prazo, principalmente pelo "lock-in" e custos elevados dos produtos de modalidade PaaS e SaaS de fato, a maioria das empresas compreende porque produtos open-source são os mais utilizados do mundo.A terceira geração de Big Data nasce para endereçar esses problemas, agora é possível criar uma infraestrutura "self-healing" e de baixo custo para operacionalizar os produtos mais utilizados de Big Data do mundo. As provedoras de nuvem oferecem Kubernetes gerenciados (AKS, GKE e EKS) para que você possa focar no que é mais importante para o negócio e ao mesmo tempo permanecer e colaborar no mesmo tipo de ambiente. Luan Moreno = https://www.linkedin.com/in/luanmoreno/
O Delta Lake é uma engine de armazenamento otimizado para construção de projetos de Big Data e Analytics especialmente desenhado para o Apache Spark.A engine foi criada para armazenar grandes quantidades de dados (Data Lake) e também organizar dados em formas de tabelas (Data Warehouse), dessa forma a consulta dentro desse formato de arquivo pode ser indexada de forma eficiente.Além disso, diversos recursos foram adicionados como - transações acid, viagem no tempo (time travel), auditoria, operações de dml (insert, update, delete e merge) e outros recursos valiosos para operações em grandes massas de dados. Luan Moreno = https://www.linkedin.com/in/luanmoreno/