Podcasts about tabular

  • 64PODCASTS
  • 78EPISODES
  • 35mAVG DURATION
  • ?INFREQUENT EPISODES
  • May 16, 2025LATEST

POPULARITY

20172018201920202021202220232024


Best podcasts about tabular

Latest podcast episodes about tabular

Equity
$1 Billion a lot of money these days?

Equity

Play Episode Listen Later May 16, 2025 23:53


Databricks just snatched up another AI company. This week, data analytics giant announced a $1 billion acquisition of Neon, a startup building an open-source alternative to AWS Aurora Postgres. It's the latest in a spree of high-profile buys, joining MosaicML and Tabular, as Databricks positions itself as the place to build, deploy, and scale AI-native applications.  Today, on TechCrunch's Equity podcast, hosts Kirsten Korosec, Max Zeff, and Anthony Ha unpack the Databricks–Neon deal, where Neon's serverless Postgres tech fits into the larger vision, and whether $1 billion still counts as “a lot of money” these days (spoiler: Kirsten and Anthony are on the fence). Listen to the full episode to hear about: Chime's long-awaited IPO plans and what the neobank's S-1 did (and didn't) reveal. AWS entering a ‘strategic partnership' that could shake up cloud infrastructure, especially as the Middle East ramps up its AI ambitions The return of the web series. Yes, really. Short-form scripted content is back, and investors are placing big bets on nostalgic trend Equity will be back next week, so don't miss it! Equity is TechCrunch's flagship podcast, produced by Theresa Loconsolo, and posts every Wednesday and Friday.  Subscribe to us on Apple Podcasts, Overcast, Spotify and all the casts. You also can follow Equity on X and Threads, at @EquityPod. For the full episode transcript, for those who prefer reading over listening, check out our full archive of episodes here. Credits: Equity is produced by Theresa Loconsolo with editing by Kell. We'd also like to thank TechCrunch's audience development team. Thank you so much for listening, and we'll talk to you next time. Learn more about your ad choices. Visit megaphone.fm/adchoices

TechCrunch Startups – Spoken Edition
Neuralk-AI is developing AI models specifically designed for structured data

TechCrunch Startups – Spoken Edition

Play Episode Listen Later Feb 6, 2025 3:37


Tabular data is a broad term that encompasses structured data that generally fits into a specific row and column. It can be a SQL database, a spreadsheet, a .CSV file, etc. While there has been tremendous progress on artificial intelligence applied to unstructured and sequential data, these large language models are fuzzy by design. Learn more about your ad choices. Visit podcastchoices.com/adchoices

Hayat Kaçık Bir Uykudur
#290 George Carlin Olmak - Tabulara Başkaldırı

Hayat Kaçık Bir Uykudur

Play Episode Listen Later Jan 26, 2025 36:55


Bu bölümde, modern mizahın en büyük isimlerinden George Carlin'in hayatına, düşüncelerine ve sisteme meydan okuyan üslubuna yakından bakıyoruz. Tabuları yıkan, toplumsal normları sorgulayan ve sahnede cesaretiyle milyonları etkileyen Carlin'in iz bırakan hikayesi sizlerle! Patronumuz Olun:  Patreon / hkbupodcast  

Yeni Şafak Podcast
Ersin Çelik- Meksika Sınırı'ndan Gassal'a: Bir şeyler mi oluyor?

Yeni Şafak Podcast

Play Episode Listen Later Jan 5, 2025 8:41


Son zamanlarda bulunduğum ortamlarda, özellikle de Anadolu'da, Ketebe'ye yapılan övgülerin muhatabı oluyorum. Şunun şurasında kurulalı yedi sene olacak ama grubumuzun yayınevi hacimli işlere imza attı. Tabuları yıktı. Kompleksleri dağıttı. Bir işi “iyi yapmak” ile kaliteyi ortaya koymak arasında büyük fark var. Ketebe de kitaba, bilgiye, düşünceye, okumaya ve yazmaya verdiği değerin karşılığını kısa sürede gördü.

This Week in Pre-IPO Stocks
E144: xAI launches Grok-2 and Grok-2 Mini on X platform, Klarna expands into banking with new products, Epic Games targets mobile market with new storefront, Ramp's AI-powered growth drives $9.1B valuation, X projects $2B in 2024 ad revenue, Databricks a

This Week in Pre-IPO Stocks

Play Episode Listen Later Aug 16, 2024 12:42


Send us a Text Message.Subscribe to AG Dillon Pre-IPO Stock Research at agdillon.com/subscribe;- Wednesday = secondary market valuations, revenue multiples, performance, index fact sheets- Saturdays = pre-IPO news and insights, webinar replays00:07 | xAI Launches Grok-2 and Grok-2 Mini on X Platform- AI large language model platform business- Released Grok-2 and Grok-2 Mini beta LLMs on X platform- Enterprise API arriving later this month- Top-four position on LMSYS chatbot leaderboard- Grok-2 Mini: efficient, ideal for speed/resource-critical scenarios- Focus on expanding multimodal understanding- Available to Premium/Premium+ subscribers on X at $8/month- Secondary market valuation: $25.7B (+6.9% vs May 2024 round)02:11 | Klarna Expands into Banking with New Products- Payments and consumer lending business- Launched "Klarna balance" and "cashback" in 12 markets, including U.S. and Europe- Klarna balance offers up to 3.58% interest in EU, no interest in U.S.- Expansion to disrupt retail banking and increase customer loyalty- Tied to lending products, potentially reducing default rates- Secondary market valuation: $10.3B (+53.4% vs Jul 2022 round)- Rumored tender offer could precede IPO03:15 | Epic Games Targets Mobile Market with New Storefront- Virtual reality and video game tech company- Launching new mobile storefront, targeting 100M installs by year-end- Aims for significant share of $188B games market, 50% from mobile- 12% transaction fee vs. 30% from Apple/Google- Store to open to third-party developers in December- Secondary market valuation: $18.0B (-20.2% vs Feb 2024 round)04:21 | Ramp's AI-Powered Growth Drives $9.1B Valuation- Fintech company founded in March 2019- Valued at $9.1B (secondary), +19.6% vs Apr 2024 round- Serving 25,000+ businesses, including Shopify and Boys and Girls Club of America- AI used for transaction categorization, bookkeeping, expense management- AI in sales and marketing boosts efficiency and profitability- Rapid growth with lean operational structure06:28 | X/Twitter Projects $2B in 2024 Ad Revenue- Projected $2B in 2024 ad revenue, down from $2.5B in 2023 and $4.5B in 2021- Focus on payments, video, and AI innovations- Plans for payments system with "Payments" button in navigation- X TV app launched on Amazon and Google platforms- Competing directly with YouTube's massive market share- Fidelity values X at $12.3B (-72% from Oct 2022 acquisition)08:45 | Databricks Acquires Tabular in $2B Deal- Analytics and AI company- Acquired Tabular for nearly $2B, despite $1M in annual recurring revenue- Tabular backed by $30M from Altimeter Capital, Andreessen Horowitz, Zetta Venture Partners- Acquisition driven by competition with Snowflake- Databricks' current valuation: $42.7B (secondary), -1.2% vs Nov 2023 round- Snowflake's struggles compounded by a data breach affecting AT&T customers09:49 | Hadrian Acquires Datum Source to Enhance Defense Capabilities- Defense tech company- Raised $220M since 2020, valued at $500M (secondary)- Acquired Datum Source, valued at $30M, to better serve defense startups- Acquisition brings 30 new customers, Datum's 14-person team- Part of a broader trend of acquisitions in defense tech, with $129.3B VC invested since 202110:50 | Pre-IPO Stock Market Weekly Performance- agdillon.com/subscribe to receive weekly pdf report in your inbox11:38 | Pre-IPO Stock Vintage Index Weekly Performance- agdillon.com/subscribe to receive weekly pdf report in your inbox

Startup Inside Stories
El CEO de Uber, Grok 2 y Elon Musk político, Databricks + Tabular

Startup Inside Stories

Play Episode Listen Later Aug 16, 2024 93:14


What's Next|科技早知道
S8E10 | AI 喧嚣之下,数据双巨头的隐秘战争|硅谷徐老师

What's Next|科技早知道

Play Episode Listen Later Jun 21, 2024 48:28


一提起 AI ,大家首先想到的可能是各大科技巨头在算力和算法上的抢夺和竞争。但是在算力和算法背后,另一场没有硝烟的战争也在持续升温,那就是 AI 数据公司之间的博弈。就在几天前,大数据存储和云计算领域内两家最有影响力的公司 Snowflake 和 Databricks 分别召开了他们的年度峰会。 在峰会上两家公司分别介绍了自家数据生态的发展方向以及如何为企业提供更好的AI数据服务。但是出乎意料的消息是,峰会期间 Databricks 宣布重金收购这个领域3大开源数据社区之一 Iceberg 背后的商业公司 Tabular, 这让两家数据巨头之间的关系更加剑拔弩张,Databricks 颇有后来者居上的势头。 这期节目的两位嘉宾都是在 AI 数据领域有着丰富的经验和洞察的从业者。他们刚刚从 Snowflake 和 Databricks 的峰会现场回来,为我们带来了数据AI、企业级AI的共识转变的一些观察和思考。 内容涉及大量英文专业名词,「声动活泼」公众号上也同步整理了本期节目的要点,如果你喜爱本期节目或对节目内容感到好奇,欢迎在微信搜索「声动活泼」查看 最新文章 (https://mp.weixin.qq.com/s?__biz=MzIwMDczNTE3OQ==&mid=2247501751&idx=1&sn=d4f694182775514286d8b66494e626ee&chksm=96fa2713a18dae05e6a7ed74df24e025a7f5279a0930aeae78558a501264e703d535c7d0b0d6#rd)。 本期人物 丁教 Diane,「声动活泼」联合创始人、「科技早知道」主播 硅谷徐老师,AI 高管、连续创业者、斯坦福客座讲师,小红书和微信视频号:硅谷徐老师 |公众号:硅谷云| YouTube: Byte into Future 堵俊平: Datastrato AI 创始人 CEO Jack Song:Uber 数据平台工程总监,曾任 Airbnb 人工智能平台工程总监、Mastercard 数据和人工智能的技术副总裁 主要话题 [05:36] 从 Snowflake 和 Databricks 峰会看数据生态新趋势:AI for data 和 Open data catalog [09:50 ] Open data catalog 大火 : 统一数据湖仓数据架构,为 AI 引擎和数据引擎承上启下 [13:53] 引擎多样化和数据管理需求驱动统一和独立的 open data catalog 生态 [19:28] Databricks 收购 Tabular:会继续拥抱中立还是与商业利益捆绑? [23:14] Snowflakes 与 Databrick 暗暗较劲:Iceberg 社区会良性发展还是走向分裂? [25:10] Databricks 管理 Apache 社区 : 开源社区走向商业化是社区良性发展的重要标志 [29:56] Databricks 营收增长迅猛:战斗力来自于其开源属性 [31:25] 从 data for AI 到 AI for data: GenAI 时代的数据服务新方向 [40:17] Semantic search (语义搜索)是 AI 与 data 相互整合的一个突破口 所涉部分术语 Snowflake Snowflake 是一家成立于 2012 年的美国云原生数据仓库公司,于 2020 年上市。它的核心产品是云数据平台 Snowflake,该平台改变了传统的数据仓库架构,专为云环境设计,提供了高度可扩展、高性能的数据存储和处理能力。 Databricks Databricks 成立于 2013 年,由开源大数据项目Apache Spark的创建者们成立,是一家提供大数据处理和分析平台的公司。自成立以来发展迅猛估值已超过 400 亿美元,但仍未上市。 Iceberg社区 Iceberg 社区是一个开源数据湖格式项目,iceberg 专为大数据分析而设计,其目标是简化数据湖的管理,使得数据工程师可以像操作数据库一样操作数据湖中的数据。Tabular 是 iceberg 背后的商业公司,本次 Databricks 对 Tabular 的收购引发了公众对于 iceberg 的开源和中立属性的担忧。 Delta Lake Delta Lake 是一个由 Databricks 开发并开源的数据存储项目,致力于提升数据湖的管理能力和性能。 Delta Lake 与 Iceberg 存在潜在的竞争关系。 Hudi (Hadoop Upserts and Deletes Incrementally) 与 Iceberg 和 Delta lake 类似,Hudi 也是开源的数据湖社区,它旨在提供高效的大型数据集上的插入、更新和删除操作,同时保持数据湖的灵活性和规模。 Open data catalog 开放数据目录是专门面向人工智能和机器学习领域的一类数据资源库或平台。这类开放数据目录专注于提供可用于训练算法、测试模型或驱动研究的高质量数据集。数据公司通过建立和维护这样的目录,促进数据共享,降低数据获取门槛,加速AI技术的研发和应用创新。 Semantic Search 即语义搜索,是一种前沿搜索技术。不同于传统搜索的关键词匹配,语义搜索利用人工智能对自然语言进行理解和处理,旨在理解用户查询背后的意图和上下文,从而提供更加准确和相关的搜索结果。 幕后制作 监制:Diane、雅娴、六工 后期:Jack 运营:George 公众号:东君、六工 设计:饭团 商务合作 声动活泼商务合作咨询 (https://sourl.cn/6vdmQT) 支持我们,加入新一年的播客创新 2021 年我们发起了「声动胡同会员计划」,这是一个纯支持项目,支持「声动活泼」在播客内容上不断探索和创新。回顾 2023 年,得益于这些支持,「声动活泼」的每档节目都不断突破,不仅荣登苹果中国的年度热门节目榜单,还在 CPA 和喜马拉雅等平台都榜上有名。2024 年全新付费节目「不止金钱 (https://www.xiaoyuzhoufm.com/podcast/65a625966d045a7f5e0b5640)」现已上线,欢迎收听。同时,新一季「跳进兔子洞」即将上线,敬请期待! 胡同 https://files.fireside.fm/file/fireside-uploads/images/4/4931937e-0184-4c61-a658-6b03c254754d/Z0YbNKpo.png 加入我们 声动活泼正在招聘全职「节目监制」、「人才发展伙伴」、「商业发展经理」,查看详细讯息请 点击链接 (https://sourl.cn/j8tk2g)。如果你已准备好简历,欢迎发送至 hr@shengfm.cn, 标题请用:姓名+岗位名称。 关于声动活泼 「用声音碰撞世界」,声动活泼致力于为人们提供源源不断的思考养料。 我们还有这些播客:声动早咖啡 (https://www.xiaoyuzhoufm.com/podcast/60de7c003dd577b40d5a40f3)、声东击西 (https://etw.fm/episodes)、吃喝玩乐了不起 (https://www.xiaoyuzhoufm.com/podcast/644b94c494d78eb3f7ae8640)、反潮流俱乐部 (https://www.xiaoyuzhoufm.com/podcast/5e284c37418a84a0462634a4)、泡腾 VC (https://www.xiaoyuzhoufm.com/podcast/5f445cdb9504bbdb77f092e9)、商业WHY酱 (https://www.xiaoyuzhoufm.com/podcast/61315abc73105e8f15080b8a)、跳进兔子洞 (https://therabbithole.fireside.fm/) 、不止金钱 (https://www.xiaoyuzhoufm.com/podcast/65a625966d045a7f5e0b5640) 欢迎在即刻 (https://okjk.co/Qd43ia)、微博等社交媒体上与我们互动,搜索 声动活泼 即可找到我们。 期待你给我们写邮件,邮箱地址是:ting@sheng.fm 声小音 https://files.fireside.fm/file/fireside-uploads/images/4/4931937e-0184-4c61-a658-6b03c254754d/gK0pledC.png 欢迎扫码添加声小音,在节目之外和我们保持联系。 Special Guests: Jack Song and 堵俊平.

Data Engineering Podcast
Being Data Driven At Stripe With Trino And Iceberg

Data Engineering Podcast

Play Episode Listen Later Jun 16, 2024 53:19


Summary Stripe is a company that relies on data to power their products and business. To support that functionality they have invested in Trino and Iceberg for their analytical workloads. In this episode Kevin Liu shares some of the interesting features that they have built by combining those technologies, as well as the challenges that they face in supporting the myriad workloads that are thrown at this layer of their data platform. Announcements Hello and welcome to the Data Engineering Podcast, the show about modern data management Data lakes are notoriously complex. For data engineers who battle to build and scale high quality data workflows on the data lake, Starburst is an end-to-end data lakehouse platform built on Trino, the query engine Apache Iceberg was designed for, with complete support for all table formats including Apache Iceberg, Hive, and Delta Lake. Trusted by teams of all sizes, including Comcast and Doordash. Want to see Starburst in action? Go to dataengineeringpodcast.com/starburst (https://www.dataengineeringpodcast.com/starburst) and get $500 in credits to try Starburst Galaxy today, the easiest and fastest way to get started using Trino. Your host is Tobias Macey and today I'm interviewing Kevin Liu about his use of Trino and Iceberg for Stripe's data lakehouse Interview Introduction How did you get involved in the area of data management? Can you describe what role Trino and Iceberg play in Stripe's data architecture? What are the ways in which your job responsibilities intersect with Stripe's lakehouse infrastructure? What were the requirements and selection criteria that led to the selection of that combination of technologies? What are the other systems that feed into and rely on the Trino/Iceberg service? what kinds of questions are you answering with table metadata what use case/team does that support comparative utility of iceberg REST catalog What are the shortcomings of Trino and Iceberg? What are the most interesting, innovative, or unexpected ways that you have seen Iceberg/Trino used? What are the most interesting, unexpected, or challenging lessons that you have learned while working on Stripe's data infrastructure? When is a lakehouse on Trino/Iceberg the wrong choice? What do you have planned for the future of Trino and Iceberg at Stripe? Contact Info Substack (https://kevinjqliu.substack.com) LinkedIn (https://www.linkedin.com/in/kevinjqliu) Parting Question From your perspective, what is the biggest gap in the tooling or technology for data management today? Closing Announcements Thank you for listening! Don't forget to check out our other shows. Podcast.__init__ (https://www.pythonpodcast.com) covers the Python language, its community, and the innovative ways it is being used. The Machine Learning Podcast (https://www.themachinelearningpodcast.com) helps you go from idea to production with machine learning. Visit the site (https://www.dataengineeringpodcast.com) to subscribe to the show, sign up for the mailing list, and read the show notes. If you've learned something or tried out a project from the show then tell us about it! Email hosts@dataengineeringpodcast.com (mailto:hosts@dataengineeringpodcast.com) with your story. Links Trino (https://trino.io/) Iceberg (https://iceberg.apache.org/) Stripe (https://stripe.com/) Spark (https://spark.apache.org/) Redshift (https://aws.amazon.com/redshift/) Hive Metastore (https://cwiki.apache.org/confluence/display/hive/design#Design-Metastore) Python Iceberg (https://py.iceberg.apache.org/) Python Iceberg REST Catalog (https://github.com/kevinjqliu/iceberg-rest-catalog) Trino Metadata Table (https://trino.io/docs/current/connector/iceberg.html#metadata-tables) Flink (https://flink.apache.org/) Podcast Episode (https://www.dataengineeringpodcast.com/apache-flink-with-fabian-hueske-episode-57) Tabular (https://tabular.io/) Podcast Episode (https://www.dataengineeringpodcast.com/tabular-iceberg-lakehouse-tables-episode-363) Delta Table (https://delta.io/) Podcast Episode (https://www.dataengineeringpodcast.com/delta-lake-data-lake-episode-85/) Databricks Unity Catalog (https://www.databricks.com/product/unity-catalog) Starburst (https://www.starburst.io/) AWS Athena (https://aws.amazon.com/athena/) Kevin Trinofest Presentation (https://trino.io/blog/2023/07/19/trino-fest-2023-stripe.html) Alluxio (https://www.alluxio.io/) Podcast Episode (https://www.dataengineeringpodcast.com/alluxio-distributed-storage-episode-70) Parquet (https://parquet.incubator.apache.org/) Hudi (https://hudi.apache.org/) Trino Project Tardigrade (https://trino.io/blog/2022/05/05/tardigrade-launch.html) Trino On Ice (https://www.starburst.io/blog/iceberg-table-partitioning/) The intro and outro music is from The Hug (http://freemusicarchive.org/music/The_Freak_Fandango_Orchestra/Love_death_and_a_drunken_monkey/04_-_The_Hug) by The Freak Fandango Orchestra (http://freemusicarchive.org/music/The_Freak_Fandango_Orchestra/) / CC BY-SA (http://creativecommons.org/licenses/by-sa/3.0/)

HEDGE GUID
データブリックス、データ最適化スタートアップTabularを買収。相互運用性向上へ

HEDGE GUID

Play Episode Listen Later Jun 14, 2024 0:38


「データブリックス、データ最適化スタートアップTabularを買収。相互運用性向上へ」 データ分析基盤のデータブリックスは6月7日、クラウドに保存されたデータの最適化を支援するスタートアップTabularを買収することで合意したと発表した。両社のデータの相互運用性を高め、より迅速に製品を提供することで、さらなるリーチの拡大を図る模様だ。The post データブリックス、データ最適化スタートアップTabularを買収。相互運用性向上へ first appeared on 金融・投資メディアHEDGE GUIDE.

This Week in Pre-IPO Stocks
E126: OpenAI +14% on Apple Siri deal, Shein $64b IPO on LSE, SpaceX Starship successful 4th test flight, Databricks buys Tabular for $1b, Cohere new $5b valuation, Carta down to $2b valuation

This Week in Pre-IPO Stocks

Play Episode Listen Later Jun 7, 2024 11:53


Pre-IPO stock valuations = www.x.com/aarongdillon (see pinned post)Pre-IPO stock index fact sheet = www.agdillon.com/index00:07 | Databricks buys Tabular- AI-focused data management company- Tabular = $1b acquisition, 40 employees, founded 2021- Tabular to enhance Databricks AI capabilities- $1.6b in 2023 revenue, +50% vs 2022- $42b secondary market valuation00:57 | Shein to IPO- Online fashion retailer, manufactures cloths in China- $64b IPO valuation- Net income = $2b 2023, $700m 2022, $1.1b 2021- Revenue = $45b 2023- 1.4x revenue multiple, very low!02:25 | OpenAI wins Apple Siri deal- ChatGPT to power Siri- Deal to be announced at Apple developer event- Deal terms not disclosed- OpenAI +13.6% to $110b valuation on news, last round at $86b in early Q203:29 | Stripe partners on fraud solution- Online payments provider- Partnership with Capital One, Adyen to address fraud- $1b transactions approved that would have otherwise been declined- $77b secondary market valuation, +18.5% vs Feb 2024 round04:31 | SpaceX successful 4th Starship test- Space payload and satellite internet company- Booster “landed” in Gulf of Mexico, Starship “landed” in Indian Ocean- Starship has a more payload capacity and aims to be reuseable, lower launch costs- $188b secondary market valuation, +11% vs Dec 2023 round- $200b tender announced in late May05:51 | Cohere new round- AI large language model- $5b valuation, +127 vs Jun 2023 round- $35m ARR in Mar 2023, +169% vs prior year- Strategic partnership with Oracle06:52 | Discord increases developer payouts- Gaming social media platform- Halving platform fees from 30% to 15% for first $1m in cumulative gross sales- One-time purchases now available- $7.1b secondary market valuation, -58% vs last round (ApeVue)07:51 | FTC after Microsoft, Inflection AI deal- Inflection AI is a large language model business- Founder also co-founded Google's DeepMind AI solution- Microsoft “bought” Inflection AI in a $650m deal; hired all employees, struck licensing deal with Inflection- FTC is basically taking M&A off the table for venture company ecosystem09:15 | Carta new round- Cap table management tech/services- $2b tender offer run by Jeffries- Down from $7.4b 2021 valuation- 2023 = $380m revenue, -$65m net income10:09 | Pre-IPO +3.37% for week, +51.52% for last 1yr- Up week: Scale +20.3%, Neuralink +16.5%, OpenAI +13.6%, Anthropic +10.4%, Canva +6.8%- Down week: Stripe -3.5%, Groq -2.7%, Airtable -0.5%, Databricks -0.4%, Brex -0.4%- Top valuations: ByteDance $298b, SpaceX $188b, OpenAI $110b, Stripe $77b, Databricks $42b10:52 | 2024 Pre-IPO Stock Vintage Index week performance- www.agdillon.com/index for fact sheet pdf- 2024 Vintage Index top contributors since inception: Epic Games +173%, Rippling +104%, Revolut +49%, Klarna +43%, Anduril +27%- Key metric averages for all Vintage Indexes 5 years old or older…3.31 distributed paid in capital2.04 residual value to paid in capital5.35 total value to paid in capital4.1 years to return the fund

The Datanation Podcast - Podcast for Data Engineers, Analysts and Scientists

I talk about the big news of the day. follow on Twitter @amdatalakehouse

WSJ Tech News Briefing
TNB Tech Minute: U.S. Prosecutors Probe Hacking-for-Hire Operation

WSJ Tech News Briefing

Play Episode Listen Later Jun 4, 2024 3:01


Plus, why some artificial intelligence workers say they're afraid of voicing concerns. And Databricks is buying data-management startup Tabular in a bid for AI customers. Julie Chang hosts. Learn more about your ad choices. Visit megaphone.fm/adchoices

The Data Stack Show
185: The Evolution of Data Processing, Data Formats, and Data Sharing with Ryan Blue of Tabular

The Data Stack Show

Play Episode Listen Later Apr 10, 2024 89:43


Highlights from this week's conversation include:The Evolution of Data Processing (2:36)Ryan's Background and Journey in Data (4:52)Challenges in Transitioning to S3 (8:47)Impact of Latency on Query Performance (11:43)Challenges with Table Representation (15:26)Designing a New Metadata Format (21:36)Integration with Existing Tools and Open Source Project (24:07)Initial Features of Iceberg (26:11)Challenges of Manual Partitioning (31:49)Designing the Iceberg Table Format (37:31)Trade-offs in Writing Workloads (47:22)Database Systems and File Systems (55:00)Vendor Influence on Access Controls (1:01:58)Restructuring Data Security (1:03:39)Delegating Access Controls (1:07:22)Column-level Access Controls (1:14:19)Exciting Releases and Future Plans (1:17:47)Centralization of Components in Data Infrastructure (1:25:37)Fundamental Shift in Data Architecture (1:28:28)The Data Stack Show is a weekly podcast powered by RudderStack, the CDP for developers. Each week we'll talk to data engineers, analysts, and data scientists about their experience around building and maintaining data infrastructure, delivering data and data products, and driving better outcomes across their businesses with data.RudderStack helps businesses make the most out of their customer data while ensuring data privacy and security. To learn more about RudderStack visit rudderstack.com.

The Data Stack Show
The PRQL: The Two Parallel Tracks of Development In Data Processing with Ryan Blue of Tabular

The Data Stack Show

Play Episode Listen Later Apr 8, 2024 4:48


The Data Stack Show is a weekly podcast powered by RudderStack, the CDP for developers. Each week we'll talk to data engineers, analysts, and data scientists about their experience around building and maintaining data infrastructure, delivering data and data products, and driving better outcomes across their businesses with data.RudderStack helps businesses make the most out of their customer data while ensuring data privacy and security. To learn more about RudderStack visit rudderstack.com.

字谈字畅
#225:尽信维基不如无维基

字谈字畅

Play Episode Listen Later Mar 12, 2024 94:13


听众来信是对《字谈字畅》最好的回顾和延展:或关于网页字体排印技术,或关于西文字体设计方法,或探讨学术用语的翻译,或交流字体产品的体验。 今天分享的来信中还有一个特别的彩蛋——通过数据分析,听众或许也能观察到我们幕后的细节。 参考链接 Monotype 主办的讲座「别让字体毁掉你的网站:网页字体初探」于 2 月 28 日、3 月 6 日、3 月 13 日晚八点至九点在线上直播,由 Eric 主讲 Unicode 15.1 新增 emoji 字符 字谈字畅 220:「我们是不是要先哭一把」 Chrome 开始支持四项 CSS Text Module Level 4 的新特性 《CSS 文本模块第三级》(候选推荐标准草案)中关于 word-break 属性的定义 铭刻学用语:squeeze、Abklatsch、estampage Squeeze paper 拓 Paul Shaw, ed. The Eternal Letter: Two Millennia of the Classical Roman Capital. MIT Press, 2015 字谈字畅 216:你的眼睛背叛了你的心 小林章著,刘庆译.《西文字体设计方法:如何打造优美的曲线与舒适的排版》.上海人民美术出版社,2024 年 字谈字畅 090:巴黎城内加拉蒙 Adobe 设计软件内部分与数字相关的 OpenType 特性 Lining figures (lnum) Oldstyle figures (onum) Proportional figures (pnum) Tabular figures (tnum) 数字相关 OpenType 特性在 CSS 中的调用接口 font-variant-settings font-feature-settings W3C 国际化文档《从右向左显示从左向右书写的文字》 Google 开源的 WOFF2 转换工具 HTML dir 属性 HTML 和 标签 锦华明朝体,薛天盟设计,茉莉字型出品 字谈字畅 176:茉莉芬芳沁锦华 GB/T 2312—1980《信息交换用汉字编码字符集 基本集》 日文长音符 听众 YDX-2147483647 为《字谈字畅》show notes 统计的链接数据关系图和引用网站排名,源码在 GitHub 开源 xkcd 1726: Unicode The Type 关于 ATypI 年会的报道专栏 主播 Eric:字体排印研究者,译者,The Type 编辑 蒸鱼:设计师,The Type 编辑 欢迎与我们交流或反馈,来信请致 podcast@thetype.com​。如果你喜爱本期节目,也欢迎用支付宝向我们捐赠:hello@thetype.com​。

Data Engineering Podcast
Version Your Data Lakehouse Like Your Software With Nessie

Data Engineering Podcast

Play Episode Listen Later Mar 10, 2024 40:55


Summary Data lakehouse architectures are gaining popularity due to the flexibility and cost effectiveness that they offer. The link that bridges the gap between data lake and warehouse capabilities is the catalog. The primary purpose of the catalog is to inform the query engine of what data exists and where, but the Nessie project aims to go beyond that simple utility. In this episode Alex Merced explains how the branching and merging functionality in Nessie allows you to use the same versioning semantics for your data lakehouse that you are used to from Git. Announcements Hello and welcome to the Data Engineering Podcast, the show about modern data management Dagster offers a new approach to building and running data platforms and data pipelines. It is an open-source, cloud-native orchestrator for the whole development lifecycle, with integrated lineage and observability, a declarative programming model, and best-in-class testability. Your team can get up and running in minutes thanks to Dagster Cloud, an enterprise-class hosted solution that offers serverless and hybrid deployments, enhanced security, and on-demand ephemeral test deployments. Go to dataengineeringpodcast.com/dagster (https://www.dataengineeringpodcast.com/dagster) today to get started. Your first 30 days are free! Data lakes are notoriously complex. For data engineers who battle to build and scale high quality data workflows on the data lake, Starburst powers petabyte-scale SQL analytics fast, at a fraction of the cost of traditional methods, so that you can meet all your data needs ranging from AI to data applications to complete analytics. Trusted by teams of all sizes, including Comcast and Doordash, Starburst is a data lake analytics platform that delivers the adaptability and flexibility a lakehouse ecosystem promises. And Starburst does all of this on an open architecture with first-class support for Apache Iceberg, Delta Lake and Hudi, so you always maintain ownership of your data. Want to see Starburst in action? Go to dataengineeringpodcast.com/starburst (https://www.dataengineeringpodcast.com/starburst) and get $500 in credits to try Starburst Galaxy today, the easiest and fastest way to get started using Trino. Join us at the top event for the global data community, Data Council Austin. From March 26-28th 2024, we'll play host to hundreds of attendees, 100 top speakers and dozens of startups that are advancing data science, engineering and AI. Data Council attendees are amazing founders, data scientists, lead engineers, CTOs, heads of data, investors and community organizers who are all working together to build the future of data and sharing their insights and learnings through deeply technical talks. As a listener to the Data Engineering Podcast you can get a special discount off regular priced and late bird tickets by using the promo code dataengpod20. Don't miss out on our only event this year! Visit dataengineeringpodcast.com/data-council (https://www.dataengineeringpodcast.com/data-council) and use code dataengpod20 to register today! Your host is Tobias Macey and today I'm interviewing Alex Merced, developer advocate at Dremio and co-author of the upcoming book from O'reilly, "Apache Iceberg, The definitive Guide", about Nessie, a git-like versioned catalog for data lakes using Apache Iceberg Interview Introduction How did you get involved in the area of data management? Can you describe what Nessie is and the story behind it? What are the core problems/complexities that Nessie is designed to solve? The closest analogue to Nessie that I've seen in the ecosystem is LakeFS. What are the features that would lead someone to choose one or the other for a given use case? Why would someone choose Nessie over native table-level branching in the Apache Iceberg spec? How do the versioning capabilities compare to/augment the data versioning in Iceberg? What are some of the sources of, and challenges in resolving, merge conflicts between table branches? Can you describe the architecture of Nessie? How have the design and goals of the project changed since it was first created? What is involved in integrating Nessie into a given data stack? For cases where a given query/compute engine doesn't natively support Nessie, what are the options for using it effectively? How does the inclusion of Nessie in a data lake influence the overall workflow of developing/deploying/evolving processing flows? What are the most interesting, innovative, or unexpected ways that you have seen Nessie used? What are the most interesting, unexpected, or challenging lessons that you have learned while working with Nessie? When is Nessie the wrong choice? What have you heard is planned for the future of Nessie? Contact Info LinkedIn (https://www.linkedin.com/in/alexmerced) Twitter (https://www.twitter.com/amdatalakehouse) Alex's Article on Dremio's Blog (https://www.dremio.com/authors/alex-merced/) Alex's Substack (https://amdatalakehouse.substack.com/) Parting Question From your perspective, what is the biggest gap in the tooling or technology for data management today? Closing Announcements Thank you for listening! Don't forget to check out our other shows. Podcast.__init__ (https://www.pythonpodcast.com) covers the Python language, its community, and the innovative ways it is being used. The Machine Learning Podcast (https://www.themachinelearningpodcast.com) helps you go from idea to production with machine learning. Visit the site (https://www.dataengineeringpodcast.com) to subscribe to the show, sign up for the mailing list, and read the show notes. If you've learned something or tried out a project from the show then tell us about it! Email hosts@dataengineeringpodcast.com (mailto:hosts@dataengineeringpodcast.com)) with your story. Links Project Nessie (https://projectnessie.org/) Article: What is Nessie, Catalog Versioning and Git-for-Data? (https://www.dremio.com/blog/what-is-nessie-catalog-versioning-and-git-for-data/) Article: What is Lakehouse Management?: Git-for-Data, Automated Apache Iceberg Table Maintenance and more (https://www.dremio.com/blog/what-is-lakehouse-management-git-for-data-automated-apache-iceberg-table-maintenance-and-more/) Free Early Release Copy of "Apache Iceberg: The Definitive Guide" (https://hello.dremio.com/wp-apache-iceberg-the-definitive-guide-reg.html) Iceberg (https://iceberg.apache.org/) Podcast Episode (https://www.dataengineeringpodcast.com/iceberg-with-ryan-blue-episode-52/) Arrow (https://arrow.apache.org/) Podcast Episode (https://www.dataengineeringpodcast.com/voltron-data-apache-arrow-episode-346/) Data Lakehouse (https://www.forbes.com/sites/bernardmarr/2022/01/18/what-is-a-data-lakehouse-a-super-simple-explanation-for-anyone/?sh=6cc46c8c6088) LakeFS (https://lakefs.io/) Podcast Episode (https://www.dataengineeringpodcast.com/lakefs-data-lake-versioning-episode-157) AWS Glue (https://aws.amazon.com/glue/) Tabular (https://tabular.io/) Podcast Episode (https://www.dataengineeringpodcast.com/tabular-iceberg-lakehouse-tables-episode-363) Trino (https://trino.io/) Presto (https://prestodb.io/) Dremio (https://www.dremio.com/) Podcast Episode (https://www.dataengineeringpodcast.com/dremio-with-tomer-shiran-episode-58) RocksDB (https://rocksdb.org/) Delta Lake (https://delta.io/) Podcast Episode (https://www.dataengineeringpodcast.com/delta-lake-data-lake-episode-85/) Hive Metastore (https://cwiki.apache.org/confluence/display/hive/design#Design-Metastore) PyIceberg (https://py.iceberg.apache.org/) Optimistic Concurrency Control (https://en.wikipedia.org/wiki/Optimistic_concurrency_control) The intro and outro music is from The Hug (http://freemusicarchive.org/music/The_Freak_Fandango_Orchestra/Love_death_and_a_drunken_monkey/04_-_The_Hug) by The Freak Fandango Orchestra (http://freemusicarchive.org/music/The_Freak_Fandango_Orchestra/) / CC BY-SA (http://creativecommons.org/licenses/by-sa/3.0/)

Data Engineering Podcast
Using Trino And Iceberg As The Foundation Of Your Data Lakehouse

Data Engineering Podcast

Play Episode Listen Later Feb 18, 2024 58:46


Summary A data lakehouse is intended to combine the benefits of data lakes (cost effective, scalable storage and compute) and data warehouses (user friendly SQL interface). Multiple open source projects and vendors have been working together to make this vision a reality. In this episode Dain Sundstrom, CTO of Starburst, explains how the combination of the Trino query engine and the Iceberg table format offer the ease of use and execution speed of data warehouses with the infinite storage and scalability of data lakes. Announcements Hello and welcome to the Data Engineering Podcast, the show about modern data management Dagster offers a new approach to building and running data platforms and data pipelines. It is an open-source, cloud-native orchestrator for the whole development lifecycle, with integrated lineage and observability, a declarative programming model, and best-in-class testability. Your team can get up and running in minutes thanks to Dagster Cloud, an enterprise-class hosted solution that offers serverless and hybrid deployments, enhanced security, and on-demand ephemeral test deployments. Go to dataengineeringpodcast.com/dagster (https://www.dataengineeringpodcast.com/dagster) today to get started. Your first 30 days are free! Data lakes are notoriously complex. For data engineers who battle to build and scale high quality data workflows on the data lake, Starburst powers petabyte-scale SQL analytics fast, at a fraction of the cost of traditional methods, so that you can meet all your data needs ranging from AI to data applications to complete analytics. Trusted by teams of all sizes, including Comcast and Doordash, Starburst is a data lake analytics platform that delivers the adaptability and flexibility a lakehouse ecosystem promises. And Starburst does all of this on an open architecture with first-class support for Apache Iceberg, Delta Lake and Hudi, so you always maintain ownership of your data. Want to see Starburst in action? Go to dataengineeringpodcast.com/starburst (https://www.dataengineeringpodcast.com/starburst) and get $500 in credits to try Starburst Galaxy today, the easiest and fastest way to get started using Trino. Join in with the event for the global data community, Data Council Austin. From March 26th-28th 2024, they'll play host to hundreds of attendees, 100 top speakers, and dozens of startups that are advancing data science, engineering and AI. Data Council attendees are amazing founders, data scientists, lead engineers, CTOs, heads of data, investors and community organizers who are all working togethr to build the future of data. As a listener to the Data Engineering Podcast you can get a special discount of 20% off your ticket by using the promo code dataengpod20. Don't miss out on their only event this year! Visit: dataengineeringpodcast.com/data-council (https://www.dataengineeringpodcast.com/data-council) today. Your host is Tobias Macey and today I'm interviewing Dain Sundstrom about building a data lakehouse with Trino and Iceberg Interview Introduction How did you get involved in the area of data management? To start, can you share your definition of what constitutes a "Data Lakehouse"? What are the technical/architectural/UX challenges that have hindered the progression of lakehouses? What are the notable advancements in recent months/years that make them a more viable platform choice? There are multiple tools and vendors that have adopted the "data lakehouse" terminology. What are the benefits offered by the combination of Trino and Iceberg? What are the key points of comparison for that combination in relation to other possible selections? What are the pain points that are still prevalent in lakehouse architectures as compared to warehouse or vertically integrated systems? What progress is being made (within or across the ecosystem) to address those sharp edges? For someone who is interested in building a data lakehouse with Trino and Iceberg, how does that influence their selection of other platform elements? What are the differences in terms of pipeline design/access and usage patterns when using a Trino/Iceberg lakehouse as compared to other popular warehouse/lakehouse structures? What are the most interesting, innovative, or unexpected ways that you have seen Trino lakehouses used? What are the most interesting, unexpected, or challenging lessons that you have learned while working on the data lakehouse ecosystem? When is a lakehouse the wrong choice? What do you have planned for the future of Trino/Starburst? Contact Info LinkedIn (https://www.linkedin.com/in/dainsundstrom/) dain (https://github.com/dain) on GitHub Parting Question From your perspective, what is the biggest gap in the tooling or technology for data management today? Closing Announcements Thank you for listening! Don't forget to check out our other shows. Podcast.__init__ (https://www.pythonpodcast.com) covers the Python language, its community, and the innovative ways it is being used. The Machine Learning Podcast (https://www.themachinelearningpodcast.com) helps you go from idea to production with machine learning. Visit the site (https://www.dataengineeringpodcast.com) to subscribe to the show, sign up for the mailing list, and read the show notes. If you've learned something or tried out a project from the show then tell us about it! Email hosts@dataengineeringpodcast.com (mailto:hosts@dataengineeringpodcast.com)) with your story. Links Trino (https://trino.io/) Starburst (https://www.starburst.io/) Presto (https://prestodb.io/) JBoss (https://en.wikipedia.org/wiki/JBoss_Enterprise_Application_Platform) Java EE (https://www.oracle.com/java/technologies/java-ee-glance.html) HDFS (https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html) S3 (https://aws.amazon.com/s3/) GCS == Google Cloud Storage (https://cloud.google.com/storage?hl=en) Hive (https://hive.apache.org/) Hive ACID (https://cwiki.apache.org/confluence/display/hive/hive+transactions) Apache Ranger (https://ranger.apache.org/) OPA == Open Policy Agent (https://www.openpolicyagent.org/) Oso (https://www.osohq.com/) AWS Lakeformation (https://aws.amazon.com/lake-formation/) Tabular (https://tabular.io/) Iceberg (https://iceberg.apache.org/) Podcast Episode (https://www.dataengineeringpodcast.com/iceberg-with-ryan-blue-episode-52/) Delta Lake (https://delta.io/) Podcast Episode (https://www.dataengineeringpodcast.com/delta-lake-data-lake-episode-85/) Debezium (https://debezium.io/) Podcast Episode (https://www.dataengineeringpodcast.com/debezium-change-data-capture-episode-114) Materialized View (https://en.wikipedia.org/wiki/Materialized_view) Clickhouse (https://clickhouse.com/) Druid (https://druid.apache.org/) Hudi (https://hudi.apache.org/) Podcast Episode (https://www.dataengineeringpodcast.com/hudi-streaming-data-lake-episode-209) The intro and outro music is from The Hug (http://freemusicarchive.org/music/The_Freak_Fandango_Orchestra/Love_death_and_a_drunken_monkey/04_-_The_Hug) by The Freak Fandango Orchestra (http://freemusicarchive.org/music/The_Freak_Fandango_Orchestra/) / CC BY-SA (http://creativecommons.org/licenses/by-sa/3.0/)

The Data Stack Show
The PRQL: Exploring the Evolution, Challenges, and Benefits of Composable Data Stacks Featuring Wes McKinney, Pedro Pedreira, Chris Riccomini, and Ryan Blue

The Data Stack Show

Play Episode Listen Later Jan 29, 2024 4:59


In this bonus episode, Eric and Kostas preview their upcoming discussion with a panel of experts as Wes McKinney (Co-Founder, Voltron), Pedro Pedreira Software Engineer, Meta), Chris Riccomini (Seed Investor, various startups), and Ryan Blue (Co-Founder and CEO, Tabular) join the show.

The Twenty Minute VC: Venture Capital | Startup Funding | The Pitch
20VC: Did Figma Kill M&A Markets in 2024, The Three Biggest Mistakes Made in Growth Investing, The Three Requirements Companies Need to Go Public in 2024 with Ed Sim and Jamin Ball

The Twenty Minute VC: Venture Capital | Startup Funding | The Pitch

Play Episode Listen Later Jan 10, 2024 66:39


Jamin Ball is a Partner @ Altimeter Capital where he sits on the board of Airbyte, Clickhouse, dbt Labs, Prisma, Tabular. Jamin has also led investments in Deel, MotherDuck, Personio and Starburst. Prior to Altimeter, Jamin spent 5 years at Redpoint where he led investments in Workato, Monte Carlo, Cityblock Health, Root Insurance. Ed Sim is one of the best seed round investors in venture as the Founder and Managing Partner @ Boldstart, Ed focuses specifically on developer, infra and SaaS at pre-seed and seed round. Over the last decade, Ed has backed some of the best including Snyk, BigID, Kustomer, Front and Superhuman. In Today's Episode We Discuss: 1. How to Invest Successfully in 2024: What are the three biggest mistakes growth investors can make in 2024? Why should founders not start a platform company? What were Jamin and Ed's biggest mistakes from the ZIRP era? How does Jamin justify paying an $8BN price for Hopin? What were his lessons? 2. The M&A Markets in 2024: Did Figma kill the M&A markets for 2024? What should we expect in M&A? Why will private companies buying private companies be a massive segment in 2024? What are Ed and Jamin's biggest tips to founders considering selling their company in 2024? 3. When Will IPOs Come Back: What will be the catalyst to the opening of the IPO markets? Will Stripe and Databricks go public in 2024? What others should we expect? What are the three requirements for a company to go public in 2024? 4. Firesales: Investors Need Cashback: Why does Ed believe now is the time in the cycle where late-stage investors want cash back to distribute back to their LPs or to recycle? What should we expect to see in terms of acqui-hires and firesales? What are the different incentives when comparing founders vs early stage VCs vs late stage VCs when it comes to acquisitions?

Data Engineering Podcast
Addressing The Challenges Of Component Integration In Data Platform Architectures

Data Engineering Podcast

Play Episode Listen Later Nov 27, 2023 29:42


Summary Building a data platform that is enjoyable and accessible for all of its end users is a substantial challenge. One of the core complexities that needs to be addressed is the fractal set of integrations that need to be managed across the individual components. In this episode Tobias Macey shares his thoughts on the challenges that he is facing as he prepares to build the next set of architectural layers for his data platform to enable a larger audience to start accessing the data being managed by his team. Announcements Hello and welcome to the Data Engineering Podcast, the show about modern data management Introducing RudderStack Profiles. RudderStack Profiles takes the SaaS guesswork and SQL grunt work out of building complete customer profiles so you can quickly ship actionable, enriched data to every downstream team. You specify the customer traits, then Profiles runs the joins and computations for you to create complete customer profiles. Get all of the details and try the new product today at dataengineeringpodcast.com/rudderstack (https://www.dataengineeringpodcast.com/rudderstack) You shouldn't have to throw away the database to build with fast-changing data. You should be able to keep the familiarity of SQL and the proven architecture of cloud warehouses, but swap the decades-old batch computation model for an efficient incremental engine to get complex queries that are always up-to-date. With Materialize, you can! It's the only true SQL streaming database built from the ground up to meet the needs of modern data products. Whether it's real-time dashboarding and analytics, personalization and segmentation or automation and alerting, Materialize gives you the ability to work with fresh, correct, and scalable results — all in a familiar SQL interface. Go to dataengineeringpodcast.com/materialize (https://www.dataengineeringpodcast.com/materialize) today to get 2 weeks free! Developing event-driven pipelines is going to be a lot easier - Meet Functions! Memphis functions enable developers and data engineers to build an organizational toolbox of functions to process, transform, and enrich ingested events “on the fly” in a serverless manner using AWS Lambda syntax, without boilerplate, orchestration, error handling, and infrastructure in almost any language, including Go, Python, JS, .NET, Java, SQL, and more. Go to dataengineeringpodcast.com/memphis (https://www.dataengineeringpodcast.com/memphis) today to get started! Data lakes are notoriously complex. For data engineers who battle to build and scale high quality data workflows on the data lake, Starburst powers petabyte-scale SQL analytics fast, at a fraction of the cost of traditional methods, so that you can meet all your data needs ranging from AI to data applications to complete analytics. Trusted by teams of all sizes, including Comcast and Doordash, Starburst is a data lake analytics platform that delivers the adaptability and flexibility a lakehouse ecosystem promises. And Starburst does all of this on an open architecture with first-class support for Apache Iceberg, Delta Lake and Hudi, so you always maintain ownership of your data. Want to see Starburst in action? Go to dataengineeringpodcast.com/starburst (https://www.dataengineeringpodcast.com/starburst) and get $500 in credits to try Starburst Galaxy today, the easiest and fastest way to get started using Trino. Your host is Tobias Macey and today I'll be sharing an update on my own journey of building a data platform, with a particular focus on the challenges of tool integration and maintaining a single source of truth Interview Introduction How did you get involved in the area of data management? data sharing weight of history existing integrations with dbt switching cost for e.g. SQLMesh de facto standard of Airflow Single source of truth permissions management across application layers Database engine Storage layer in a lakehouse Presentation/access layer (BI) Data flows dbt -> table level lineage orchestration engine -> pipeline flows task based vs. asset based Metadata platform as the logical place for horizontal view Contact Info LinkedIn (https://linkedin.com/in/tmacey) Website (https://www.dataengineeringpodcast.com) Parting Question From your perspective, what is the biggest gap in the tooling or technology for data management today? Closing Announcements Thank you for listening! Don't forget to check out our other shows. Podcast.__init__ (https://www.pythonpodcast.com) covers the Python language, its community, and the innovative ways it is being used. The Machine Learning Podcast (https://www.themachinelearningpodcast.com) helps you go from idea to production with machine learning. Visit the site (https://www.dataengineeringpodcast.com) to subscribe to the show, sign up for the mailing list, and read the show notes. If you've learned something or tried out a project from the show then tell us about it! Email hosts@dataengineeringpodcast.com (mailto:hosts@dataengineeringpodcast.com)) with your story. To help other people find the show please leave a review on Apple Podcasts (https://podcasts.apple.com/us/podcast/data-engineering-podcast/id1193040557) and tell your friends and co-workers Links Monologue Episode On Data Platform Design (https://www.dataengineeringpodcast.com/data-platform-design-episode-268) Monologue Episode On Leaky Abstractions (https://www.dataengineeringpodcast.com/abstractions-and-technical-debt-episode-374) Airbyte (https://airbyte.com/) Podcast Episode (https://www.dataengineeringpodcast.com/airbyte-open-source-data-integration-episode-173/) Trino (https://trino.io/) Dagster (https://dagster.io/) dbt (https://www.getdbt.com/) Snowflake (https://www.snowflake.com/en/) BigQuery (https://cloud.google.com/bigquery) OpenMetadata (https://open-metadata.org/) OpenLineage (https://openlineage.io/) Data Platform Shadow IT Episode (https://www.dataengineeringpodcast.com/shadow-it-data-analytics-episode-121) Preset (https://preset.io/) LightDash (https://www.lightdash.com/) Podcast Episode (https://www.dataengineeringpodcast.com/lightdash-exploratory-business-intelligence-episode-232/) SQLMesh (https://sqlmesh.readthedocs.io/) Podcast Episode (https://www.dataengineeringpodcast.com/sqlmesh-open-source-dataops-episode-380) Airflow (https://airflow.apache.org/) Spark (https://spark.apache.org/) Flink (https://flink.apache.org/) Tabular (https://tabular.io/) Iceberg (https://iceberg.apache.org/) Open Policy Agent (https://www.openpolicyagent.org/) The intro and outro music is from The Hug (http://freemusicarchive.org/music/The_Freak_Fandango_Orchestra/Love_death_and_a_drunken_monkey/04_-_The_Hug) by The Freak Fandango Orchestra (http://freemusicarchive.org/music/The_Freak_Fandango_Orchestra/) / CC BY-SA (http://creativecommons.org/licenses/by-sa/3.0/)

Breaking Analysis with Dave Vellante
Get Ready for the Sixth Data Platform

Breaking Analysis with Dave Vellante

Play Episode Listen Later Oct 14, 2023 46:49


In this week's CUBE Insights, Powered by ETR. George Gilbert and I welcome Ryan Blue to this, our 201st episode. Ryan is the co-creator and PMC chair of Apache Iceberg and a co-founder & the CEO of Tabular, a universal open table store that connects to any compute layer built by the creators of Iceberg.

Engenharia de Dados [Cast]
Querying Data with Trino from Earth to Space - Talk with Brian Olsen, a Developer Advocate at Starburst

Engenharia de Dados [Cast]

Play Episode Listen Later Oct 9, 2023 97:24


No episódio de hoje, Luan Moreno e Mateus Oliveira entrevistam Brian Olsen, atualmente Head of Developer Relations na Tabular.Trino é um produto open-source, para virtualizar os dados através de queries. Imagine uma engine de SQL capaz de consultar dados do Apache Kafka, Cloud Storage, Databases e diversas outras fontes de forma simples e extremamente eficaz. Com Trino, você tem os seguintes benefícios:Diversos conectores para múltiplas fontes de dadosGerar queries analytics de forma simples e eficazTrabalhar com modelos de Lakehouse como Iceberg e DeltaFalamos também neste bate-papo sobre os seguintes temas:História do TrinoCapacidades do TrinoRecursos avançados Novas featuresAdaptive Query ExecutionCasos de UsoAprenda mais sobre Trino, e como utilizar esta tecnologia para explorar os dados em diversas fontes diferentes, junto com um dos principais vozes da comunidade. Brian Olsen Luan Moreno = https://www.linkedin.com/in/luanmoreno/

Latent Space: The AI Engineer Podcast — CodeGen, Agents, Computer Vision, Data Science, AI UX and all things Software 3.0

Want to help define the AI Engineer stack? Have opinions on the top tools, communities and builders? We're collaborating with friends at Amplify to launch the first State of AI Engineering survey! Please fill it out (and tell your friends)!If AI is so important, why is its software so bad?This was the motivating question for Chris Lattner as he reconnected with his product counterpart on Tensorflow, Tim Davis, and started working on a modular solution to the problem of sprawling, monolithic, fragmented platforms in AI development. They announced a $30m seed in 2022 and, following their successful double launch of Modular/Mojo

SuperDataScience
694: CatBoost: Powerful, efficient ML for large tabular datasets

SuperDataScience

Play Episode Listen Later Jul 7, 2023 7:59


Modeling tabular data and spreadsheets doesn't have to be tedious with CatBoost's open-source tree-boosting algorithm. CatBoost does what it says on the tin, blending categories with boosting that allows you to train your models faster and handle large datasets for ML tasks across multiple GPUs. In this week's Five-Minute Friday, host Jon Krohn gets to grips with the technical components of CatBoost that give it the speed and accuracy so acclaimed by its users. Additional materials: www.superdatascience.com/694 Interested in sponsoring a SuperDataScience Podcast episode? Visit JonKrohn.com/podcast for sponsorship information.

Open Source Startup Podcast
E82: Creating Apache Iceberg & Headless Data Warehouse Tabular

Open Source Startup Podcast

Play Episode Listen Later Apr 17, 2023 38:09


Ryan Blue is Co-Founder of data automation platform Tabular and Co-Creator of Apache Iceberg, the open source high-performance format for huge analytic tables. Tabular most recently raised a Series A from a16z. In this episode, we discuss the concept of a "headless data warehouse", being a problem-centric rather than solution-centric founder & more!

Talk Python To Me - Python conversations for passionate developers
#410: The Intersection of Tabular Data and Generative AI

Talk Python To Me - Python conversations for passionate developers

Play Episode Listen Later Apr 6, 2023 65:38


AI has taken the world by storm. It's gone from near zero to amazing in just a few years. We have ChatGPT, we have Stable Diffusion. But what about Jupyter Notebooks and pandas? In this episode, we meet Justin Waugh, the creator of Sketch. Sketch adds the ability to have conversational AI interactions about your pandas data frames (code and data). It's pretty powerful and I know you'll enjoy the conversation. Links from the show Sketch: github.com Lambdapromp: github.com Python Bytes 320 - Coverage of Sketch: pythonbytes.fm ChatGPT: chat.openai.com Midjourney: midjourney.com Github Copilot: github.com GitHub Copilot Litigation site: githubcopilotlitigation.com Attention is All You Need paper: research.google.com Live Colab Demo: colab.research.google.com AI Panda from Midjourney: digitaloceanspaces.com Ray: pypi.org Apache Arrow: arrow.apache.org Python Web Apps that Fly with CDNs Course: talkpython.fm Watch this episode on YouTube: youtube.com Episode transcripts: talkpython.fm --- Stay in touch with us --- Subscribe to us on YouTube: youtube.com Follow Talk Python on Mastodon: talkpython Follow Michael on Mastodon: mkennedy Sponsors Brilliant 2023 Talk Python Training

Papers Read on AI
REaLTabFormer: Generating Realistic Relational and Tabular Data using Transformers

Papers Read on AI

Play Episode Listen Later Mar 3, 2023 36:42


Tabular data is a common form of organizing data. Multiple models are available to generate synthetic tabular datasets where observations are independent, but few have the ability to produce relational datasets. Modeling relational data is challenging as it requires modeling both a"parent"table and its relationships across tables. We introduce REaLTabFormer (Realistic Relational and Tabular Transformer), a tabular and relational synthetic data generation model. It first creates a parent table using an autoregressive GPT-2 model, then generates the relational dataset conditioned on the parent table using a sequence-to-sequence (Seq2Seq) model. We implement target masking to prevent data copying and propose the $Q_{delta}$ statistic and statistical bootstrapping to detect overfitting. Experiments using real-world datasets show that REaLTabFormer captures the relational structure better than a baseline model. REaLTabFormer also achieves state-of-the-art results on prediction tasks,"out-of-the-box", for large non-relational datasets without needing fine-tuning. 2023: Aivin Solatorio, Olivier Dupriez https://arxiv.org/pdf/2302.02041v1.pdf

Data Science at Home
Deep learning vs tabular models (Ep. 217)

Data Science at Home

Play Episode Listen Later Feb 21, 2023 28:25


Deep learning methods are not as effective with tabular data. Here is why, and what to do about it.   Sponsors If you're ready to take your WiFi game to the next level, head over to asus.click/ZenWiFi_XD5 or check out the show notes for this episode. Trust me, with ASUS ZenWiFi XD5, you'll get the best WiFi experience ever!   References https://paperswithcode.com/methods/category/deep-tabular-learning  https://m-clark.github.io/posts/2022-04-01-more-dl-for-tabular/  

Data Engineering Podcast
The View Below The Waterline Of Apache Iceberg And How It Fits In Your Data Lakehouse

Data Engineering Podcast

Play Episode Listen Later Feb 19, 2023 55:06


Summary Cloud data warehouses have unlocked a massive amount of innovation and investment in data applications, but they are still inherently limiting. Because of their complete ownership of your data they constrain the possibilities of what data you can store and how it can be used. Projects like Apache Iceberg provide a viable alternative in the form of data lakehouses that provide the scalability and flexibility of data lakes, combined with the ease of use and performance of data warehouses. Ryan Blue helped create the Iceberg project, and in this episode he rejoins the show to discuss how it has evolved and what he is doing in his new business Tabular to make it even easier to implement and maintain. Announcements Hello and welcome to the Data Engineering Podcast, the show about modern data management Hey there podcast listener, are you tired of dealing with the headache that is the 'Modern Data Stack'? We feel your pain. It's supposed to make building smarter, faster, and more flexible data infrastructures a breeze. It ends up being anything but that. Setting it up, integrating it, maintaining it—it's all kind of a nightmare. And let's not even get started on all the extra tools you have to buy to get it to do its thing. But don't worry, there is a better way. TimeXtender takes a holistic approach to data integration that focuses on agility rather than fragmentation. By bringing all the layers of the data stack together, TimeXtender helps you build data solutions up to 10 times faster and saves you 70-80% on costs. If you're fed up with the 'Modern Data Stack', give TimeXtender a try. Head over to timextender.com/dataengineering where you can do two things: watch us build a data estate in 15 minutes and start for free today. Your host is Tobias Macey and today I'm interviewing Ryan Blue about the evolution and applications of the Iceberg table format and how he is making it more accessible at Tabular Interview Introduction How did you get involved in the area of data management? Can you describe what Iceberg is and its position in the data lake/lakehouse ecosystem? Since it is a fundamentally a specification, how do you manage compatibility and consistency across implementations? What are the notable changes in the Iceberg project and its role in the ecosystem since our last conversation October of 2018? Around the time that Iceberg was first created at Netflix a number of alternative table formats were also being developed. What are the characteristics of Iceberg that lead teams to adopt it for their lakehouse projects? Given the constant evolution of the various table formats it can be difficult to determine an up-to-date comparison of their features, particularly earlier in their development. What are the aspects of this problem space that make it so challenging to establish unbiased and comprehensive comparisons? For someone who wants to manage their data in Iceberg tables, what does the implementation look like? How does that change based on the type of query/processing engine being used? Once a table has been created, what are the capabilities of Iceberg that help to support ongoing use and maintenance? What are the most interesting, innovative, or unexpected ways that you have seen Iceberg used? What are the most interesting, unexpected, or challenging lessons that you have learned while working on Iceberg/Tabular? When is Iceberg/Tabular the wrong choice? What do you have planned for the future of Iceberg/Tabular? Contact Info LinkedIn (https://www.linkedin.com/in/rdblue/) rdblue (https://github.com/rdblue) on GitHub Parting Question From your perspective, what is the biggest gap in the tooling or technology for data management today? Closing Announcements Thank you for listening! Don't forget to check out our other shows. Podcast.__init__ (https://www.pythonpodcast.com) covers the Python language, its community, and the innovative ways it is being used. The Machine Learning Podcast (https://www.themachinelearningpodcast.com) helps you go from idea to production with machine learning. Visit the site (https://www.dataengineeringpodcast.com) to subscribe to the show, sign up for the mailing list, and read the show notes. If you've learned something or tried out a project from the show then tell us about it! Email hosts@dataengineeringpodcast.com (mailto:hosts@dataengineeringpodcast.com)) with your story. To help other people find the show please leave a review on Apple Podcasts (https://podcasts.apple.com/us/podcast/data-engineering-podcast/id1193040557) and tell your friends and co-workers Links Iceberg (https://iceberg.apache.org/) Podcast Episode (https://www.dataengineeringpodcast.com/iceberg-with-ryan-blue-episode-52/) Hadoop (https://hadoop.apache.org/) Data Lakehouse (https://www.forbes.com/sites/bernardmarr/2022/01/18/what-is-a-data-lakehouse-a-super-simple-explanation-for-anyone/) ACID == Atomic, Consistent, Isolated, Durable (https://en.wikipedia.org/wiki/ACID) Apache Hive (https://hive.apache.org/) Apache Impala (https://impala.apache.org/) Bodo (https://www.bodo.ai/) Podcast Episode (https://www.dataengineeringpodcast.com/bodo-parallel-data-processing-python-episode-223/) StarRocks (https://www.starrocks.io/) Dremio (https://www.dremio.com/) Podcast Episode (https://www.dataengineeringpodcast.com/dremio-open-data-lakehouse-episode-333/) DDL == Data Definition Language (https://en.wikipedia.org/wiki/Data_definition_language) Trino (https://trino.io/) PrestoDB (https://prestodb.io/) Apache Hudi (https://hudi.apache.org/) Podcast Episode (https://www.dataengineeringpodcast.com/hudi-streaming-data-lake-episode-209/) dbt (https://www.getdbt.com/) Apache Flink (https://flink.apache.org/) TileDB (https://tiledb.com/) Podcast Episode (https://www.dataengineeringpodcast.com/tiledb-universal-data-engine-episode-146/) CDC == Change Data Capture (https://en.wikipedia.org/wiki/Change_data_capture) Substrait (https://substrait.io/) The intro and outro music is from The Hug (http://freemusicarchive.org/music/The_Freak_Fandango_Orchestra/Love_death_and_a_drunken_monkey/04_-_The_Hug) by The Freak Fandango Orchestra (http://freemusicarchive.org/music/The_Freak_Fandango_Orchestra/) / CC BY-SA (http://creativecommons.org/licenses/by-sa/3.0/)

Salon 208
#80 Tabuları Kırma Etkinliği

Salon 208

Play Episode Listen Later Dec 29, 2022 18:26


kasa yanı erkeklik belirteci, mahallenin erotik shopu & toplum dinamikleri için hassas kargo

Papers Read on AI
TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second

Papers Read on AI

Play Episode Listen Later Oct 31, 2022 32:41


We present TabPFN, a trained Transformer that can do supervised classification for small tabular datasets in less than a second , needs no hyperparameter tuning and is competitive with state-of-the-art classification methods. TabPFN is fully entailed in the weights of our network, which accepts training and test samples as a set-valued input and yields predictions for the entire test set in a single forward pass. TabPFN is a Prior-Data Fitted Network (PFN) and is trained offline once, to approximate Bayesian inference on synthetic datasets drawn from our prior. 2022: Noah Hollmann, Samuel Muller, Katharina Eggensperger, F. Hutter https://arxiv.org/pdf/2207.01848v3.pdf

AkademikLink
Erkek ve Kadınlara Dair Tabuları Yıkıyoruz: Tüm Bilimsel Gerçekler

AkademikLink

Play Episode Listen Later Oct 5, 2022 22:30


Akademiklink'in bu podcast bölümünde kadınlar ve erkekler arasındaki tüm farkları "tamamen" :) bilimsel olarak masaya yatırıyoruz. Empatiden aşka, kokudan dokunmaya, yalandan dedikoduya kadar birçok konuyu ele aldığımız bu bölümde ayrıca sürpriz bir "konuğumuz" da var.

This Week in Machine Learning & Artificial Intelligence (AI) Podcast
Transformers for Tabular Data at Capital One with Bayan Bruss - #591

This Week in Machine Learning & Artificial Intelligence (AI) Podcast

Play Episode Listen Later Sep 12, 2022 46:55


Today we're joined by Bayan Bruss, a Sr. director of applied ML research at Capital One. In our conversation with Bayan, we dig into his work in applying various deep learning techniques to tabular data, including taking advancements made in other areas like graph CNNs and other traditional graph mining algorithms and applying them to financial services applications. We discuss why despite a “flood” of innovation in the field, work on tabular data doesn't elicit as much fanfare despite its broad use across businesses, Bayan's experience with the difficulty of making deep learning work on tabular data, and what opportunities have been presented for the field with the emergence of multi-modality and transformer models. We also explore a pair of papers from Bayan's team, focused on both transformers and transfer learning for tabular data.  The complete show notes for this episode can be found at twimlai.com/go/591

Evrim Kuran
Evrim Kuran ile 3+3: Rayka Kumru

Evrim Kuran

Play Episode Listen Later Aug 26, 2022 48:53


3+3'ün yeni bölümünde konuğum cinsel sağlık eğitmeni ve danışmanı Rayka Kumru. Tabuları konuşmak neden önemli? Yanıtı bu bölümde.

Aposto! Altı Otuz
Ece Çiftçi ile Z Raporu #2.5: Tabular 101

Aposto! Altı Otuz

Play Episode Listen Later Jun 12, 2022 18:30


Ece Çiftçi'nin gençliğin sorunlarını bizzat gençlerin kendileriyle konuştuğu Z Raporu'nun bu haftaki konuğu, toplumda konuşulmayan veya konuşulmaması öğretilen konuları konuşmak üzere başlattığı ''Tabular 101'' platformu üzerinden gençlerin tabularını tartıştığımız Dora Duru.

Papers Read on AI
Hopular: Modern Hopfield Networks for Tabular Data

Papers Read on AI

Play Episode Listen Later Jun 8, 2022 30:01


We suggest “Hopular”, a novel Deep Learning architecture for medium and small sized datasets, where each layer is equipped with continuous modern Hopfield networks. The modern Hopfield networks use stored data to identify feature-feature, feature-target, and sample-sample dependencies. Hopular's novelty is that every layer can directly access the original input as well as the whole training set via stored data in the Hopfield networks. Hopular outperforms XGBoost, CatBoost, LightGBM and a state-of-the art Deep Learning method designed for tabular data. Thus, Hopular is a strong alternative to these methods on tabular data. 2022: Bernhard Schafl, Lukas Gruber, Angela Bitto-Nemling, S. Hochreiter Ranked #1 on General Classification on Shrutime https://arxiv.org/pdf/2206.00664v1.pdf

Aposto! Altı Otuz
Maziye Bakma Mevzu Derin #4 Şükran Moral: “Tabuların Karnına Jilet Atmak”

Aposto! Altı Otuz

Play Episode Listen Later Feb 15, 2022 29:42


Eşitlik, hemen, şimdi! Türkiye'de kız çocuklarının çocuk yaşta, erken ve zorla evlendirilmesine bir tepki niteliğindeki “Evli, Üç Erkekli” (2010) adlı performansının fotoğraf çıktısıyla sergide yer alan Şükran Moral; sanat ve iktidar ilişkisi ve ataerkil düzeni toplumsal semboller üzerinden tersyüz etmek üzerine konuşuyor.

Sinekritik
Scream Serisi | Sinekritik #30

Sinekritik

Play Episode Listen Later Jan 21, 2022 41:39


Bir korku geleneği dünden bugüne. Tabuları yıkan korku serisi: Scream 1-4

Daktilo1984
Scream Serisi | Sinekritik #30

Daktilo1984

Play Episode Listen Later Jan 21, 2022 41:38


Bir korku geleneği dünden bugüne. Tabuları yıkan korku serisi: Scream 1-4

Genç Akıl
Rum 21 Bağlamında Sansürsüz Cinsellik ve Tabular

Genç Akıl

Play Episode Listen Later Jan 9, 2022 97:59


Konuşmacı: Prof. Dr. Zeki BAYRAKTAR, Moderatör: Bilge Ağar

The Nonlinear Library: Alignment Forum Top Posts
AI Safety Papers: An App for the TAI Safety Database by Ozzie Gooen

The Nonlinear Library: Alignment Forum Top Posts

Play Episode Listen Later Dec 4, 2021 4:14


Welcome to The Nonlinear Library, where we use Text-to-Speech software to convert the best writing from the Rationalist and EA communities into audio. This is: AI Safety Papers: An App for the TAI Safety Database, published by Ozzie Gooen on the AI Alignment Forum. AI Safety Papers is a website to quickly explore papers around AI Safety. The code is hosted on Github here. In December 2020, Jess Riedel and Angelica Deibel announced the TAI Safety Bibliographic Database. At the time, they wrote: In this post we present the first public version of our bibliographic database of research on the safety of transformative artificial intelligence (TAI). The primary motivations for assembling this database were to: Aid potential donors in assessing organizations focusing on TAI safety by collecting and analyzing their research output. Assemble a comprehensive bibliographic database that can be used as a base for future projects, such as a living review of the field. The core database takes the form of a Zotero library. Snapshots are also available as Google Sheet, CSV, and Zotero RDF. (Compact version for easier human reading: Google Sheet, CSV.) One significant limitation of this system was that there was no great frontend for it. Tabular data and RDF can be useful for analysis, but difficult to casually go through. We've been experimenting with creating a web frontend to this data. You can see this at http://ai-safety-papers.quantifieduncertainty.org. This system acts a bit like Google Scholar or other academic search engines. However, the emphasis on AI-safety related papers affords a few advantages. Only papers valuable to AI safety are shown There's easy filtering for papers by particular AI safety related organizations or researchers. There's simple integration with blurbs from the Alignment Newsletter and Gyrodiot. We can include blog posts as well as formal academic works. This is important because a lot of valuable writing is posted directly to blogs like Lesswrong and The Alignment Forum. Later on, we could emphasize custom paper metrics. For example, there could be combinations of citations and blog post karma count. Tips Most of the fields are clickable. Click on an author to see other papers with the same author, or on a tag to see other papers which also have it. To quickly go through query results, use the up and down arrows after entering a search. Besides the search function, there is also an (Airtable) table view, which can be browsed directly or downloaded as a CSV. Questions Who is responsible for AI Safety Papers? Ozzie Gooen has written most of the application, on behalf of the Quantified Uncertainty Research Institute. Jess Riedel, Angelica Deibel, and Nuño Sempere have all provided a lot of feedback and assistance. How can I give feedback? Please either leave comments, submit feedback through this website, or contact us directly at hello@quantifieduncertainty.org. How often is the database updated? Jess Riedel and Angelica Deibel are maintaining the database. They will probably update it every several months or so, depending on interest. We'll try to update the AI Safety Papers app accordingly. The date of the most recent data update is shown in the header of the app. Note that the most recent data in the current database is from December 2020. Future Steps This app was made in a few weeks, and as such it has a lot of limitations. The data is updated in large batches, and is done fairly messily. There's a lot more data we could potentially pull in. For example, blog posts could show comment count and karma. There could be commenting allowed on papers. (This would require a log-in system, which we are reluctant to add until necessary.) We could use such a database for a more formal paper review system, the results of which could be featured in the UI. You can see several other potential features here. Please feel free to add suggestions or upvotes. We're not sure if or when we'll make improvements to AI Safety ...

Yeni Şafak Podcast
Ayşe Böhürler - Tabuları yıkmak!

Yeni Şafak Podcast

Play Episode Listen Later Sep 30, 2021 5:44


Zekeriya Sertel 25 yıllık bir sürgünün ardından, 1977 ‘de Türkiye'ye döndüğünde dönemin solcuları tarafından “demokrasi eri” olarak büyük bir coşkuyla karşılanır. Sürgün dönemlerinde Bakü ve Moskova ve Macaristan'da yaşamış, sosyalizm ile yönetilen ülkelerde yaşayan halkın çektiklerine şahit olmuştur. Dışarıda verilen her imaj bir safsatadır. Diğer taraftan da Sovyetler'e kaçan sosyalistlerin ve Nazım'ın oradaki hayatını da yakından görme imkanı olmuştur. Daha Sovyetler'e Glastnost gelmeden o bu fikirleri savunmaya başlamıştır. Memlekete döndüğünde Mehmet Ali Aybar, Halet Çambel, Aziz Nesin, Yaşar Kemal, yayınevleri, tüm sosyalistler onu bağırlarına basarlar. Tekrar Paris'e döner ve 1978'de Milliyet Gazetesi'nde bir yazı dizisi yayınlanmaya başlar. Bu sefer ise aleyhine kıyametler kopar. Yazı dizisi Nazım hakkındadır. Zekeriya Sertel'in adeta kaçarcasına dönmeyi başardığı Paris'te yazdığı bir kitaptır bu. “Nazım çok büyük adam. O şimdiye kadar devrimci şair, davası için savaşan bir kahraman olarak tanıtıldı. Oysa bütün insanlığa mal olan bu devin insan tarafları bilinmeli. Bunu ben yazmasam, kim yazacak? Türk kamuoyu, henüz Nazım'ın gökten yere indirilmesini

RAPIDSFire
Even Oldridge on Tabular Deep Learning and the Future of Recommender Systems

RAPIDSFire

Play Episode Listen Later Sep 8, 2021 42:09


This week we're joined by Even Oldridge, Senior Manager, RecSys Platform Team at NVIDIA. We talk about Tabular Deep Learning, NVMerlin, how bookstores aren't like recommender systems, his team's recent repeat win in the ACM Recsys Challenge, the future of recommender systems and more. NVIDIA Merlin on the NVIDIA Developer Blog https://developer.nvidia.com/blog/tag/merlin/ NVIDIA Merlin blogs on Medium https://medium.com/nvidia-merlin Merlin on Github https://github.com/NVIDIA-Merlin/Merlin NVTabular Blogs https://developer.nvidia.com/blog/tag/nvtabular/ NVTabular on Github https://github.com/NVIDIA/NVTabular REES46 data set mentioned toward the end of the podcast https://rees46.com/en/datasets

Adventures in Machine Learning
Machine Learning for Tabular Data in Practice ft. Mark Ryan - ML 040

Adventures in Machine Learning

Play Episode Listen Later Aug 5, 2021 49:05


Mark Ryan is our first returning guest to the Adventure. He has created a video series for Manning showing how to use Machine Learning for Tabular data. He walks Ben Wilson through the ins and outs of applying Deep Learning to tabular data sets and the how to find instances where this practice might be the right solution. Panel Ben Wilson Guest Mark Ryan Sponsors Dev Influencers Accelerator Links Deep Learning with Structured Data | ManningPrepare Tabular Data | ManningMark Ryan - YouTubeGitHub: Mark Ryan ( ryanmark1867 )Twitter: Mark Ryan ( @MarkRyanMkm ) Contact Ben: DatabricksGitHub | BenWilson2/ML-EngineeringGitHub | databrickslabs/automl-toolkitLinkedIn: Benjamin Wilson Special Guest: Mark Ryan.

TR724 Podcasts
Tabularım Olmadan Asla! [Alper Ender Fırat]

TR724 Podcasts

Play Episode Listen Later Jul 10, 2021 4:15


Tabularım Olmadan Asla! [Alper Ender Fırat] by Tr724

The Data Exchange with Ben Lorica
Neural Models for Tabular Data

The Data Exchange with Ben Lorica

Play Episode Listen Later Jul 1, 2021 43:55


This week's guest is Sercan Arik, Research Scientist at Google Cloud AI. Sercan and his collaborators recently published a paper on TabNet, a deep neural network architecture for tabular data. It uses sequential attention to select features, is explainable, and based on tests Sarjan and team have done spanning many domains, TabNet outperforms or is on par with other models (e.g., XGBoost) on classification and regression problems.Subscribe: Apple • Android • Spotify • Stitcher • Google • RSS.Detailed show notes can be found on The Data Exchange web site.Subscribe to The Gradient Flow Newsletter.

Life as a Coder
My favorite ICD10-CM Guidelines

Life as a Coder

Play Episode Listen Later Jun 21, 2021 36:39


I am a very passionate coder and I absolutely love ICD10! Today I will break down some of my favorite tips and guidelines. Our Agenda: Guideline Sections Diabetes Guidelines Coding for Neoplasms in the Index and the Tabular 7th Character Basics Z code Tip break “Breaking down” Fracture Guidelines Do you want to learn more about ICD10 CM and ICD10 PCS? Join our summer ICD10 Class designed to enhance your ICD10 Skills and to prepare you for the CCS Exam! Visit www.ccscoder.com for more information Always familiarize yourself with the guidelines. READ READ READ!! 2021 ICD10 CM Guidelines 2021 ICD10 PCS Guidelines --- Send in a voice message: https://anchor.fm/jennifer-mcnamara8/message Support this podcast: https://anchor.fm/jennifer-mcnamara8/support

FUTURATI PODCAST
Ep. 35: Mark Ryan on deep learning with tabular data.

FUTURATI PODCAST

Play Episode Listen Later May 28, 2021 60:33


Mark Ryan is a Data Science Manager at Intact Insurance and the author of the recently-released "Deep Learning with Structured Data". He holds a Masters degree in Computer Science from the University of Toronto, and is interested in chatbots and natural language processing. Learn more about your ad choices. Visit megaphone.fm/adchoices

Reversim Podcast
409 ML Real World Usage with Noam from Pecan

Reversim Podcast

Play Episode Listen Later May 2, 2021


בפרק מספר 409 אנחנו מתכבדים לארח את נועם מחברת פקאן - שלום נועם, ברוך הבא!(נועם) שלום, תודה רבה(רן) ברוך הבא לצפון הקר, אחרי שעשית את דרכך אלינו - למי שלא יודע, אנחנו בדרך כלל מקליטים מהבית של אורי בכרכור, בלילה, בשעה 2100+ בערב, זאת השעה שלנו להקליט פודקאסטים . . .(אורי) בדרך כלל האורחים שלנו מגיעים טרוטי-עיניים מנסיעה מהמרכז . . .(נועם) אבל אני חייב להגיד שמציאים פה קפה מצויין, אז ממליץ בחום לבוא.(רן) תודה . . . אז לכל מי שמאזין - בואו לאורי, לקפה [קופון לא יצורף בסוף הפרק].(אורי) ואם אתם יכולים להביא פקאן בדרך, אז גם טוב.(רן) כן, הבאנו פקאנים . . . אז פקאן זו חברה שעוסקת, כמובן, בגידול פקאנים . . . (אורי) והתחלנו לפצח פה [מוזמנים לדמיין אפקטים של פיצוח](רן) אז בוא, נועם - ספר לנו - עליך, על הרקע האישי שלך, ועל פקאן, על מה שאתם עושים.משם כבר נצלול אל הנושא המרכזי של הפרק, שעוסק - נעשה לכם פה ספויילר - בתחום של Machine Learning והעולם האמיתי.אז קודם עליך נועם - מאיפה באת?(נועם) אז התחלתי . . . הכל התחיל שם, איפשהו בתקופה של הצבא, כמה מפתיע - 8200, הייתי במה שנקרא “אתגרים”לפי מקורות זרים - ורק מקורות זרים - זה בעצם עולם הסייבר [לכאורה].ככה התחיל עולם הסייבר של 8200 - הייתה תקופה מדהימה, קבוצה קטנה כזאת, הרגיש ממש כזו סטארטאפ בתוך היחידה, היינו הולכים על אזרחי . . .ושם הכל התחיל מבחינתי, ממש שם התחילה הקריירה - הייתי ראש צוות פיתוח.ובעצם, משם התגלגלתי, אחרי שהשתחררתי, לתוך עולם הדאטה - במשך 7 שנים ייעצתי להמון חברות פה בארץ - אם זה חברות ענק כמו בנקים וגם לסטארטאפים, על איך לבנות Infrastructure, בעצם לייעל שאילתות.ונכנסתי ככה עמוק לתוך עולם הדאטה, וזה היה מרתק - באמת עולם שהוא, כמו שאתם יודעים, מאוד מגוון ועם המון Use Cases, ונדבר על זה כמובן בהמשך כי זה כמובן רלוונטי.בעצם משם - ותיכף אני מגיע לפקאן - בעצם עשיתי תואר שני ודוקטורט בתחום של מדעי המוח ומה שנקרא Computational Neuroscience - שזה בעצם מודלים, שמסבירים איך המוח ואיך רשתות ומשפחות של נוירונים מייצרים פעילות.(רן) זאת אומרת - התחלת מרקע סופר-טכני, Security ו-Databases וכאלה - והלכת לאקדמיה, והיום אתה, ככה, איפשהו באמצע, אני מנחש - גם מבין את הצד העסקי, כי עבדת עם הרבה לקוחות כאלה, מבין מה הם רוצים ומה האילוצים שלהם, וגם אתה מביא את הרקע התיאורטי והאקדמאי בסיפור הזה.(אורי) אגב, איפה לומדים או איפה עושים כאלה תארים - בארץ?(נועם) בטח - בארץ, באוניברסיטת תל אביבהתואר הזה היה באוניברסיטת תל אביב, יש שם חבר’ה מאוד חזקים בתחום של Computational Neuroscience, יש את בית ספר סגול, שממש מוביל את זה.וזה באמת על התפר - ואני נורא אוהב את זה, רן - זה על התפר הזה, וזה גם מה שכל כך דיבר אליזה התפר שבין, מצד אחד, עולם המחשבים - יש פה איזשהו חיבור בין מחשבים לבין עניין באמת תיאורטי, מחקרי, מוח, באיזשהו מקוםכשכמובן שהחיבור ביניהם נופל לתוך Machine Learning, וככה באמת דברים התגלגלו להם.(רן) אז היום אתה בפקאן - ספר לנו קצת על מה שאתה עושה שם ומה עושה החברה(נועם) אז אולי אני אספר איך הפקאן נולד לו . . . באמת, בעצם זה התחיל, אם טיפה נחזור לתואר השני - על היום הראשון של התואר השני אני פוגש איש יקר שקוראים לו זוהר - ואנחנו מתחברים, ניהיים חברים מאוד טוביםלמעשה, את כל הדוקטורט עשינו ביחד, את כל המאמרים שפרסמנו - פרסמנו ביחדובעצם עם זוהר, שהיה לנו את החיבור הזה, סיימנו את כל מה שהיינו צריכים ל-PhD ואמרנו “אוקיי - מה עכשיו? מה הצעד הבא?”ואני זוכר הליכה, ככה, שאנחנו עושים באוניברסיטה, וזוהר אומר שתמיד היה לו חלום לעשות AI - ואז אמרנו שחלומות חייבים להגשים.אנחנו שוכרים חדר קטן מול האוניברסיטה - ומתחילים לעשות מחקר.וככה מתגלגלים בעצם לתוך פקאן.מה זה פקאן? מה זה כל הסיפור?הרעיון - זה מה שאנחנו מבינים בתחילת הדרך - זה שלייצר מודלים של Machine Learning, מודלים פרדקטיביים (Predictive), זה מאתגר, זה לא דבר פשוט.וזה דורש, כמובן, Data Science ו-Data Scientists שמכירים מאוד טוב את המקצוע, ורק הם יכולים באמת לייצר את אותם מודלים נחשקים, שיעזרו אחר כך כדי בעצם לקחת את העסק שלנו, ולהביא את אותם ניבויים - כדי שנוכל לייעל את העסק, ולהביא באמת למקום שהוא טוב יותר.(אורי) אבל אנחנו מדברים לא רק על Data Scientist שמכיר את עולם ה-Data Science, ומביא ניסיון משם, אלא גם צריכים להכיר את ה-Domain, את עולם הבעיה.(נועם) מדהים, בדיוק - זאת נקודה כל כך משמעותית, וזה מה שהביא אותנו לפקאןבעצם, מה אנחנו עושים בפקאן? פקאן מיועדת לא ל-Data Scientists, זאת נקודה נורא חשובה - היא מיועדת ל Data Analystsהיא דווקא מאפשרת בדיוק לאותם אנשים, שמגיעים בדיוק מתוך . . . כמו שאמרת - אתה צריך להכיר את עולם התוכן, זה לא מספיק שאתה יודע Data Scienceאתה צריך להכיר את עולם התוכן שבו אתה פועל - ובאמת פקאן בדיוק מיועדת לאנליסטים, שמכירים מאוד טוב את עולם התוכן, אבל לא מכירים מספיק טוב סטטיסטיקה, לא יודעים . . . בעצם, אין להם את הכלים כדי לייצר מודלים פרדיטיביים (Predictive) - והיופי של פקאן זה שאין צורך לדעת בעצם Data Science, על מנת לייצר מודלים.זו בעצם פלטרפורמה ראשונה שבאמת מאפשרת לאנליסטים - ולא ל-Data Scientists - לייצר מודלים פרדיקטיביים של Machine Learning, וזה מה שכל כך מיוחד בפלטפורמה.(רן) בוא ניקח כמה דוגמאות, זאת אומרת - אנחנו יודעים, בעולם, שמודלים של Machine Learning יודעים לנהוג במכוניות - ככה-ככה, לא תמיד זה עובד - יודעים לראות תמונות ולהבין, לפעמים לצייר ציורים, יודעים לפרש Natural Language , יודעים הרבה מאוד דברים - אבל אלו עולמות שונים לגמרי, כל עולם ומלואו שונה לחלוטין מהשני.יש בתחומים העסקיים דברים כמו מידול של התנהגות לקוחות, גם בנושא של קמפיינים יש לא מעט . . . מכל הדברים הגדולים האלה, מה פקאן יודעים לעשות?(נועם) אז זו נקודה מצויינת, ואגב - כשיצאנו לעולם, ראינו שבאמת כל אחד, כשמדברים על AI וזה כל כך פופלארי וזו כזו Buzzword - לכל אחד יש משהו אחר בראש, ובאמת יש כל כך הרבה סוגי מודלים.אז בפקאן, אנחנו קודם כל מתמקדים, מבחינת הנתונים, ה-Data, במה שנקרא Tabular Data - דאטה שיושב בעצם בתוך מאגרי הנתונים.לא מדובר בתמונות אלא באמת במידע טבלאי, שאיתו בעצם אנחנו מייצרים ניבוייםעכשיו, מהו בעצם עולם התוכן שאנחנו לרוב מתעסקים בו בפקאן? אז עולם התוכן שמתעסקים בו בפקאן זה . . .קודם כל, יש מגוון רחב של שאלות שאפשר לענות עליהן, זו פלטפורמה גנריתאבל אם נראה איפה האיזורים שאנחנו מתמקדים בהם, אז מצד אחד אנחנו מדברים על העולמות של עבודה מול לקוחות, Customersלזהות, בעצם, מראש את אותם לקוחות שינטשו - מה שנקרא Churn Predictionאו לדוגמא לזהות מראש מי הם אותם לקוחות שיהיו לנו הכי טובים, כי אנחנו רוצים מראש כמובן לדעת את זה - אנחנו מדברים על ניבוי של מה שנקרה High Value Customersו-Lifetime Value -כל אותם מודלים שמתעסקים בלקוחות.אבל זו משפחה אחת, יש עוד משפחות שאפשר לעשות בפקאן, לדוגמא, סתם כדוגמא - אנחנו מדברים על עולם של Inventory Control, ניהול מלאי.כמובן שבשביל לדעת על המלאי, איך צריך לנהל אותו, צריך מה שנקרא Demand Forecasting, להבין איך המכירות שלנו יהיו.מה שיפה בפקאן זה שיש פה אוסף של שאלות שאפשר לשאול, מהמון סוגים, ומה שבנינו בעצם בפלטרפורמה זה משהו . . . אנחנו קוראים לזה Templates או Use Cases, שמנווטים את ה-User, בעצם לאפשר ולענות של השאלות האלה בצורה מאוד מאוד פשוטה.(רן) אפשר לעשות את זה בצורה כל כך גנרית? זאת אומרת - נגיד, מודל של Customer Live Value Prediction עבור לקוחות - אני מניח שהוא מאוד שונה בין חברת מוניות לבין חנות או מסעדה או כל ביזנס אחר.אפשר באמת לבנות מודל שהוא כזה גנרי, ולמכור את זה ללקוחות כל כך שונים?(נועם) שאלה מדהימה - וזה באמת . . . אגב, בתחילת הדרך, נורא היינו עסוקים בשאלה הזאת.אחד הדברים שהבנו זה קודם כל שזה לא מודל אחד, שאנחנו באים איתו מראש - כל היופי של הפלטפורמה זה שהפלטפורמה מתחברת [ברברס?] לנתונים, לומדת את הנתונים - ובעצם מאמנת את המודל בהתאם לנתונים שיש לך.בעצם, זה לא משנה . . . כמובן שאנחנו מתחילים תמיד עם, אתם יודעים - Go-to-Market שהוא כן עם סגמנטים מסויימים, בעיקר בצד של ה-Marketingחשוב שיהיה לנו את אותו מסר, ושהמסר יהיה מאוד ברור - אבל בסוף זה לא משנהסתם לדוגמא - אנחנו עובדים עם חברות Retail מאוד גדולות, CPG . . . זה לא משנהאו, לדוגמא, חברות בכלל מאיזורים של Gaming - ועדיין זה אותם מודלים.הכוונה היא לא שזה אותו מודל שנוצר, אלה שזה מודל שמתאמן על הדאטה - ובגלל זה הוא גנרי ויודע להתאים את עצמו.(רן) יש לכם איזשהו Tool-set טיפוסי, שאיתו אתם עובדים בשביל המודלים האלה? לצורך העניין, רשת ניורונים או רגרסיות מסוגים שונים או מסווגים מסוגים אחרים?(נועם) נורא חשוב כמובן, וזה גם קשור לשאלה הקודמת שלך - כדי שנוכל להתאים את עצמנו, אנחנו עובדים עם הרבה משפחות.זה לא שאנחנו עובדים עם סוג מודל אחד, אנחנו עובדים עם הרבה משפחות - אבל אני אגיד שהאתגר הכי גדול זה דווקא לא המידול עצמו, המידול הוא החלק, אני אגיד כמעט “הקל”, בסיפור.החלק הכי קשה זה כל ה Pre-processing של הדאטה - ושם באמת, אם אנחנו מסתכלים על סוגי הלקוחות והסוגי נתונים . . תיכף כמובן נכנס לזה, אני משער, קצת יותר לעומק - כי זה באמת אחד המקומות הכי קשים, וזה באמת איך לוקחים דאטה, שהוא כל כך מגוון . . .דיברנו על דאטה טבלאי, וכמו שאתם יודעים - אצל כל הלקוחות, בעצם, המבנה הוא שונה, הטבלאות שונותומה שאנחנו יודעים, וזה חלק שעבדנו עליו מאוד קשה, זה לדעת לפרמל (Formalize) את זה בצורה כזו שלא משנה איזה סוג דאטה יש - אתה תוכל בעצם לחבר [דאטה], ברגע שהוא טבלאי (Tabular), אתה תוכל להכניס אותו פנימה, ובעצם לייצר את המודלים.(אורי) אז היה פה, לפני כמה פרקים, אסף קליין מ-Outbrain, שדיבר על AutoML[פרק 401 AutoML at outbrain with Assaf Klein][והוא אומר] בעצם, “קח דאטה, מסווג או מתוייג ברמה מסויימת, ועכשיו תן למערכת לרוץ עליו”; המערכת תמצא את המודל המתימטי הנכון לדבר הזה, את ה-hyperparameter הנכונים, את ה. . . . אולי אפילו תנקה את הדאטה - ותקבל מודל.אז כעיקרון, אתה לא צריך עבודה, או הרבה עבודה, של Data Scientist - שזה כמובן נכון בתיאוריה . . . אבל אתה לא צריך הרבה עבודת Data Science כדי לבנות מודל, כי המכונות פשוט עושות הרבה ניסיונות ומוצאות משהו טוב . . .(נועם) אז קודם כל - זה היה פרק מרתק, וזה לגמרי נכון - אבל יש “אבל” ענק פה, וסופר-משמעותיאצל אסף, כבר הדאטה, בעצם, הגיע למבנה - ותיכף אני אדבר על זה, כי זה נורא משמעותי - מבנה שמכונות יכולות להבין אותו.התחלת . . . סתם, אני אתן דוגמא ואחרי זה נפרט ויהיה נחמד להיכנס קצת לעומק על ההבדלים ועל מה זה אומר - אבל כדי שמודלים . . . תיקח מידע מתוייג - אבל מאיפה יש ללקוחות שלנו, שהם אנליסטים, מיידע מתוייג? אין להם, הם אפילו לא יודעים מה זה אומר . . .בעצם, צריך להבין את השפה של האנליסט - אותם אנליסטים, שעובדים, לדוגמא, עם כלי BI, ושמביאים ל-Business היום תובנות - לא יודעים את עולם ה-AI, הם לא יודעים בכלל מה זה “מידע מתוייג”.צריך להתחיל איתם בכלל במושגים שלהם - בטבלאות, ואני אתן תיכף דוגמאותאפשר לדבר על טבלה של טרנזקציות - שזה משהו שהם מבינים, טבלה של לקוחות - אז זה הם מבינים.אבל “מידע מתוייג”? - וזה רק דוגמא אחת.אם נלך רגע לעוד דוגמאות, ואני חושב שהן אפילו יותר מורכבות - זה איך בעצם מייצרים פיצ’רים?כל העולם של Feature Engineering זה לא משהו שמכונה יכולה לייצר, כי בסוף צריך להבין את הדאטה.זה בדיוק האלמנט שנקרא “To make sense of Data”.אותם אנליסטים לא יודעים בכלל מה זה אומר Feature Engineering, הם לא מבינים . . .וזה כמובן, וזה נורא חשוב - יש גם אנליסטים שכן יודעים, אבל אם נסתכל על ה-Bulk הגדול, שבדרך כלל מתעסקים ועובדים בעולמות של BI - הם לרוב לא יודעים לעומק את העולם הזה, וזה מה שמייחד את ה-Data Scientistאיך לייצר את אותם פיצ’רים, שמייצרים . . . לוקחים את הדאטה הגולמי, ומייצרים ממנו מידע שאפשר להכניס לתוך מודלים.ומה שמאוד מיוחד בפקאן זה שאנחנו עושים את באופן אוטומטי.(רן) באופן אוטומטי מסתכלים על דאטה, שלא ראית לפני כן, של חברה שאתה לא מכיר, שאתה לא מבין מה ה-Business שלה - ואתה עושה מזה משהו הגיוני? . . . טוב, אז אולי ניכנס פנימה ונבין איך זה עובד.(נועם) מהמם.אז (א) - חשוב [להבין]: אין פה קסם - זה הכל Engineering שמחבר את הדבריםאבל כן אני אתחיל ואגיד, וזה באמת המקום שבו . . . אתם זוכרים את אותו חדר קטן שדיברנו עליו, מול האוניברסיטה? שם כל הרעיונות נוצרו, מבחינת הבסיס, באמת.כי מה קרה? קיבלנו דאטה של לקוחות, ובתוך התהליך קיבלנו עוד דאטה ועוד “דאטאות” שונים, ובאמת בכל פעם היינו מייצרים מודליםוראינו את אותם מקומות והבנו שבעצם כן - יש פה קו מנחה אחד שעובר בתוך כל המקומות האלה.וזה אותו מקום, שהבנו שכן אפשר לייצר את אותו Framework, שהוא מאוד משמעותי - ובעצם הוא מדבר לכל אחד שמבין דאטה, ודרכו אנחנו מגיעים למודל.עכשיו - למה אני מתכוון? כי זה נשמע עדיין מאוד אמורפי, אז קצת ניכנס לתכל’ס - בסוף, אם חושבים על זה, בעצם כדי להגיע למודלים פרידקטיביים (Predictive), יש את אותן קומפוננטות (Components) נורא חשובות שצריך להכיר אותן - אנחנו קוראים להן The Four W’s, וזה לא מכונית שנוסעת, זה לא אוטו שיודע לנסוע, אלא זהא. Who - עבור מי עושים את הפרדיקציה?ב. When - מתי עושים את הפרדיקטציה? - וזה נורא חשוב, תיכף אתם תבינו איך זה בונה את כל העולם תוכןג. ברגע שאנחנו יודעים עבור מי עושים את הפרדיקציה ומתי, נשאר לנו What - מה אנחנו רוצים בעצם?וזה אותו מקום אגב . . . מה שאנחנו רוצים לחזות, אותו מקום של מידע מטוייב.אז אנחנו לא מבקשים מה-user שלנו, בעצם, להביא מידע מתוייג - אנחנו נתייג אותו בשבילו.איך נעשה את זה? אנחנו מבינים את עולם התוכן, אנחנו מבינים שמדובר ב-Life-Time Value או ב-Churn, אנחנו רק צריכים עכשיו לדעת מה-user מהי, לדוגמא, טבלת ה-Transactions שלו, או מה היא הטבלה שאליה אנחנו רוצים לסכום.אז בעצם, ברגע שאנחנו נותנים את אותה מסגרת של Who, When, What - וכמובן ה-W האחרון, שזה מה שדיברנו עליו לפני כן - ד. זה With - בעזרת איזו אינפורמציה אנחנו רוצים שהמערכת תייצר את הניבוי?עכשיו, פה מגיע אותו חלק כל כך משמעותי, של “איך אנחנו יודעים To make sense of data?”קיבלנו טבלה - עכשיו, קחו טבלת . . . אפשר לדבר סתם לדוגמא על טבלה שאנחנו מקבלים - שיחות טלפוןרשומות, כשכל רשומה היא שיחת טלפון ל-Support, ורוצים להבין את המשמעותהיופי זה שאנחנו מבקשים מה-user, בעצם, להביא לנו עמודות של זמן, של תאריך - מהו אותו תאריך שבו האירוע קורהומשם אנחנו כבר מזהים את כל העמודות השונות, מה המשמעות שלהן, איזה סוג זה - ומייצרים את אותם פיצ’רים.אני אתן כמה דוגמאות קטנות כדי שתבינו: קחו, לדוגמא, אם אנחנו מדברים על אורך של שיחה, אז מה שמעניין זה, פר user מסויים, לא רק לראות שיחה מסויימת אלא מה קורה על פני הזמןבעצם, אנחנו בפקאן מסתכלים על אוסף של אותן רשומות, ומייצרים להן נגזרת - לא רק לוקחים נקודה מסויימת, אלא ממש מסתכלים על הנגזרת על פני הזמן, ורואים איך יש שינוי.אז אם לבנאדם בתהחלה הייתה שיחה קצרה, ואחר כך יותר ארוכה ויותר ארוכה ויותר ארוכה - מאוד יכול להיות שקורה פה משהו.זה בדיוק אותו מידע שחשוב למודל, ואנחנו יודעים לייצר את אותם פיצ’רים על מנת להגיע, בעצם, למשהו ש Make sense of data.(אורי) אז אם אני מנסה להבין - ה - Secret sauce הוא ב . . . אוקיי, יש לך מידע טבלאי, אני שואל אותך ארבע שאלות - אותן ארבע W’s שלך - וזה מספיק לי בשביל לקחת את המידע הטבלאי שלך - וכמובן הוא חייב לכסות את התשובות של השאלות - בשביל לייצר מזה מידע שאני יכול להכניס ל-AutoML כזה או אחר, ולקבל מודל פרדיקציה?(נועם) לחלוטין - אתה בעצם . . . רק חשוב להגיד: פקאן זה End-to-End Solutionאתה רק צריך לחבר את אותן טבלאות, כמו שבדיוק הסברת, והסברת מהמם, עם אותן Four W’sובעצם מה שאתה מקבל - לוחץ על כפתור, מה שנקרא Train the model בתוך פקאן - ומאותו רגע, בעצם, אתה מקבל מודל מוכן.כמובן שיש את כל ה-Processing של ה-Data, ואם תרצו אפשר להכנס באמת למה שקורה שם - אבל בעצם מעבדים את כל הנתונים, מבינים.עושים, כמובן, מה שנקרא Feature engineering או Feature selection, מידולומגיעים בעצם למודל מוכן - ועכשיו אתה בתוך פקאן, עם מודל מוכןומה שנורא יפה בפתרון, וזה אחד הדברים שנורא ריגשו אותי בפקאן, זה שכשסגרנו את ה-Loop - ואתה יכול ללחוץ על כפתור שאומר “עכשיו תתחיל להשתמש במודל הזה”.אתה לא צריך לעבור למערכת אחרת, אתה בתוך פקאןאתה במה שנקרא “use my model”, ועכשיו אתה יכול להגיד “אני רוצה להשתמש בו” - ולא צריך לעשות שום פעולה במקום אחר.בעצם, אתה רק אומר איזה תזמון אתה רוצה, ועכשיו אנחנו מושכים רק Data חדש, מייצרים את הניבויים - ושולחים אותם חזרה אליך כ-User.(אורי) בעצם, התחלנו את השיחה מ-Machine Learning בעולם האמיתי. . . .(רן) . . . אז בוא אני אתן לך שאלה של Machine Learning בעולם האמיתי . . . (נועם) יש!(רן) . . . כמעט כל מי שעושה איזושהי תיאוריה ב-Data Science או Machine Learning, מסתכל על Data-set מדהים, והוא מריץ כמה שורות ב-Pandas וב-scikit-learn ועוד איזה TensorFlow, והכל עובד נהדרהסיווגים יוצאים בתשעים-ומשהו אחוזי דיוק, והרגרסיות יוצאות יפות והכל סבבה.ואז, כשאתה לוקח את אותו הדבר ואתה רוצה להפעיל את זה על ה-Business שלך - נקרא לזה העולם האמיתי - פתאום כלום לא עובד . . . שום דבר לא מדויק, כל הרגרסיות עקומות, הפיצ’רים לא בכיוון . . . זאת אומרת, כשהמדע פוגש את השטח, את מגלה שיש שריפה בצמיגים.אז אני מניח שאתם, בגלל שאתם רואים הרבה מאוד לקוחות, בטח רואים את זה חדשות לבקרים - וחשבתי שאולי תוכל לחלוק איתנו כמה מהלמידות שלכם בתחום הזה, של איך לוקחים את התיאוריה והופכים אותה למשהו שהוא פרקטי וגם Actionable-י.(נועם) לגמרי . . . אולי נתחיל . . . זה עולם באמת עצום, וזה מרתק, כי זה באמת אותם מקומות, ואני זוכר את עצמי בדוקטורט, מתעסק עם עולם של מידול, ומידול של מוחאם אנחנו מדברים לדוגמא על EEG, ואיך מייצרים משם פרדיקציות . . . ובאמת, יחסית - עולם ורוד . . . זה באמת עולם שבו לדאטה יש מבנה שהוא הרבה יותר ברוראין כאלה פערים גדולים, ובטח כשאנחנו מדברים על אותם Data-sets שאתה באמת מוריד כדוגמא ורוצה לראות והופ! הכל נפלא.אז בואו באמת ניקח כמה דוגמאות, אם מתאים לכם, ונתחיל להסתכל על כמה דברים, ודברים שאנחנו ראינו אותם כמובן - והתמודדויות שצריך לדעת להתמודד איתן.אולי נתחיל, ויש פה כמה איזורים - נתחיל . . . דיברנו קודם על LTV, נכון? (רן) Lifetime Value . . .(נועם) סליחה, Life-Time Value, נכון - לחזות כמה אותו לקוח יהיה שווה - כמובן שאנחנו מדברים על חיזוי, אז יהיה שווה בעתיד.בעולם , אם ניקח, אתם יודעים . . . כמובן, בדרך כלל בדוגמאות האלה, אם אנחנו עושים מתוך רגרסיה איזושהי לדוגמא, כמעט תמיד ההתפלגות היא התפלגות כזאת גאוסיאנית - פעמון יפהוהמודלים - הם אוהבים פעמונים, טוב להם לשמוע את הצליל הזה, תמיד נעים להם מאוד . . אבל במציאות . . .(אורי) כמו פרות בשוויצריה . . .(נועם) בדיוק . . . אבל . . .(רן)בדיוק חשבתי על הגיבן מנוטרדאם, אבל בסדר, פעמון זה פעמון . . .[יותר בכיוון של High Hopes . . . ](נועם) אז אני אגיד - הגיבן מנוטרדאם זה באמת יותר איך שהדאטה נראה, והוא לא נראה כל כך ישר ויפה . . .(אורי) יש לו גיבנת . . .(נועם) יש לו גיבנת, ויש לו אחר כך גם זנב . . . לא חושב שהיה לו זנב, אבל במציאות יש זנב ארוך, שם בתוך ההתפלגות.ובאמת זה מה שרואים - בדרך כלל, כמו שאתם יודעים, במציאות, בהרבה מאוד מקרים דווקא יש מעט לקוחות שמביאים בעצם את רוב ההכנסותהם אותו הזנב - וההתפלגות נראית קטסטרופה, ועכשיו לך תתמודד עם הדבר הזה.מודלים נראים קטסטרופה במצב הזה, וההתמודדות שם היא מאוד קשה, היא לא . . . זו דוגמא קטנה להתמודדות ראשונה(רן) זאת אומרת - אנחנו מדברים על מצב שבו ה-Target שלך, מטרת היעד - אולי בספרות היא נראית כמו איזשהו פעמון גאוסיאני מאוד יפה, אבל במציאות זה נראה ברדק שלם, ואז המודל לא יכול . . . הוא כנראה לא יעבוד טוב במצב כזה.(נועם) נכון מאודבעצם, הרבה פעמים הסיבה היא שבהרבה מאוד מהמודלים יש הנחה, בתוכם - הנחה, שמניחה שבאמת ה-Target, יש בו התפלגות גאוסיניתומה לעשות שהנחות נועדו כדי שהן לא תתקיימנה, כמובן [Normal’s overrated].(רן) טוב, אתה יודע - המרצה לסטטיסטיקה יגיד “במספרים מספיק גדולים, זה תקף”, אבל זה המספרים שיש לי, אין לי מספרים מספיק גדולים . . .[והם גם כמעט אף פעם לא בלתי תלויים, או שווי התפלגות . . .](נועם) אגב, גם ב”מספיק גדולים” פה - זאת בעיה, כי זאת המציאות פהואנחנו מתעסקים עם מספרים מאוד גדולים - וזאת עדיין ההתפלגות, כי זאת פשוט המציאות[ד”ש לאסימוב?]אתם יודעים מה? אני מגיע מעולם של פסיכולוגיה, ובאמת בפסיכולוגיה, אנחנו כבני אדם - הרבה מאוד מההתפלגויות הן באמת גאוסיאניות, אבל דווקא בעסקים זה נראה מאוד מאוד שונה.ובאמת בדאטה עסקי, אנחנו לא רואים את אותה התפלגות גאוסיאנית[אקספוננציאלית? Log-Normal?]אני משער שיש פה . . . לא יודע אם אתם מרגישים את המתח של “רגע, מה עושים, איך מתמודדים עם זה?” . . .(רן) לא - אני רק שואל את עצמי מה ההתפלגות, נו? . . .(נועם) אז אולי אני אתן לכם רק . .. כמובן, יש פה כמה טיפים, אבל איך בכלל ניגשים לשאלה כזאת? אני חושב עכשיו על האנשים ששומעים [ומנסים לתמלל!] אותנו, ואומרים “רגע, יופי! הוא - יש לו מלא דאטה של לקוחות, קל לו, אבל אני בבית, איך אני יכול לעשות? מה אני יכול לעשות?”את תדעו לכם - זוכרים שהתחלנו בעצם, ככה בגאראז’ שלנו - תמיד מתחילים מדאטה, שבעצם הוא סימולציה, מייצרים סימולציות, זה מאוד חשובכי בעצם, דרך סימולציה, אפשר גם לייצר את החוק, והדרך הכי טובה להתחיל מחקר בעולמות של Machine Learning זה קודם כל לייצר קוד שמסמלץ (Simulates) את הנתונים, ומשם בעצם לומדים איך הכי נכון לייצר את אותם מודלים.[הקשר מעט אחר אבל קצת רפרנס ל In order to scale you have to do things that don’t scale ול- Do Things that don’t Scale]תמיד עבדנו, בעצם יצרנו סימולציה של מידע שיש לו זנב מאוד ארוך, עם חוק מאוד מסוייםכמובן בצורה של Rule-based, פשוט בשביל הסימולציה - אין צורך . . . פה זה לא מקום שצריך הרבה יצירתיות - דווקא מעט יצירתיות היא מאוד טובה פה - משהו פשוט.ורוצים לראות שהמודלים, גם עם “ההתפלגות הבעייתית”, יודעים לעלות על החוק, כאשר זו סמולציה פשוטה.קודם כל צריך לפצח את זה - אם לא תפצחו את זה, לא תצליחו לפצח גם מידע שהוא הרבה יותר מורכב בחוקיות שלו.(אורי) אז אתה אומר “אני מסתכל על מידע אמיתי; אני מזהה את החוק או את הבעיה; ומסמלץ את המידע הזה לצורך משחק עם המודל” - כשבעצם, כשאתה מייצר מידע סינטטי, אתה מסמלץ מידע שהוא סינטטי, אבל מכיל את הבעיה . . . מכיל בעיה אחת, וכנראה שבדאטה האמיתי מסתתרות עוד כמה בעיות.זא אומרת - אני קודם כל מייצר לי את המודל שמצליח לעלות על הבעיה שבעצם סימלצתי; אני אראה שהמודל עובד על זה, ואז אני אעבור לבעיה הבאה.(נועם) בדיוק - אי אפשר להתחיל מלפתור את כל הבעיות, זה פשוט בלתי אפשרי, זה לא . . . זה מאוד מאוד קשה.ובאמת, הדרך שלנו לפעול זה כל פעם לקחת בעיה, לראות איך הדרך הנכונה להתמודד איתה, ודרך אותן סימולציות באמת להבין איך נכון להתמודד עם זה, אני מתחיל את המחקר שם.כמו שאמרת - אתה משחק, אתה גם חוקר, מבין איך נכון בעצם לפעול - ועכשיו לוקח את זה לעולם האמיתי.(רן) לצורך העניין, בדוגמא שלנו, אתה אומר “סבבה, המודל עובד על התפלגות גאוסיאנית - אבל מה לעשות, ההתפלגות היא, Whatever - אקספוננציאלית או Weibull או משהו אחר כזה, לא כל כך יפה - אז בואו נסמלץ (Simulate) התפלגות אקספוננציאלית, ננסה להתאים את המודל עליה, ואחרי שעברתי את זה אני אעבור לדאטה האמיתי, ושם אני אעשה את התיקונים הנדרשים”. אבל . . .(אורי) או שאני אקח את הבעיה הבאה בדאטה האמיתי - ואני אסמלץ גם אותה ו . . .(רן) כן, אבל זה נשמע כאילו “שלב מיותר” - למה לעבור דרך סימולציה, אם כבר יש לי את הדאטה? זו שאלה אחת.ושאלה שנייה - אולי אתה פותר בעיה קלה מדי? זאת אומרת, אז עשיתי סימולציה, אבל הסימולציה פשוט לא מספיק נאמנה לדאטה האמיתי או, לא יודע, אולי יש לי איזשהו Bias בדאטה, אולי יש לי הרבה אנומליות - כאלה שמה לעשות? אני לא מסמלץ אותן, וכשאני מגיע לדאטה אז שוב אני בפני שוקת שבורה, וכל העבודה שעשיתי לפני - אי אפשר להשתמש בה.(נועם) שתי נקודות מאוד מאוד טובות וחשובות . . .אני אתחיל, רגע, מהראשונה - על הנקודה שאמרת שאולי יש פה מצב שבוא אתה פותר בעיה אחת, שהיא יחסית “פשוטה”נכון - אבל אנחנו לוקחים את זה . . . “אבל בעצם יש לך את הדאטה, למה אתה צריך את ה[בעיה ה]פשוטה?”כשאתה מתמודד עם כל הבעיות “במכה”, אין לך מושג האם התקדמת . . . אתה כל פעם נתקע, וזו הבעיה הכי גדולה, אגב, ב-Data scientists שמתמודדים עם דאטה כזה - הם לא יודעים האם הם מתקדמים.אתה כל פעם עשית משהו, אבל “רגע, זה לא עבד לך”,אז אתה מנסה משהו אחר, ו”רגע, זה לא עבד”.אבל זה לא עבד בגלל עשרים מחסומים בדרך - ואם אתה לוקח כל מחסום ומחסום בנפרד . . . ותראו - אני אומר לכם את זה אחרי שעברנו את המחסומים, ואחרי שאנחנו באמת כבר מייצרים מודלים ללקוחות על דאטה אמיתי ורואים ביצועים מאוד טובים - זה בדיוק דרך אותה שיטה של בכל פעם לקחת את המחסום לבד הצידה, עם דאטה הרבה יותר פשוטכי אם לא תעשו את זה עם מידע יותר פשוט, לא תדעו מה הדרך להתמודדומשם לעבור למחסום הבא.שוב, אני מקווה שהצלחתי להעביר - זה לא שזה נעשה בצורה אטומטיתאותם . . . הדרך של “כל פעם לעבור את המחסום”, זה אצלנו, כמובן, יש צוות של Data scientists, חבר’ה מאוד חזקים, שמסמלצים את הבעיה.הבעיות, בסופו של דבר, חוזרות על עצמן - אלו לא בעיות שלכל לקוח זו בעיה שונה, דברים חוזרים על עצמם.אבל הדרך להתמודד היא באמת לקחת מחסום כזה ולהבין איך מתמודדים איתו.(אורי) אז אפשר גם לסמלץ ואפשר גם לנקות, לא? כאילו - אתה יכול לנקות בעיות מהדאטה . . .(נועם) לגמרי . . . מה שדיברתי בסימלוץ זה תמיד כשאי אפשר לנקות, אבל לגמרי - אנחנו מנקים, וזה מאוד חשוב.וזה לגמרי, קודם כל . . . זה תהליך שלם, בתוך ה-Pipeline שלנו, זה כמובן לעשות Cleansing לדאטה, Wrangling של הדאטה . . . וזה תיכף, אפשר קצת לדבר גם . . . אתם יודעים, מדברים על “דאטה מלוכלך” - מה זה “דאטה מלוכלך” בכלל?אני מקווה שנספיק, כי אני לא יודע כמה זמן יש ויש המון נושאים וזה מרתק . . .אומרים “דאטה מלוכלך”, אבל כל אחד מתכוון לדברים שונים . . .אבל כמובן - אם אנחנו מדברים על Missing Values שזה מאוד חשוב, אם אנחנו מדברים על טעויות בתוך הדאטה . . .אלמנט מאוד מאוד חשוב זה גם Data Type - מה ה-Type שלי? הם אני תאריך או לא תאריך? ואיך אני מייצר את התאריך? ואיזה תאריכים . . . ורגע, אולי יש לי פתאום תאריך עתידי בדאטה, בטעות, שאתם יודעים - תמיד נכנסים תאריכים לא נכונים כאלה פה ושםאלו בדיוק אותם מקרים שמאוד משמעותי לנקות אותם, לפני שיוצאים לדרך, לגמרי.(אורי) אז הזכרת Data scientists שיושבים על הדאטה ועובדים עליו . . . כמה מה-Workload של מלקחת לקוח ועד שאתה יודע לתת לו מודל פרדיקציה (Prediction Model) . . . זה קשה להגיד את זה אבל . . . (רן) אתה מתכוון לשאול כמה מזה אוטומטי וכמה מזה . . . (אורי) . . . כמה מזה אוטומטי וכמה זה עבודה . . .?(נועם) יש לי תשובה מאוד פשוטה לזה, מאוד פשוטה . . . אני אגיד לכם למה - וזה אגב, בחווייה האישית, תחשבו בתור, אתם יודעים - מישהו שזה “הבייבי שלו”, ויוצא לדרך - אתה לא יודע לאן אתה הולךואני יכול להגיד לכם - רגע שבשבילי היה ללא ספק משמעותי מאוד בדרך זה כשעבדנו עם לקוח מאוד גדול, חברת Retail אמריקאית ענקית, אני כמובן לא יכול להגיד את השם . . עבדנו איתם והם אמרו “אנחנו רוצים, כמובן, פיילוט - רוצים לראות מה אתם יכולים לעשות”ובעצם לקחנו ככה, ביקשנו מהם את הדאטה והכנסנו אותו לתוך המערכת, ביחד איתם הכנסנו את זה לתוך המערכת - ותוך שבועיים, בעצם, הגענו למודל שהם במשך שנה עבדו עליו - זה הסדרי גודל.וזו הייתה הפעם הראשונה - אחרי זה הגענו לעוד לקוח, ובדיוק אותו סיפור: שנה שבה הצוות עובד - ואתם יודעים איך התהליכים, ואפשר אולי לדבר על התהליכים של מה זה לייצר מודל - זה גם קשור לדאטהזה גם קשור, כמובן, ללהבין ולחבר את זה לשאלה שהיא מוגדרת היטבלנקות את הדאטה, להריץ מודל . . .עכשיו - זה לא פעם אחת: אתה כל פעם עושה סייקלים (cycles), אתה בכל פעם רוצה לשפר ועושה סייקליםוזה היופי - זה מצא. בתוך פקאן, אתה מצליח, בתוך שבועיים - ותיכף אני אדבר על למה זה כל כך מהיר ואיפה באמת, כמו שדיברת, איזה Workload זה לוקח - אל מול שנה.וזה לא לקוח אחד - אנחנו מדברים על הרבה לקוחות שזה בדיוק מה שאנחנו שומעים.והיום, כששואלים אותנו מה ה-Value שלנו . . . פעם, היינו אומרים שה-Value הכי גדול של פקאן זה באמת לאפשר למישהו שלא מכיר לייצר מודלים - אבל זה הרבה יותר מזה.זה לייצר, בעצם, הרבה מודלים - זה לייצר ולענות על הרבה שאלות עסקיות והיום, כשאתה שואל את עצמך למה שלקוח גדול - ודיברנו על לקוחות באמת גדולים - למה שהם בכלל ידברו איתנו? מה - אין להם צוותים?[אז] יש להם, אבל הבעיה זה שאותם צוותים לא יכולים לענות על הרבה שאלות עסקיות, כי זה לוקח הרבה זמןבעצם, בעזרת פקאן, הם פשוט מחברים את הדאטה ומקבלים את אותו מודל פרדיקטיבי.עכשיו, למה אגב שבועיים? למה לא מיידית? למה עדיין יש פה איזשהו תהליך מסויים? כי באמת, וזה אחד הדברים המשמעותיים, היופי בתוך פקאן זה . . . דיברנו על ה Four W’s, ויש שם קונפיגורציות, יש שם כל מיני קונפיגורציות שאתה יכול לשחק איתןאם, לדוגמא, אנחנו מדברים על Lifetime Value, אז השאלה לכמה זמן אתה חוזה קדימה, ולכמה זמן מראש אתה רוצה לחזות קדימה . . . והיופי בתוך פקאן זה שאתה יכול לשנות את הקונפיגורציה - אתה עושה “Duplicate my Model”, משנה את הקונפיגורציה - והנה, יש לך מודל חדש.אז בעצם מה שאנחנו עושים זה שאנחנו מייצרים כל מיני וריאציות [נושא טעון בימים אלו…] על בסיס קונפיגורציות - אבל לא של Hyper Parameters, זה מאוד חשוב - קונפיגורציות עסקיות, ובעצם מקבלים תמונה מלאה.ועל זה דיברנו, על פער שבין אקדמיה לעסקי - בעסקי, זה לא שאתה בונה מודל אחד בשביל לענות על שאלה; אתה רוצה לקבל את כל . . . בעצם את כל הקשת השונה, ולראות 360 מעלות כדי להבין את הלקוח.ולהבין מה הם המודלים הכי טובים, שאיתם אתה יוצא לדרך.(רן) אז אנחנו ב-Scope של “איזה דברים עובדים נהדר באקדמיה, או איזה דברים עובדים נהדר על הנייר, אבל הרבה יותר מאתגרים בעולם האמיתי” - ובוא נכסה עוד נושא אחד כזה, כי אין לנו את כל הזמן שבעולם.אז דיברת על לקחת דאטה ולסמלץ אותו כדי לעבור, מה שנקרא “פרה-פרה”, כדי לעבור את המכשול הראשון לפני שאנחנו מגיעים למכשול השני . . .איזה עוד בעיות יש שככה נתקלים בהן בדרך כלל בעולם האמיתי, שאולי בעולם האקדמאי הן נראות כאילו הן כבר פתורות?(נועם) אז אחת הנקודות - ובטח אתם תזדהו עם הבעיה הזו, לכל מי שמתעסק עם העולמות של Data Science זו אחת הנקודות הכואבות, ויש לזה גם כמה שמות, זה בא בזויות שונות - מושג של Leakage . . . אחת הנקודות, כ-Data scientist, זה גם אלמנט מאוד קשה, זה באמת מצב . . ובאקדמיה הרבה פחות . . . לא כל כך מתעסקים בכלל עם Leakageזה כמובן תלוי איפה וזה כמובן נושא שמדובר, אבל אם לוקחים את אותם מודלים ומסתכלים, אז לרוב יש באמת . . .הרי כשמסתכלים במאמרים, לרוב אלו Data sets קבועים, מאוד מסויימים - זה לא שבאמת מסתכלים על מגוון רחבאבל ברגע שמגיעים למציאות, ותיכף אני אתן כמה דוגמאות, ודוגמאות באמת של איפה שהדבר הזה נופל ועד כמה הוא מורכב . . אבל Leakage . . . אולי אני אסביר שנייה מה זה בכלל, ואז ניכנס קצת ל . . .בעצם, דיברנו על Machine Learning, אנחנו מדברים על לחזות משהו קדימה בזמן - מה יקרה?אז הדבר הכי מסוכן זה שאיכשהו אנחנו מכניסים לתוך המודל מידע, שבתוכו חבוי מידע מתוך העתיד, שלא ידענו אפילו שהוא מתוך העתיד, ואיכשהו הוא “התחבא” לו שם, בלי ששמנו לבועכשיו ברור שלמודל מאוד “קל”, כי . . זה אמור להיות יחסית קל, כי זה חבוי לו בפנים . . .(רן) יש לו רמז מאוד מאוד ברור, כשאתה בונה אותו, אבל במציאות הרמז הזה כבר לא יהיה קיים, זאת אומרת - בדרך כלל אתה מאמן על מידע שהוא היסטורי, ששם יש לך אינפורמציה מלאה, ואתה “עוצם לרגע עין אחת” כדי לא להסתכל קדימה, אבל בטעות אתה קצת “פותח את האצבעות” וכן מסתכל קדימה, בלי שהתכוונת - וזה ה-Leakage הזה שעליו אתה מדבר.(נועם) בדיוק - ובעצם, כמו . . .מאוד יפה, אני אוהב את הדוגמא הזו עם החצי-עין עצומה וככה, לעצום . . .(רן) אל תשכח לתת זכויות יוצרים!(נועם) אז הנקודה היא באמת, שכשמגיעים לדאטה - ותזכרו, אנחנו מתחברים בעצם למקורות דאטה של הלקוחות שלנו, ממש מתחברים ל-Databases שלהם, למקורות מידע, ו . . . תחשבו רגע קצת על איך נראה מידע בתוך ה-Database - לרוב לוקחים דאטה וגם מעדכניםמעדכנים שם רשומות, ואם אנחנו מעדכנים פתאום רשומה, ומסתכלים עליה ו . . . ממש כמו שדיברת, אנחנו הרי מסתכלים על מידע היסטורי, אז אנחנו לקוחים רשומות ישנות ומשתמשים בהן כאילו הן נוצרו עכשיואבל בעצם הרשומה השתנתה - קרו לה כל מיני דברים . . . המון המון מידע בעצם התעדכן מאז - ואנחנו מניחים עכשיו, כשאנחנו ברגע הפרדיקציה, שזה המידע שיש לנו בידאבל כשנגיע באמת לרגע הפרדיקציה [במציאות] - המידע לא יראה ככה בכלל . . .וזה אותו פער - זה בעצם . . . בגלל זה ה-Leakage הזה: דלף מידע . . .(רן) בוא, רגע, נמציא דוגמא - נגיד, יש לי עמודה שקוראים לה “איכות הלקוח”לפני שנתיים, כשרק קיבלנו את הלקוח, לא ידענו עליו שום דבר, אז שמנו שם, נגיד, “C”.עם הזמן, הלקוח שילם תמיד בזמן, תמיד חזר והכל - וזה לאט-לאט עלה ל-”B” ועלה ל-”A”עכשיו - אתה בא לעשות איזשהו Prediction ואתה רואה בתוך העמודה הזאת שאיכות הלקוח היא “A” - זאת אומרת שזה לקוח ממש-ממש טובאבל במציאות, כש”יוולד” לך לקוח חדש, או לקוח שרק קיים במערכת - הציון שלו לא באמת יהיה “A”זאת אומרת - אם אתה עכשיו מנסה לעשות פרדיקציה מהמקום שבו היית שנתיים לפני כן, האיכות שלו הייתה “C”, היא לא הייתה “A” - אבל אתה לא יודע את זה כשאתה . . . (אורי) אגב, זה קורה לפעמים כשאתה מעלה מודל חדש, ואתה מנסה לבדוק אותו ב-A/B Testing מול מודל ישן - ככל שאתה מרחיב את הניסוי של ה . . . - לא יודע אם A או B, זה לא משנה - את המשקל של המודל “החדש” שלך, “הטוב יותר” שלך - הדאטה שלו מתחיל ללמד את המודל הישן . . . בעצם, פתאום אתה רואה שה-Lift שלך, ככל שאתה מייצר . . . ה-Lift יורד.(נועם) אני אגיד שזו ממש הייתה . . . צריך להגיד לצופים [הצופים בטקסט? כי היתר לרוב מאזינים . . .] - לא העברתי לך שום שטר, אבל זו לגמרי הייתה הרמה להנחתה, וזה באמת . . .זה בדיוק - מה שעכשיו הסברת - זה התחלה, בעצם, של איך שאנחנו מתמודדים עם הבעיה הזו.בעצם, תזכרו כמה קל לקחת מודל בתוך פקאן ולהתחיל להשתמש בו בתוך Production - זו לחיצת כפתוראתה זוכרים את ה-Usage model שדיברנו עליו? - בעצם, נורא קל . . . אין צורך עכשיו לקחת את כל המודל שלנו, לקחת צוות של Data Engineers ולהעלות אותו ל-Production - אתה פשוא לוחץ על כפתור.ובעצם, ממש כמו שדיברת - ברגע שאתה מעלה אותו ל-Production ,אתה ישר מזהה שיש פה בעיה, כי הרי ב-Production אתה כבר עובד עם מידע עדכני, אתה כבר עובד עם המידע החי.שם, זו הרי הפעם הראשונה שאתה תפגוש את ה-Leakageדיברת על ה”חצי-עין עצומה”? שם אתה תקבל אותו “בום לפרצוף” . . .(רן) תביא רטייה, לא תוכל פתוח את האצבעות . . . (נועם) בדיוק . . . ובגלל זה, מה שיפה בפקאן זה שאנחנו מאוד בקלות מזהים את אותם Leakage-ים, רואים את זה, כי אנחנו מגיעים ל-Production נורא בקלות, נורא מהר, מזהים את אותם Leakage-ים ויכולים להתמודד איתם.מבינים בדיוק מה לעשות ובעצם להתקדם קדימה.(רן) אז אתה אומר שבעצם אין פתרון קסם למציאת Leakage - אם הוא שם אז יכול להיות שהוא שם ואתה בחיים לא תזהה אותו, אבל כשאתה פורש את המודל הזה ב-Production, ופתאום אתה רואה ירידה דראסטית בביצועים, אז החשד הראשון הוא שכנראה היה Leakage בתוך הדאטה . . .(נועם) לגמרי . . . יש לנו, אגב, גם עוד כמה טכניקות על לזהות Leakage עוד בבנייה - בדרך כלל, לדוגמא - פיצ’רים שהם כל כך . . . אתם יודעים, אצלנו יש עניין של Feature Importance, ובעצם מזהים Feature שהוא כל כך חשובובדרך כלל כשמדובר ב-Leakage אז הפיצ’רים האלה קופצים נורא-נורא גבוה - כמובן יש התראה על העניין הזה, שיש פה חשש ל-Leakageאבל בנוסף לזה, יש פה כמה מנגנונים בדרך - וכמובן שהאחרון, וההכי בטיחותי, זה באמת המנגנון האחרון שבו אתה מוריד ל-Production, רואה מיד מה קורה, ואם יש בעיה אתה כמובן יכול לתקן.(רן) בסדר, מעולה - אז תראה, אני חושב שיש לנו עוד נושאים לשיחה לאיזה שבועיים, אבל אמרנו שזה יהיה הנושא האחרון והזמן שלנו כבר עבר.כמה דברים, ככה לפני שנסיים - איפה אתם נמצאים בישראל? את מי אתם מחפשים לגייס?(נועם) מדהים . . .אז אנחנו בישראל - האמת שהיום בתקופת הקורונה, “ישראל” זה כבר “איפה בישראל? כל אחד בביתו” . . . כמובן, יש לנו גם משרדים בבורסה [רמת גן], אבל מי שרוצה, אצלנו אנחנו מאוד בתפיסה “ההיברידית”, שמי שרוצה לעבוד מהבית עובד מהבית ומי שרוצה להגיע למשרד כמובן מוזמן.ובאמת אנחנו ממש עכשיו בצמיחה נורא מהירה בחברה - אבל נורא נזהרים על האנשים: אנחנו לא גדלים . . . הקצב גידול של האנשים שלנו הוא . . . אנחנו באמת רוצים את הכי טוביםמגייסים אצלנו כמובן משרות של Data Engineers, אז אם אנחנו מדברים על Frontend ו-Backend, ללא ספק.ו-Data scientists, כמה מפתיע . . . אבל באמת, אנשים מאוד חזקים בעולמות האלה.אפילו יש לנו משרת ניהול ל-Data Scienceוכמובן עולמות גם של Product ו-Data Analysts.אולי עוד משהו אחרון לסיום, אם יש לנו עוד שנייה אחרונה, אנחנו ככה בפרסומות . . .אז פרסומת לתחרות מאוד מגניבה שאנחנו עושים , בעולמות של Pythonאז לכל התותחי Python ששומעים אותנו - הכנסו פשוט ב-LinkedIn ל-Pecan.ai, אתם תראו שם פרטים על התחרות בעולמות של Pythonסופר מעניין, ממליץ בחום - וכמובן: פרס . . (רן) Python גנרי או משהו, ככה, יותר מפוקס על Machine Learning?(נועם) לא - לא, Machine Learningהיה לנו חשוב, הפעם . . אנחנו עושים גם Machine Learning, עושים תחרויות Machine Learningהפעם היה לנו חשוב שזה יהיה Python רחב - יהיה שם באמת . . .אני לא יכול לספר מה יש בתחרות עדיין, אבל זה הולך להיות אתגר סופר-מעניין(רן) מתי זה קורה? אם מישהו שומע את זה בעתיד [Leakage . . .], מה התאריכים?(נועם) אז אנחנו מדברים על אמצע מאי - פשוט תיכנסו, אתם תראו שם את כל הפרטים.מאמצע מאי התחרות יוצאת לדרך - ובעצם אתם מוזמנים . . .(אורי) זה מידע מהעתיד . . . (רן) כן, לגמרי . . .(אורי) אולי יש לנו Leakage? . . . (רן) ולא עצמנו עין[תמיד יש את Childhood's End](רן) טוב, נועם - תודה רבה, שיהיה לכם בהצלחה בפקאן, נשמע כמו מקום עם מוצר בהחלט מאתגר ומעניין(נועם) תודה רבה לכם, תודה שהזמנתם אותי לכאן, ממש שמחתי(אורי, רן) תודה ולהתראותהקובץ נמצא כאן, האזנה נעימה ותודה רבה לעופר פורר על התמלול

Channel 9
Easy Ways to Refresh Tabular Models | Data Exposed

Channel 9

Play Episode Listen Later Mar 30, 2021 14:15


In this episode with Gaston Cruz, he'll show you the options to process Azure Analysis Services models (Semantic Layer) connecting to an Azure SQL DB as a data source (using SSDT), and then create an architecture using a Service Principal account to process the model (DB, Tables, Partitions) in an automatic way deploying an Azure Logic Apps, and then calling from Azure Data Factory to trigger the process. Finally, he'll conclude by showing you the advantages of using a live connection from Power BI to connect to AAS models. [00:35] About Gaston Cruz[01:43] Architectures[04:20] Demo[12:30] Adding other data sources Resources: Gaston's YouTube ChannelAAS REST API official doc

Data Exposed  - Channel 9
Easy Ways to Refresh Tabular Models

Data Exposed - Channel 9

Play Episode Listen Later Mar 30, 2021 14:15


In this episode with Gaston Cruz, he'll show you the options to process Azure Analysis Services models (Semantic Layer) connecting to an Azure SQL DB as a data source (using SSDT), and then create an architecture using a Service Principal account to process the model (DB, Tables, Partitions) in an automatic way deploying an Azure Logic Apps, and then calling from Azure Data Factory to trigger the process. Finally, he'll conclude by showing you the advantages of using a live connection from Power BI to connect to AAS models. [00:35] About Gaston Cruz[01:43] Architectures[04:20] Demo[12:30] Adding other data sources Resources: Gaston's YouTube ChannelAAS REST API official doc

BIFocal - Clarifying Business Intelligence
Episode 179 - Best Practices Analyzer in Tabular Editor

BIFocal - Clarifying Business Intelligence

Play Episode Listen Later Feb 14, 2021 26:57


This is episode 179 recorded on February 5th, 2021 where John & Jason deep dive on the Best Practices Analyzer in Tabular Editor, an external tool for Power BI Desktop. For show notes please visit www.bifocal.show

PaperPlayer biorxiv bioinformatics
Genome ARTIST_v2 software - a support for annotation of class II natural transposons in new sequenced genomes

PaperPlayer biorxiv bioinformatics

Play Episode Listen Later Nov 1, 2020


Link to bioRxiv paper: http://biorxiv.org/cgi/content/short/2020.10.30.360610v1?rss=1 Authors: Ecovoiu, A. A., Ghita, I. C., Chifiriuc, D. I. M., Ghionoiu, I. C., Ciuca, A. M., Bologa, A. M., Ratiu, A. C. Abstract: Transposon annotation is a very dynamic field of genomics and various tools assigned to support this bioinformatics endeavor were reported. Genome ARTIST (GA) software was initially developed for mapping artificial transposons mobilized during insertional mutagenesis projects. Now, the new functions of GA_v2 qualify it as an effective companion for mapping and annotation of class II natural transposons in assembled genomes, contigs or sequencing reads. Tabular export of mapping and annotation data for subsequent high-throughput data analysis, the export of a list of flanking sequences around either the coordinates of insertion or around the target site duplications (TSDs) and generation of a consensus sequence for the respective flanking sequences are all key assets of GA_v2. Additionally, we developed two accompanying short scripts that enable the user to annotate transposons existent in assembled genomes and to use various annotation offered by FlyBase for Drosophila melanogaster genome. Herein, we present the applicability of GA_v2 for a preliminary annotation of the class II transposon P-element in the genome of D. melanogaster strain Horezu, Romania, which was sequenced with Nanopore technology in our laboratory. Our results point that GA_v2 is a reliable tool to be integrated in pipelines designed to perform transposon annotation in new sequenced genomes. GA_v2 is open source software compatible with Ubuntu, Mac OS and Windows and is available at https://github.com/genomeartist/genomeartist and at www.genomeartist.ro. Copy rights belong to original authors. Visit the link for more info

The Millionaire Introvert
Tabular Rasa Blank State

The Millionaire Introvert

Play Episode Listen Later Sep 25, 2020 16:47


This is episode one of the Millionaire Introvert. I will discuss my childhood and the classic debate nature vs nurture.

Evrim Kuran
Mozart Cultures - Kuşaktan Kuşağa Oluşan Tabular

Evrim Kuran

Play Episode Listen Later Sep 16, 2020 62:27


Mozart Cultures YouTube kanalında gençlerle "kuşaklar, zamanın farkları ve benzerlikleri, kuşakların döngüsü ve genel olarak zamanın ruhu" ile ilgili keyifli bir söyleşi gerçekleştirdik.

Eda Podcast
Podcast tabularını boğup boğup duvara attığım bir bölüm

Eda Podcast

Play Episode Listen Later Aug 31, 2020 13:41


Gerçekten bu bölüm hiç yaşanmamış gibi davranabiliriz ama yaşandı ve ben gerçekten çok mutsuzdum. Spotify: niraneda

Kendimiz İçin Yapıyoruz
KIY#8 | Regl izni: Tabular yıkılıyor mu?

Kendimiz İçin Yapıyoruz

Play Episode Listen Later Aug 15, 2020 40:47


Kurumsal şirketlerin kadınlara regl izni vermesi ne ifade ediyor? Yüzyıllardır gizlemek zorunda kalınan adet döngülerini görünür kılmanın önemini, toplumdaki yerini ve hijyenik ürünlere erişimi konuştuk.

LAFOLA
InstaLive - Tabuları Yıkmak

LAFOLA

Play Episode Listen Later Jun 16, 2020 60:11


Instagram Canlı Yayın (11.06.20): Cevahir Bolayır (Özer Uzun) ve Cemil Marki bu sefer Instagram üzerinden canlı yayın yapıyor; coğrafya kaderdir tabularını yıkmak, PR ve network, tatil tercihleri, Demet Evgar'ın başına gelenler ve özlü sözler ve üzerine çeşitli laflar oluyor, hemen akabinde de beri geliyor. (Ses kalitesi bir süreliğine böyle olacak, ne diyelim. Özür dileriz.)

Chai Time Data Science
04: fast.ai Lesson-4 NLP:Tabular Data; Recsys | fast.ai 2019 & Things Jeremy Howard says to do

Chai Time Data Science

Play Episode Listen Later Mar 7, 2020 4:41


This episode reviews Lesson 4 from fast.ai Part 1, 2019 and the Things Jeremy says to do About: The motivation behind the 3-4 min video/audio summaries is to allow our fellow fast.ai family members to review the lectures from Part 1, 2019 and "Things Jeremy Says to do" in a 3 min format. Jeremy Howard, mentions many pearls of wisdom that Many Thanks to Robert Bracco, Author of "Things Jeremy Howard says to do" are now also available in this format. Reminder Note: This series is not a replacement in any format for the fast.ai lectures. It's supposed to act as supplementary material for the course. Links: Take the course here: https://course.fast.ai Things Jeremy Says to do thread: https://forums.fast.ai/t/things-jeremy-says-to-do/36682 Follow: fast.ai: http://twitter.com/fastdotai Jeremy Howard: http://twitter.com/jeremyphoward Robbert Bracco: https://twitter.com/MadeUpMasters Sanyam Bhutani: http://twitter.com/bhutanisanyam1 --- Send in a voice message: https://anchor.fm/chaitimedatascience/message

Atareao con Linux
ATA 117 La previsión meteorológica en Linux

Atareao con Linux

Play Episode Listen Later Oct 21, 2019 19:24


Probablemente My-Weather-Indicator fue junto a Touchpad Indicator las dos aplicaciones que me empujaron a crear software principalmente para Ubuntu. Principalmente para Ubuntu, aunque posteriormente lo he ido ampliando a otras distribuciones del ecosistema Linux. Esta aplicación tiene por objetivo acercar la previsión meteorológica en Linux. Cuando me inicié a desarrollar aplicaciones en Ubuntu, principalmente las dos que he mencionado anteriormente, ya existían alternativas para mostrarte la previsión meteorológica en Linux. Sin embargo, o bien, no terminaban de funcionar correctamente. O bien, no me proporcionaban la información que quería. O bien habían sido abandonadas por el desarrollador de la aplicación. Esta es básicamente la razón para la creación y desarrollo de My Weather Indicator La previsión meteorológica en Linux My Weather Indicator Como te decía en la introducción My-Weather-Indicator es una aplicación enfocada a mostrarte la previsión meteorológica en Ubuntu inicialmente. Aunque actualmente, debería funcionar perfectamente en cualquier entorno de escritorio. Opciones ¿Que opciones y posibilidades te da My Weather Indicator? Se trata de una aplicación que se sitúa en el área de indicadores. Mostrándote en un icono la situación meteorológica en la ubicación que hayas seleccionado. Esto acerca la previsión meteorológica en Linux. No solo para la ciudad en la que te encuentres, sino que puedes seleccionar una segunda ubicación. De esta forma estarás informado de la previsión meteorológica de hasta dos ubicaciones diferentes. Mediciones My Weather Indicator te muestra información de los parámetros mas importantes. Parámetros como pueden ser, Hora de amanecer y ocaso Fase lunar La condición meteorológica La temperatura máxima y mínima La dirección y velocidad del medio La humedad y la nubosidad. Previsión Por supuesto, no solo te indica la situación meteorológica en esas dos ubicaciones que puedes definir. My Weather Indicator también te informa la previsión meteorológica en Linux. Esto se realiza de tres diferentes formas. Tabular. En esta ventana, te muestra de los siguientes días los parámetros mas importantes, como pueden ser, temperatura, humedad relativa o condición meteorológica. Gráfico. Igual que en el caso anterior, pero esta vez, en lugar de mostrarlo en una sencilla tabla, te lo mostrará en un gráfico de evolución de las condicionese meteorológicas. Mapa. En un mapa, te muestra los diferentes parámetros graficados, para que veas cual es la situación. Instalación My Weather Indicator no se encuentra en los repositorios oficiales de Ubuntu. Pero lo puedes instalar fácilmente añadiendo el repositorio oficial del atareao-team. Te recomiendo la lectura del artículo dedicado a My Weather Indicator. En este artículo te indico con detalle no solo como instalar la aplicación en Ubuntu y derivados. También te explico que opciones de configuración tienes. Más información en previsión meteorológica en Linux

Sospechosos Habituales
ATA 117 La previsión meteorológica en Linux

Sospechosos Habituales

Play Episode Listen Later Oct 20, 2019 19:24


Probablemente My-Weather-Indicator fue junto a Touchpad Indicator las dos aplicaciones que me empujaron a crear software principalmente para Ubuntu. Principalmente para Ubuntu, aunque posteriormente lo he ido ampliando a otras distribuciones del ecosistema Linux. Esta aplicación tiene por objetivo acercar la previsión meteorológica en Linux. Cuando me inicié a desarrollar aplicaciones en Ubuntu, principalmente las dos que he mencionado anteriormente, ya existían alternativas para mostrarte la previsión meteorológica en Linux. Sin embargo, o bien, no terminaban de funcionar correctamente. O bien, no me proporcionaban la información que quería. O bien habían sido abandonadas por el desarrollador de la aplicación. Esta es básicamente la razón para la creación y desarrollo de My Weather Indicator La previsión meteorológica en Linux My Weather Indicator Como te decía en la introducción My-Weather-Indicator es una aplicación enfocada a mostrarte la previsión meteorológica en Ubuntu inicialmente. Aunque actualmente, debería funcionar perfectamente en cualquier entorno de escritorio. Opciones ¿Que opciones y posibilidades te da My Weather Indicator? Se trata de una aplicación que se sitúa en el área de indicadores. Mostrándote en un icono la situación meteorológica en la ubicación que hayas seleccionado. Esto acerca la previsión meteorológica en Linux. No solo para la ciudad en la que te encuentres, sino que puedes seleccionar una segunda ubicación. De esta forma estarás informado de la previsión meteorológica de hasta dos ubicaciones diferentes. Mediciones My Weather Indicator te muestra información de los parámetros mas importantes. Parámetros como pueden ser, Hora de amanecer y ocaso Fase lunar La condición meteorológica La temperatura máxima y mínima La dirección y velocidad del medio La humedad y la nubosidad. Previsión Por supuesto, no solo te indica la situación meteorológica en esas dos ubicaciones que puedes definir. My Weather Indicator también te informa la previsión meteorológica en Linux. Esto se realiza de tres diferentes formas. Tabular. En esta ventana, te muestra de los siguientes días los parámetros mas importantes, como pueden ser, temperatura, humedad relativa o condición meteorológica. Gráfico. Igual que en el caso anterior, pero esta vez, en lugar de mostrarlo en una sencilla tabla, te lo mostrará en un gráfico de evolución de las condicionese meteorológicas. Mapa. En un mapa, te muestra los diferentes parámetros graficados, para que veas cual es la situación. Instalación My Weather Indicator no se encuentra en los repositorios oficiales de Ubuntu. Pero lo puedes instalar fácilmente añadiendo el repositorio oficial del atareao-team. Te recomiendo la lectura del artículo dedicado a My Weather Indicator. En este artículo te indico con detalle no solo como instalar la aplicación en Ubuntu y derivados. También te explico que opciones de configuración tienes. Más información en previsión meteorológica en Linux

Data Science at Home
How to cluster tabular data with Markov Clustering (Ep. 73)

Data Science at Home

Play Episode Listen Later Aug 20, 2019 20:43


In this episode I explain how a community detection algorithm known as Markov clustering can be constructed by combining simple concepts like random walks, graphs, similarity matrix. Moreover, I highlight how one can build a similarity graph and then run a community detection algorithm on such graph to find clusters in tabular data. You can find a simple hands-on code snippet to play with on the Amethix Blog  Enjoy the show!    References [1] S. Fortunato, “Community detection in graphs”, Physics Reports, volume 486, issues 3-5, pages 75-174, February 2010. [2] Z. Yang, et al., “A Comparative Analysis of Community Detection Algorithms on Artificial Networks”, Scientific Reports volume 6, Article number: 30750 (2016) [3] S. Dongen, “A cluster algorithm for graphs”, Technical Report, CWI (Centre for Mathematics and Computer Science) Amsterdam, The Netherlands, 2000. [4] A. J. Enright, et al., “An efficient algorithm for large-scale detection of protein families”, Nucleic Acids Research, volume 30, issue 7, pages 1575-1584, 2002.

Günlük Doz: Gündem Bülten, Haber, Tartışmalı Konular
13. Bölüm / Düet: Netflix Kapatılsın! Tabular neden yıkılıyor? LGBT ve SEX vurgusu neden?

Günlük Doz: Gündem Bülten, Haber, Tartışmalı Konular

Play Episode Listen Later Jun 4, 2019 35:13


13. Bölüm / Düet: Netflix Kapatılsın! Tabular neden yıkılıyor? Bu haftaki bölümse bir konuğumuz var, Seval Yaman. Kendisi çini seramik sanatçısı ve öğretmeni. Son zamanlarda Netflix'in sexi içerikleri neden arttı? LGBT vurgusu tavan yaptı? Fantaziler neden hava da uçuşuyor? Üzerimizde toplum mühendistliği mi yapılıyor? Sanatını icra ederken ailem ve arkadaşlarım ne düşünür diye otosansür uyguladın mı? --- Send in a voice message: https://anchor.fm/tonguc/message

Yoldayız Geliyor Musun?
SEN Parla Ki, Etrafın Aydınlansın // Yoldayız Geliyor Musun?

Yoldayız Geliyor Musun?

Play Episode Listen Later Mar 17, 2019 16:27


Ece bu bölümde insanın kendi içinde verdiği savaşlardan bahsetti. Hangi duygular senin, hangi duyguları başkasından sahiplendin? Sen özünde kimsin, bunu nasıl bulabilirsin? Düşüncelerin, tepkilerin, inançların ne demek oluyor? Ruhuna nasıl köklenebilirsin? Kendine yazdığın hikayeyi fark et çünkü neye inanıyorsan kendine o hayatı yaratıyorsun. Ve bu hayatı yaşarken korkma, büyük oyna. Sen parla ki, etrafın aydınlansın. İham ver, ilham al. Gelecek bölümleri kaçırmamak için abone olmayı unutmayın!Airbnb indirimi için tıkla.Ece'yi Instagram'da takip et

Az Önce Ne Dinledim Ben?
2 - Kadınlar ve Reklamlar

Az Önce Ne Dinledim Ben?

Play Episode Listen Later Mar 14, 2019 42:56


Merhabalar. Kadınlar gününe denk gelen bu özel bölümde, size feminizm, 8 Mart'ın market ekonomisinde hızlı yükselişi, çeşitli feminist içerikli reklamlar ve günümüz kadın sorunları hakkında naçizane fikirlerimizi sunuyoruz. Yine hem derin hem sığ, hem fişneci hem birleştirici, hem sinirli hem sakin karmaşık muhabbetimizi sunuyoruz. Bacılar ekleşiyor. Kara kutular açılıyor. Nice 8 Mart'lara emekçi bacılarımız! Tabuları yıkarız, bulaşıklara karışmayız.

The Polyglot Developer Podcast
TPDP022: NoSQL Databases and the Flexibility of a Non-Relational Model

The Polyglot Developer Podcast

Play Episode Listen Later Oct 2, 2018 45:18


In this episode I'm joined by Matt Groves, Senior Developer Advocate at the NoSQL database company, Couchbase. The focus of this episode is to become familiar with NoSQL and where it makes sense to use it in your projects, both new and old. Matt and explore numerous NoSQL database technologies which include Graph, Document, Key-Value, and Columnar, and look at the possible advantages they bring over the RDBMS alternative. I know Matt Groves from my time working with him at Couchbase. While Couchbase will be included in the episode, it is by no means the focus of the episode. A brief writeup to this episode can be found via https://www.thepolyglotdeveloper.com/2018/10/tpdp-e22-nosql-databases-flexibility-non-relational-model/

The NoSQL Database Podcast
NDP015: Cassandra and the Tabular Database

The NoSQL Database Podcast

Play Episode Listen Later Mar 14, 2017 37:02


In this episode I am joined by previous guest, Tim Berglund, from DataStax, where we discuss the NoSQL database Cassandra and how it fits versus the alternatives and relational databases.  Cassandra is a tabular database, sometimes referred to as a column database, something different than the previous database types discussed on the show.

MathsCasts
A further example of integration by parts using the tabular scheme (MathsCasts)

MathsCasts

Play Episode Listen Later Mar 5, 2017 6:48


Integration by parts is used to integrate the product of two polynomials.

RWpod - подкаст про мир Ruby и Web технологии
02 выпуск 05 сезона. State of the 2017 Rails Stack, Client Side Encryption, Opera Neon, Vuelidate, iTyped и прочее

RWpod - подкаст про мир Ruby и Web технологии

Play Episode Listen Later Jan 16, 2017 30:33


Добрый день уважаемые слушатели. Представляем новый выпуск подкаста RWpod. В этом выпуске: Ruby State of the 2017 Rails Stack, How requirements shaped my code, AKA Rails 5 and ActiveRecord before_destroy callbacks и Creating data backed tables with Tabular and Ruby on Rails Simple and Terrifying Encryption Story и Client Side Encryption (screencast) JavaScript Say hello to Opera Neon, our new concept browser, 5 web trends for 2017 и How to get a performance boost using WebAssembly Build Your Own Atom Theme with CSS, Vuelidate - simple, lightweight model-based validation for Vue.js 2.0, iTyped - dead simple Animated typing и Micromustache - small library covers the most important use case for Mustache templates

SwiftCoders: Interviews with Swift Developers
14: Jarod Long - Creator of Tabular for iPad & iOS Developer at Victorious

SwiftCoders: Interviews with Swift Developers

Play Episode Listen Later May 11, 2016 65:29


Jarod Long is the creator of Tabular, an iPad app for writing music, as well as an iOS Developer at Victorious in Santa Monica. Tabular - https://itunes.apple.com/us/app/tabular-mobile/id719462291?mt=8Victorious - http://victorious.com Questions, comments, or you just wanna say Hi? Contact your host @garricn on Twitter This episode was recorded using the Cast platform by @JulianLepinski. Wanna start your own podcast? Try Cast!

The Boagworld UX Show
Data, design and honest clients

The Boagworld UX Show

Play Episode Listen Later Jun 6, 2013 41:12


BİLİM KAZANI
Bölüm 5: Seksin Evrimi

BİLİM KAZANI

Play Episode Listen Later May 6, 2013


Tabular yıkılıyor, ayıplar bozuluyor! Bilim Kazanı Türk aile yapısını muhafaza etmeye yönelik yasaları hiçe sayarak bu bölüm KADIN, ERKEK ve SEKSİN EVRİMİNİ konuşuyor! Virüslerden insanlara kadar canlı-cansız herkes neden seks yapıyor? Alis’in Harikalar Diyarı’nda neler oluyor? Bağışıklık sistemi neden sekse muhtaç? Peki seksen milyon yıldır sekse tövbe etmiş Bdelloidler’in sırrı ne? Terliksi hayvanın Kama Sutra’sı […]

Vimcasts
Aligning text with Tabular.vim

Vimcasts

Play Episode Listen Later Jan 16, 2011 5:11


Dr Thompson's AP Calculus University High School
7.3 day 2 integration by parts (older version)

Dr Thompson's AP Calculus University High School

Play Episode Listen Later Feb 9, 2010 48:42


Integration by parts. Tabular integration and a problem involving an unknown integral is investigated.

integration older tabular integration by parts
MTH 222 Calculus 2 Fairman - Chapter 7
Section 7_2 (h) Tabular Integration

MTH 222 Calculus 2 Fairman - Chapter 7

Play Episode Listen Later Jun 18, 2008 3:56


Adventures in Machine Learning
Deep Learning for Tabular and Time Series Data - ML 104

Adventures in Machine Learning

Play Episode Listen Later Jan 1, 1970 68:33


Today we speak with a staff data scientist at Walmart who specializes in forecasting. He has built an open-source tool that allows you to leverage tabular data in PyTorch. He also has written a book on time series forecasting with deep learning.SponsorsChuck's Resume TemplateDeveloper Book Club startingBecome a Top 1% Dev with a Top End Devs MembershipLinks[2207.08548] GATE: Gated Additive Tree Ensemble for Tabular Classification and RegressionModern Time Series Forecasting with Python: Explore industry-ready time series forecasting using modern machine learning and deep learningLinkedIn: Manu JosephTwitter: @manujosephvGitHub: manujosephvAdvertising Inquiries: https://redcircle.com/brandsPrivacy & Opt-Out: https://redcircle.com/privacy