Podcasts about Feature engineering

  • 45PODCASTS
  • 56EPISODES
  • 53mAVG DURATION
  • 1MONTHLY NEW EPISODE
  • Apr 4, 2025LATEST

POPULARITY

20172018201920202021202220232024


Best podcasts about Feature engineering

Latest podcast episodes about Feature engineering

Pharmacy Friends
The research room – Decoding health outcomes (Part 2 -- On the road at AMCP Annual)

Pharmacy Friends

Play Episode Listen Later Apr 4, 2025 75:23


And here we are, at the Academy of Managed Care Pharmacy Annual for a 2nd year in row for a special “on the road” episode of Pharmacy Friends.  This year, AMCP is in Houston with more than 6,000 managed care pharmacy and health care industry professionals in attendance. And thought leaders from Prime Therapeutics are also on hand to present 7 research posters and several education sessions based on our integrated medical and pharmacy claims data. This episode will help you gain clarity on the real-world impact of GLP-1 drugs, understand how predictive modeling can help identify members enrolled in Medicare Part D at risk of large increases in prescription drug spending, and other trends shaping the health care industry.We also have two up and coming researchers share their experience taking their first steps in the managed care space and their careers. (00:00) Introduction(01:05) 2024 JMCP “Article of the Year” Award for Excellence(06:46) Latest GLP-1 research(15:56) Accelerated Drug Approval Program (28:00) PBM and Medical Pharmacy Industry Trends(41:17) Medicare Member Drug Cost Predictive Model: Creation and Feature Engineering (50:32) Advancing Health Equity in Food Allergy Prevention and Treatment: Bridging Gaps in Care and Knowledge(55:22) Legislative Impacts on Site of Service: What is the Big Deal?(1:00:07) The next generation of managed care professionals

IFTTD - If This Then Dev
#314.src - Au delà de la prédiction: Pousser les Limites de l'IA avec Vincent Maladiere

IFTTD - If This Then Dev

Play Episode Listen Later Mar 19, 2025 58:05


"C'est le travail sur ces sujets qui a permis toute ces avancées des LLMs"Le D.E.V. de la semaine est Vincent Maladiere, co-founder @ Probabl. Vincent et Bruno explorent le rôle des modèles prédictifs dans l'analyse des données et leur aptitude à dévoiler la causalité, avec un focus sur l'intelligence artificielle. Ils discutent également des avancées dans Scikit-Learn et de la nécessité de repérer les liens causaux dépassant une simple corrélation. Certains défis évoqués sont le biais de sélection, l'analyse de survie et les complications liées aux données manquantes. Le duo conclut en réitérant que, malgré les progrès des modèles de langage, ils devraient compléter, plutôt que remplacer, les méthodes traditionnelles. Vincent termine en soulignant l'importance de l'apprentissage continu.Chapitrages00:00:53 : Introduction à la Prédiction et Causalité00:01:34 : Présentation de Vincent00:03:16 : Concepts Mathématiques et Philosophiques00:03:27 : Découverte de Scikit-Learn00:06:38 : Évolution de Scikit-Learn vers l'Industrie00:07:45 : Signaux, Causalité et Modèles00:11:30 : Prédiction vs Causalité00:15:48 : Exemples de Causalité dans Divers Domaines00:20:11 : Évaluation de Tests A/B et Causalité00:28:52 : Automatisation des Décisions Basées sur des Modèles00:30:53 : Projet ROAS et Prédiction00:33:11 : Importance des Cohortes dans l'Analyse00:35:03 : La Notion de Survie en Statistiques00:43:12 : Feature Engineering et Causalité00:47:36 : L'Impact des LLM sur la Prédiction00:52:53 : Mélange de Techniques Traditionnelles et Modernes00:55:44 : Recommandations de Contenus00:56:29 : Conclusion et Remerciements Liens évoqués pendant l'émissionSilicon Valley**Recrutez les meilleurs développeurs grâce à Indeed !** "Trouver des développeurs compétents et passionnés, comme les auditeurs d'If This Then Dev, peut être un vrai défi. Avec Indeed, connectez-vous rapidement avec des candidats qualifiés qui sauront s'épanouir dans votre entreprise. Profitez dès maintenant d'un crédit de 100 euros pour sponsoriser votre offre d'emploi : go.indeed.com/IFTTD."🎙️ Soutenez le podcast If This Then Dev ! 🎙️ Chaque contribution aide à maintenir et améliorer nos épisodes. Cliquez ici pour nous soutenir sur Tipeee 🙏Archives | Site | Boutique | TikTok | Discord | Twitter | LinkedIn | Instagram | Youtube | Twitch | Job Board |Distribué par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.

Eye On A.I.
#239 Pedro Domingos Breaks Down The Symbolist Approach to AI

Eye On A.I.

Play Episode Listen Later Feb 17, 2025 48:12


This episode is sponsored by Thuma.   Thuma is a modern design company that specializes in timeless home essentials that are mindfully made with premium materials and intentional details.   To get $100 towards your first bed purchase, go to http://thuma.co/eyeonai In this episode of the Eye on AI podcast, Pedro Domingos—renowned AI researcher and author of The Master Algorithm—joins Craig Smith to break down the Symbolist approach to artificial intelligence, one of the Five Tribes of Machine Learning. Pedro explains how Symbolic AI dominated the field for decades, from the 1950s to the early 2000s, and why it's still playing a crucial role in modern AI. He dives into the Physical Symbol System Hypothesis, the idea that intelligence can emerge purely from symbol manipulation, and how AI pioneers like Marvin Minsky and John McCarthy built the foundation for rule-based AI systems. The conversation unpacks inverse deduction—the Symbolists' "Master Algorithm"—and how it allows AI to infer general rules from specific examples. Pedro also explores how decision trees, random forests, and boosting methods remain some of the most powerful AI techniques today, often outperforming deep learning in real-world applications. We also discuss why expert systems failed, the knowledge acquisition bottleneck, and how machine learning helped solve Symbolic AI's biggest challenges. Pedro shares insights on the heated debate between Symbolists and Connectionists, the ongoing battle between logic-based reasoning and neural networks, and why the future of AI lies in combining these paradigms. From AlphaGo's hybrid approach to modern AI models integrating logic and reasoning, this episode is a deep dive into the past, present, and future of Symbolic AI—and why it might be making a comeback. Don't forget to like, subscribe, and hit the notification bell for more expert discussions on AI, technology, and the future of intelligence!   Stay Updated: Craig Smith Twitter: https://twitter.com/craigss Eye on A.I. Twitter: https://twitter.com/EyeOn_AI   (00:00) Pedro Domingos onThe Five Tribes of Machine Learning   (02:23) What is Symbolic AI?   (04:46) The Physical Symbol System Hypothesis Explained   (07:05) Understanding Symbols in AI   (11:51) What is Inverse Deduction?   (15:10) Symbolic AI in Medical Diagnosis   (17:35) The Knowledge Acquisition Bottleneck   (19:05) Why Symbolic AI Struggled with Uncertainty   (20:40) Machine Learning in Symbolic AI – More Than Just Connectionism   (24:08) Decision Trees & Their Role in Symbolic Learning   (26:55) The Myth of Feature Engineering in Deep Learning   (30:18) How Symbolic AI Invents Its Own Rules   (31:54) The Rise and Fall of Expert Systems – The CYCL Project   (38:53) Symbolic AI vs. Connectionism   (41:53) Is Symbolic AI Still Relevant Today?   (43:29) How AlphaGo Combined Symbolic AI & Neural Networks   (45:07) What Symbolic AI is Best At – System 2 Thinking   (47:18) Is GPT-4o Using Symbolic AI?   

Machine Learning Street Talk
Speechmatics CTO - Next-Generation Speech Recognition

Machine Learning Street Talk

Play Episode Listen Later Oct 23, 2024 106:23


Will Williams is CTO of Speechmatics in Cambridge. In this sponsored episode - he shares deep technical insights into modern speech recognition technology and system architecture. The episode covers several key technical areas: * Speechmatics' hybrid approach to ASR, which focusses on unsupervised learning methods, achieving comparable results with 100x less data than fully supervised approaches. Williams explains why this is more efficient and generalizable than end-to-end models like Whisper. * Their production architecture implementing multiple operating points for different latency-accuracy trade-offs, with careful latency padding (up to 1.8 seconds) to ensure consistent user experience. The system uses lattice-based decoding with language model integration for improved accuracy. * The challenges and solutions in real-time ASR, including their approach to diarization (speaker identification), handling cross-talk, and implicit source separation. Williams explains why these problems remain difficult even with modern deep learning approaches. * Their testing and deployment infrastructure, including the use of mirrored environments for catching edge cases in production, and their strategy of maintaining global models rather than allowing customer-specific fine-tuning. * Technical evolution in ASR, from early days of custom CUDA kernels and manual memory management to modern frameworks, with Williams offering interesting critiques of current PyTorch memory management approaches and arguing for more efficient direct memory allocation in production systems. Get coding with their API! This is their URL: https://www.speechmatics.com/ DO YOU WANT WORK ON ARC with the MindsAI team (current ARC winners)? MLST is sponsored by Tufa Labs: Focus: ARC, LLMs, test-time-compute, active inference, system2 reasoning, and more. Interested? Apply for an ML research position: benjamin@tufa.ai TOC 1. ASR Core Technology & Real-time Architecture [00:00:00] 1.1 ASR and Diarization Fundamentals [00:05:25] 1.2 Real-time Conversational AI Architecture [00:09:21] 1.3 Neural Network Streaming Implementation [00:12:49] 1.4 Multi-modal System Integration 2. Production System Optimization [00:29:38] 2.1 Production Deployment and Testing Infrastructure [00:35:40] 2.2 Model Architecture and Deployment Strategy [00:37:12] 2.3 Latency-Accuracy Trade-offs [00:39:15] 2.4 Language Model Integration [00:40:32] 2.5 Lattice-based Decoding Architecture 3. Performance Evaluation & Ethical Considerations [00:44:00] 3.1 ASR Performance Metrics and Capabilities [00:46:35] 3.2 AI Regulation and Evaluation Methods [00:51:09] 3.3 Benchmark and Testing Challenges [00:54:30] 3.4 Real-world Implementation Metrics [01:00:51] 3.5 Ethics and Privacy Considerations 4. ASR Technical Evolution [01:09:00] 4.1 WER Calculation and Evaluation Methodologies [01:10:21] 4.2 Supervised vs Self-Supervised Learning Approaches [01:21:02] 4.3 Temporal Learning and Feature Processing [01:24:45] 4.4 Feature Engineering to Automated ML 5. Enterprise Implementation & Scale [01:27:55] 5.1 Future AI Systems and Adaptation [01:31:52] 5.2 Technical Foundations and History [01:34:53] 5.3 Infrastructure and Team Scaling [01:38:05] 5.4 Research and Talent Strategy [01:41:11] 5.5 Engineering Practice Evolution Shownotes: https://www.dropbox.com/scl/fi/d94b1jcgph9o8au8shdym/Speechmatics.pdf?rlkey=bi55wvktzomzx0y5sic6jz99y&st=6qwofv8t&dl=0

In Numbers We Trust - Der Data Science Podcast
#47: Von Prognosen und Prompts: Data Science trifft generative KI mit Tobias Sterbak

In Numbers We Trust - Der Data Science Podcast

Play Episode Listen Later May 16, 2024 46:28


In dieser Episode spricht Mira mit Tobias Sterbak, einem Freelance Machine Learning Engineer mit Fokus auf NLP-Anwendungen, über Data Science und generative KI. Wir vergleichen klassische Data Science-Methoden mit den neuesten KI-Ansätzen wie Large Language Models (LLMs). Ihr erfahrt, wie sich Datenbereitstellung, Validierung und Feature Engineering unterscheiden und welche Herausforderungen dabei auftreten. Außerdem gehen wir auf die Bedeutung der User Experience und die Schwierigkeiten bei der Bewertung der Modelle ein.   ***Links:*** Website von inwt: https://www.inwt-statistics.de Blog von Tobias Sterbak: https://www.depends-on-the-definition.com/ Website von Tobias Sterbak: https://tobiassterbak.com/ Ein Feuer auf der Tiefe (engl.: A Fire Upon the Deep) von Vernor Vinge https://de.wikipedia.org/wiki/Ein_Feuer_auf_der_Tiefe Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de

Generation AI
Predictive AI: The Art and Science of Student Engagement

Generation AI

Play Episode Listen Later Feb 27, 2024 50:28


This episode of the Generation AI podcast delves into the evolution and application of predictive AI within higher education, focusing on enrollment predictions and marketing. Hosts Ardis Kadiu and Dr. JC Bonilla explore machine learning's roots, its distinction from generative AI, and its critical role in modeling prospective student behaviors. They discuss the transition from demographic to behavioral data for more accurate predictions, the importance of model tuning and validation, and the future of AI in personalizing student engagement through autonomous agents. The conversation highlights the blend of art and science in feature selection and the significance of adopting models that are understood and trusted by users.Introduction to Predictive AIHosts Ardis Kadiu and Dr. JC Bonilla delve into predictive AI's history and its application in higher education, focusing on enrollment and marketing.They discuss predictive AI's evolution from advanced analytics and machine learning (ML) to its current state.Machine Learning BasicsExplanation of machine learning as pattern recognition and its importance in predictive AI.The transition from demographic to behavioral data for improved predictions.Model Building and ValidationThe process of model building, including feature selection, training, and validation.The importance of model tuning and validation for accurate predictions.Behavioral Data in Predictive ModelsShift towards using behavioral data for more nuanced and accurate predictions.How behavioral data surpasses demographic data in predicting student behaviors and interests.Feature Engineering and SelectionThe art and science of selecting the right features for predictive models.Discussion on the significance of domain knowledge in feature selection.Model Adoption and InterpretationChallenges in model adoption and the importance of model interpretability for end-users.How understanding and trust in the model's predictions are crucial for successful implementation.Future of Predictive AI in Higher EducationInsights into the future of predictive AI, focusing on personalized student engagement and autonomous agents.The potential of large language models and AI agents in transforming higher education marketing and enrollment strategies.Remember to follow us on your favorite podcast platform to not miss any episodes of "Generation AI." Reach out with any questions or topics you'd like us to cover in future episodes. We thrive on your feedback and are here to offer insights that resonate with you. Thank you for joining us on this AI journey! - - - -Connect With Our Co-Hosts:Ardis Kadiuhttps://www.linkedin.com/in/ardis/https://twitter.com/ardisDr. JC Bonillahttps://www.linkedin.com/in/jcbonilla/https://twitter.com/jbonillxAbout The Enrollify Podcast Network:Generation AI is a part of the Enrollify Podcast Network. If you like this podcast, chances are you'll like other Enrollify shows too! Some of our favorites include The EduData Podcast and Visionary Voices: The College President's Playbook.Enrollify is made possible by Element451 — the next-generation AI student engagement platform helping institutions create meaningful and personalized interactions with students. Learn more at element451.com. Connect with Us at the Engage Summit:Exciting news — Ardis will be at the 2024 Engage Summit in Raleigh, NC, on June 25 and 26, and would love to meet you there! Sessions will focus on cutting-edge AI applications that are reshaping student outreach, enhancing staff productivity, and offering deep insights into ROI. Use the discount code Enrollify50 at checkout, and you can register for just $99! This early bird pricing lasts until March 31. Learn more and register at engage.element451.com — we can't wait to see you there!

The Machine Learning Podcast
Using Generative AI To Accelerate Feature Engineering At FeatureByte

The Machine Learning Podcast

Play Episode Listen Later Feb 11, 2024 44:59


Summary One of the most time consuming aspects of building a machine learning model is feature engineering. Generative AI offers the possibility of accelerating the discovery and creation of feature pipelines. In this episode Colin Priest explains how FeatureByte is applying generative AI models to the challenge of building and maintaining machine learning pipelines. Announcements Hello and welcome to the Machine Learning Podcast, the podcast about machine learning and how to bring it from idea to delivery. Your host is Tobias Macey and today I'm interviewing Colin Priest about applying generative AI to the task of building and deploying AI pipelines Interview Introduction How did you get involved in machine learning? Can you start by giving the 30,000 foot view of the steps involved in an AI pipeline? Understand the problem Feature ideation Feature engineering Experiment Optimize Productionize What are the stages of that process that are prone to repetition? What are the ways that teams typically try to automate those steps? What are the features of generative AI models that can be brought to bear on the design stage of an AI pipeline? What are the validation/verification processes that engineers need to apply to the generated suggestions? What are the opportunities/limitations for unit/integration style tests? What are the elements of developer experience that need to be addressed to make the gen AI capabilities an enhancement instead of a distraction? What are the interfaces through which the AI functionality can/should be exposed? What are the aspects of pipeline and model deployment that can benefit from generative AI functionality? What are the potential risk factors that need to be considered when evaluating the application of this functionality? What are the most interesting, innovative, or unexpected ways that you have seen generative AI used in the development and maintenance of AI pipelines? What are the most interesting, unexpected, or challenging lessons that you have learned while working on the application of generative AI to the ML workflow? When is generative AI the wrong choice? What do you have planned for the future of FeatureByte's AI copilot capabiliteis? Contact Info LinkedIn (https://www.linkedin.com/in/colinpriest/?originalSubdomain=sg) Parting Question From your perspective, what is the biggest barrier to adoption of machine learning today? Closing Announcements Thank you for listening! Don't forget to check out our other shows. The Data Engineering Podcast (https://www.dataengineeringpodcast.com) covers the latest on modern data management. Podcast.__init__ () covers the Python language, its community, and the innovative ways it is being used. Visit the site (https://www.themachinelearningpodcast.com) to subscribe to the show, sign up for the mailing list, and read the show notes. If you've learned something or tried out a project from the show then tell us about it! Email hosts@themachinelearningpodcast.com (mailto:hosts@themachinelearningpodcast.com)) with your story. To help other people find the show please leave a review on iTunes (https://podcasts.apple.com/us/podcast/the-machine-learning-podcast/id1626358243) and tell your friends and co-workers. Links FeatureByte (https://featurebyte.com/) Generative AI (https://en.wikipedia.org/wiki/Generative_artificial_intelligence) The Art of War (https://en.wikipedia.org/wiki/The_Art_of_War) OCR == Optical Character Recognition (https://en.wikipedia.org/wiki/Optical_character_recognition) Genetic Algorithm (https://en.wikipedia.org/wiki/Genetic_algorithm) Semantic Layer (https://en.wikipedia.org/wiki/Semantic_layer) Prompt Engineering (https://en.wikipedia.org/wiki/Prompt_engineering) The intro and outro music is from Hitman's Lovesong feat. Paola Graziano (https://freemusicarchive.org/music/The_Freak_Fandango_Orchestra/Tales_Of_A_Dead_Fish/Hitmans_Lovesong/) by The Freak Fandango Orchestra (http://freemusicarchive.org/music/The_Freak_Fandango_Orchestra/)/CC BY-SA 3.0 (https://creativecommons.org/licenses/by-sa/3.0/)

The Cloudcast
Understanding Machine Learning Features and Platforms

The Cloudcast

Play Episode Listen Later Aug 16, 2023 47:32


Gaetan Castelein (@gaetcast, VP Marketing at @tectonai) talks about the complexities of building AI models, features and deploying AI into production for real-time applications. SHOW: 745CLOUD NEWS OF THE WEEK - http://bit.ly/cloudcast-cnotwNEW TO CLOUD? CHECK OUT - "CLOUDCAST BASICS"SHOW SPONSORS:AWS Insiders is an edgy, entertaining podcast about the services and future of cloud computing at AWS. Listen to AWS Insiders in your favorite podcast player. Cloudfix HomepageFind "Breaking Analysis Podcast with Dave Vellante" on Apple, Google and SpotifyKeep up to data with Enterprise Tech with theCUBEReduce the complexities of protecting your workloads and applications in a multi-cloud environment. Panoptica provides comprehensive cloud workload protection integrated with API security to protect the entire application lifecycle.  Learn more about Panoptica at panoptica.appSHOW NOTES:Tecton (homepage)State of Applied Machine Learning 2023 ReportHello Fresh adopts Tecton - Good article on features and feature storesWhat is real-time machine learning?Feature Platform vs. Feature StoreTopic 1 - Welcome to the show. Tell us a little bit about your backgroundTopic 2 - Let's start with some terminology. A lot of our listeners might be relatively new to Machine Learning. I'm still coming up to speed and I actually spent more time than usual just wrapping my head around the concepts and terms and piecing them all together. What is a feature? Why is it important? How many features does ChatGPT 3 have or ChatGPT4?Topic 3 - How is a feature different from a model? Both are needed, why?Topic 4 - I've always wondered exactly what a data scientist does. Is this where the term Feature Engineering comes into play? Who turns the data into features and picks the appropriate model? Topic 5 - Early Machine Learning was analytical ML (offline/batch), correct? How is that different from operational ML (online/batch) and real-time ML?Topic 6 - Now that we have all that out of the way. What is a Feature Platform? How does it integrate into an organization's existing Devops workflows and/or CI/CD pipelines? (Features as Code) How is it different from a Feature Store?Topic 7 - How do you know if the features + model yield a good result? How is prediction accuracy typically measured?FEEDBACK?Email: show at the cloudcast dot netTwitter: @thecloudcastnet

The AI Frontier Podcast
#30 - The Art of Feature Engineering: Crafting Input for Machine Learning Models

The AI Frontier Podcast

Play Episode Listen Later Aug 13, 2023 15:00


In this episode of "The AI Frontier," we delve into the fascinating world of feature engineering in machine learning. We start by understanding what feature engineering is and why it's crucial in machine learning. We then explore various techniques for feature engineering, from basic methods like binning and scaling to advanced concepts like automated feature engineering and feature selection. We also discuss how these techniques can be applied to different types of data, including text, images, and time-series data. To bring these concepts to life, we examine a real-world case study that demonstrates the power of feature engineering in improving machine learning models. This episode is a must-listen for anyone interested in machine learning, data science, or AI. Join us as we navigate the art of crafting input for machine learning models.------------References Used in This Episode:1.    Zhou B, Pychynski T, Reischl M, Kharlamov E, Mikut R. Machine learning with domain knowledge for predictive quality monitoring in resistance spot welding. Journal of Intelligent Manufacturing. 2022. [Link]Support the Show.Keep AI insights flowing – become a supporter of the show!Click the link for details

Data Engineering Podcast
Reduce Friction In Your Business Analytics Through Entity Centric Data Modeling

Data Engineering Podcast

Play Episode Listen Later Jul 9, 2023 72:54


Summary For business analytics the way that you model the data in your warehouse has a lasting impact on what types of questions can be answered quickly and easily. The major strategies in use today were created decades ago when the software and hardware for warehouse databases were far more constrained. In this episode Maxime Beauchemin of Airflow and Superset fame shares his vision for the entity-centric data model and how you can incorporate it into your own warehouse design. Announcements Hello and welcome to the Data Engineering Podcast, the show about modern data management Introducing RudderStack Profiles. RudderStack Profiles takes the SaaS guesswork and SQL grunt work out of building complete customer profiles so you can quickly ship actionable, enriched data to every downstream team. You specify the customer traits, then Profiles runs the joins and computations for you to create complete customer profiles. Get all of the details and try the new product today at dataengineeringpodcast.com/rudderstack (https://www.dataengineeringpodcast.com/rudderstack) Your host is Tobias Macey and today I'm interviewing Max Beauchemin about the concept of entity-centric data modeling for analytical use cases Interview Introduction How did you get involved in the area of data management? Can you describe what entity-centric modeling (ECM) is and the story behind it? How does it compare to dimensional modeling strategies? What are some of the other competing methods Comparison to activity schema What impact does this have on ML teams? (e.g. feature engineering) What role does the tooling of a team have in the ways that they end up thinking about modeling? (e.g. dbt vs. informatica vs. ETL scripts, etc.) What is the impact on the underlying compute engine on the modeling strategies used? What are some examples of data sources or problem domains for which this approach is well suited? What are some cases where entity centric modeling techniques might be counterproductive? What are the ways that the benefits of ECM manifest in use cases that are down-stream from the warehouse? What are some concrete tactical steps that teams should be thinking about to implement a workable domain model using entity-centric principles? How does this work across business domains within a given organization (especially at "enterprise" scale)? What are the most interesting, innovative, or unexpected ways that you have seen ECM used? What are the most interesting, unexpected, or challenging lessons that you have learned while working on ECM? When is ECM the wrong choice? What are your predictions for the future direction/adoption of ECM or other modeling techniques? Contact Info mistercrunch (https://github.com/mistercrunch) on GitHub LinkedIn (https://www.linkedin.com/in/maximebeauchemin/) Parting Question From your perspective, what is the biggest gap in the tooling or technology for data management today? Closing Announcements Thank you for listening! Don't forget to check out our other shows. Podcast.__init__ (https://www.pythonpodcast.com) covers the Python language, its community, and the innovative ways it is being used. The Machine Learning Podcast (https://www.themachinelearningpodcast.com) helps you go from idea to production with machine learning. Visit the site (https://www.dataengineeringpodcast.com) to subscribe to the show, sign up for the mailing list, and read the show notes. If you've learned something or tried out a project from the show then tell us about it! Email hosts@dataengineeringpodcast.com (mailto:hosts@dataengineeringpodcast.com)) with your story. To help other people find the show please leave a review on Apple Podcasts (https://podcasts.apple.com/us/podcast/data-engineering-podcast/id1193040557) and tell your friends and co-workers Links Entity Centric Modeling Blog Post (https://preset.io/blog/introducing-entity-centric-data-modeling-for-analytics/?utm_source=pocket_saves) Max's Previous Apperances Defining Data Engineering with Maxime Beauchemin (https://www.dataengineeringpodcast.com/episode-3-defining-data-engineering-with-maxime-beauchemin) Self Service Data Exploration And Dashboarding With Superset (https://www.dataengineeringpodcast.com/superset-data-exploration-episode-182) Exploring The Evolving Role Of Data Engineers (https://www.dataengineeringpodcast.com/redefining-data-engineering-episode-249) Alumni Of AirBnB's Early Years Reflect On What They Learned About Building Data Driven Organizations (https://www.dataengineeringpodcast.com/airbnb-alumni-data-driven-organization-episode-319) Apache Airflow (https://airflow.apache.org/) Apache Superset (https://superset.apache.org/) Preset (https://preset.io/) Ubisoft (https://www.ubisoft.com/en-us/) Ralph Kimball (https://en.wikipedia.org/wiki/Ralph_Kimball) The Rise Of The Data Engineer (https://www.freecodecamp.org/news/the-rise-of-the-data-engineer-91be18f1e603/) The Downfall Of The Data Engineer (https://maximebeauchemin.medium.com/the-downfall-of-the-data-engineer-5bfb701e5d6b) The Rise Of The Data Scientist (https://flowingdata.com/2009/06/04/rise-of-the-data-scientist/) Dimensional Data Modeling (https://www.thoughtspot.com/data-trends/data-modeling/dimensional-data-modeling) Star Schema (https://en.wikipedia.org/wiki/Star_schema) Database Normalization (https://en.wikipedia.org/wiki/Database_normalization) Feature Engineering (https://en.wikipedia.org/wiki/Feature_engineering) DRY == Don't Repeat Yourself (https://en.wikipedia.org/wiki/Don%27t_repeat_yourself) Activity Schema (https://www.activityschema.com/) Podcast Episode (https://www.dataengineeringpodcast.com/narrator-exploratory-analytics-episode-234/) Corporate Information Factory (https://amzn.to/3NK4dpB) (affiliate link) The intro and outro music is from The Hug (http://freemusicarchive.org/music/The_Freak_Fandango_Orchestra/Love_death_and_a_drunken_monkey/04_-_The_Hug) by The Freak Fandango Orchestra (http://freemusicarchive.org/music/The_Freak_Fandango_Orchestra/) / CC BY-SA (http://creativecommons.org/licenses/by-sa/3.0/)

Data Engineering Podcast
How Data Engineering Teams Power Machine Learning With Feature Platforms

Data Engineering Podcast

Play Episode Listen Later Jul 3, 2023 63:29


Summary Feature engineering is a crucial aspect of the machine learning workflow. To make that possible, there are a number of technical and procedural capabilities that must be in place first. In this episode Razi Raziuddin shares how data engineering teams can support the machine learning workflow through the development and support of systems that empower data scientists and ML engineers to build and maintain their own features. Announcements Hello and welcome to the Data Engineering Podcast, the show about modern data management Introducing RudderStack Profiles. RudderStack Profiles takes the SaaS guesswork and SQL grunt work out of building complete customer profiles so you can quickly ship actionable, enriched data to every downstream team. You specify the customer traits, then Profiles runs the joins and computations for you to create complete customer profiles. Get all of the details and try the new product today at dataengineeringpodcast.com/rudderstack (https://www.dataengineeringpodcast.com/rudderstack) Your host is Tobias Macey and today I'm interviewing Razi Raziuddin about how data engineers can empower data scientists to develop and deploy better ML models through feature engineering Interview Introduction How did you get involved in the area of data management? What is feature engineering is and why/to whom it matters? A topic that commonly comes up in relation to feature engineering is the importance of a feature store. What are the tradeoffs for that to be a separate infrastructure/architecture component? What is the overall lifecycle of a feature, from definition to deployment and maintenance? How is this distinct from other forms of data pipeline development and delivery? Who are the participants in that workflow? What are the sharp edges/roadblocks that typically manifest in that lifecycle? What are the interfaces that are needed for data scientists/ML engineers to be able to self-serve their feature management? What is the role of the data engineer in supporting those interfaces? What are the communication/collaboration channels that are necessary to make the overall process a success? From an implementation/architecture perspective, what are the patterns that you have seen teams build around for feature development/serving? What are the most interesting, innovative, or unexpected ways that you have seen feature platforms used? What are the most interesting, unexpected, or challenging lessons that you have learned while working on feature engineering? What are the resources that you find most helpful in understanding and designing feature platforms? Contact Info LinkedIn (https://www.linkedin.com/in/razi-raziuddin-7836301/) Parting Question From your perspective, what is the biggest gap in the tooling or technology for data management today? Closing Announcements Thank you for listening! Don't forget to check out our other shows. Podcast.__init__ (https://www.pythonpodcast.com) covers the Python language, its community, and the innovative ways it is being used. The Machine Learning Podcast (https://www.themachinelearningpodcast.com) helps you go from idea to production with machine learning. Visit the site (https://www.dataengineeringpodcast.com) to subscribe to the show, sign up for the mailing list, and read the show notes. If you've learned something or tried out a project from the show then tell us about it! Email hosts@dataengineeringpodcast.com (mailto:hosts@dataengineeringpodcast.com)) with your story. To help other people find the show please leave a review on Apple Podcasts (https://podcasts.apple.com/us/podcast/data-engineering-podcast/id1193040557) and tell your friends and co-workers Links FeatureByte (https://featurebyte.com/) DataRobot (https://www.datarobot.com/) Feature Store (https://www.featurestore.org/) Feast Feature Store (https://feast.dev/) Feathr (https://github.com/feathr-ai/feathr) Kaggle (https://www.kaggle.com/) Yann LeCun (https://en.wikipedia.org/wiki/Yann_LeCun) The intro and outro music is from The Hug (http://freemusicarchive.org/music/The_Freak_Fandango_Orchestra/Love_death_and_a_drunken_monkey/04_-_The_Hug) by The Freak Fandango Orchestra (http://freemusicarchive.org/music/The_Freak_Fandango_Orchestra/) / CC BY-SA (http://creativecommons.org/licenses/by-sa/3.0/)

In Numbers We Trust - Der Data Science Podcast
#25: Feature Store: Features als wiederverwendbares Datenprodukt

In Numbers We Trust - Der Data Science Podcast

Play Episode Listen Later May 25, 2023 38:52


Feature Stores sind aktuell ein Trend im Bereich MLOps (Machine Learning Operations). Sie zielen darauf ab das Feature Engineering einfacher und schneller zu machen. Um Features nicht in jedem Projekt neu aufzubauen, bietet ein Feature Store die Möglichkeit sie quasi fertig aus dem Regal zu nehmen. Sinnvoll ist dies besonders wenn eine hohe Data Maturity vorhanden ist, d.h. wenn viele Modelle auf Features zugreifen und es viele Überschneidungen gibt.  Links: - https://mlops.community/learn/feature-store/ - https://docs.databricks.com/machine-learning/feature-store/online-feature-stores.html

AI Today Podcast: Artificial Intelligence Insights, Experts, and Opinion
AI Today Podcast: AI Glossary Series – Bias, Weight, Activation Function, Convergence, and ReLU

AI Today Podcast: Artificial Intelligence Insights, Experts, and Opinion

Play Episode Listen Later Apr 12, 2023 13:10


In this episode of the AI Today podcast hosts Kathleen Walch and Ron Schmelzer define the terms Bias, Weight, Activation Function, Convergence, and ReLU and explain how they relate to AI and why it's important to know about them. Show Notes: FREE Intro to CPMAI mini course CPMAI Training and Certification AI Glossary AI Glossary Series – Machine Learning, Algorithm, Model Glossary Series: Machine Learning Approaches: Supervised Learning, Unsupervised Learning, Reinforcement Learning Glossary Series: Dimension, Curse of Dimensionality, Dimensionality Reduction Glossary Series: Feature, Feature Engineering Glossary Series: (Artificial) Neural Networks, Node (Neuron), Layer Continue reading AI Today Podcast: AI Glossary Series – Bias, Weight, Activation Function, Convergence, and ReLU at AI & Data Today.

PaperPlayer biorxiv neuroscience
Feature engineering benchmark for motor relateddecoding through ECoG signals

PaperPlayer biorxiv neuroscience

Play Episode Listen Later Apr 2, 2023


Link to bioRxiv paper: http://biorxiv.org/cgi/content/short/2023.04.01.535201v1?rss=1 Authors: Jain, R., Jaiman, P., Baths, V. Abstract: Invasive Brain Computer Interface (BCI) systems through Electrocorticographic (ECoG) signals require efficient recognition of spatio-temporal patterns from a multi electrodes sensor array. Such signals are excellent candidates for automated pattern recognition through machine learning algorithms. However, the available data is limited due to the operative procedure required for such dataset creation. The importance of different temporal signatures and individual electrodes can be analyzed through feature extraction techniques. But, the variability of the signal due to non-stationarity is ignored while extracting features and which features to use can be challenging to figure out by visual inspection. In this study, we introduce the signal split parameter to account for the variability of the signal, and we use genetic selection, which allows the selection of the optimal combination of features from a pool of 8 different feature sets. Copy rights belong to original authors. Visit the link for more info Podcast created by Paper Player, LLC

AI Today Podcast: Artificial Intelligence Insights, Experts, and Opinion
AI Today Podcast: AI Glossary Series – Feature and Feature Engineering

AI Today Podcast: Artificial Intelligence Insights, Experts, and Opinion

Play Episode Listen Later Mar 31, 2023 11:00


For time-consuming parts of the machine learning workflow people often look for tricks and techniques to help speed up the process. In this episode of the AI Today podcast hosts Kathleen Walch and Ron Schmelzer define the terms feature and feature engineering, explain how they relate to AI and why it's important to know about them. Continue reading AI Today Podcast: AI Glossary Series – Feature and Feature Engineering at AI & Data Today.

Society of Actuaries Podcasts Feed
Emerging Topics Community: Y-aware Feature Engineering with High Cardinality Features (Part 2 of 4)

Society of Actuaries Podcasts Feed

Play Episode Listen Later Jan 31, 2023 19:46


This is the second in a 4-part series where Anders Larson and Shea Parkes discuss predictive analytics with high cardinality features.  In this episode they focus on y-aware feature engineering.  Y-aware feature engineering is all about carefully bleeding information from your training response back into your engineered features without grossly misrepresenting your ability to generalize to new data.

The PolicyViz Podcast
Episode #227: Max Kuhn

The PolicyViz Podcast

Play Episode Listen Later Nov 22, 2022 37:45


Max Kuhn is a software engineer at RStudio. He is currently working on improving R's modeling capabilities and maintains about 30 packages, including caret. He was a Senior Director of Nonclinical Statistics at Pfizer Global R&D in Connecticut. He was applying models in the pharmaceutical and diagnostic industries for over 18 years. Max has a Ph.D. in Biostatistics. He, and Kjell Johnson, wrote the book Applied Predictive Modeling, which won the Ziegel award from the American Statistical Association, which recognizes the best book reviewed in Technometrics in 2015. Their second book, Feature Engineering and Selection, was published in 2019 and his book with Julia Silge, Tidy Models with R, was published in 2022. Episode Notes Website at RStudio: https://www.rstudio.com/authors/max-kuhn/Twitter: https://twitter.com/topeposGithub: https://github.com/topepo R Packages:autoMLcaretQuartoRMarkdowntidymodelstidyverse Books from Max:Tidy Modeling with R: A Framework for Modeling in the TidyverseApplied Predictive ModelingFeature Engineering and Selection R for Data Science: Import, Tidy, Transform, Visualize, and Model Data by Garrett Grolemund and Hadley Wickham Related Episodes Episode #225: Julia SilgeEpisode #212: Dr. Cedric SchererEpisode #210: Dr. Tyler Morgan-WallEpisode #207: Tom MockEpisode #150: Learning REpisode #69: Hadley Wickham iTunes

Artificial Intelligence in Industry with Daniel Faggella
[AI Success Factors] - Feature Engineering as a Key to AI ROI - with Chris Joynt of PTC

Artificial Intelligence in Industry with Daniel Faggella

Play Episode Listen Later May 2, 2022 20:34


Today in our latest AI Success Factors series episode, we are focusing on the world of heavy industry while highlighting lessons that can be applied any and everywhere. Our guest this week and Chris Joynt, AIoT Co-innovation Leader for the Solutions Group at PTC. PTC is a software firm based in the Boston area. In this episode, Chris discusses what it takes to measure ROI across several different dimensions. He also emphasizes the importance of feature engineering, what it is from a conceptual point of view, and how to use subject-matter experts to handle feature engineering and bring out elements of the data that can support enterprise leaders in their decisions. This episode is sponsored by PTC. If you'd like to learn more about reaching Emerj's global executive audience through our podcasts, newsletters, and more, visit emerj.com/ad1.

The Data Scientist Show
Feature engineering, ML models in production, new trend for ML tools, day-to-day of a principal engineer with Willem Pienaar - The Data Scientist Show #031

The Data Scientist Show

Play Episode Listen Later Mar 24, 2022 96:24


Willem is the creator of Feast, an open-source feature store (feast.dev), building tools at the intersection of engineering, data, and ML. Currently, he work as a Principal engineer at Tecton, Leading the development of Feast, an open source feature store. Previously, he has worked in South Africa, Thailand, Singapore before he moved to San Francisco in the US. Today we'll talk about machine learning in production, cool projects he worked, machine learning in startup and how to pick the right data science track for your career. Follow Daliana @DalianaLiu for more on data science and this podcast. Give me a 5-star review if you enjoy the show :) Willem's Linkedin:https://www.linkedin.com/in/willempienaar/

The Python Podcast.__init__
Build Composable And Reusable Feature Engineering Pipelines with Feature-Engine

The Python Podcast.__init__

Play Episode Listen Later Oct 31, 2021 53:29


Every machine learning model has to start with feature engineering. This is the process of combining input variables into a more meaningful signal for the problem that you are trying to solve. Many times this process can lead to duplicating code from previous projects, or introducing technical debt in the form of poorly maintained feature pipelines. In order to make the practice more manageable Soledad Galli created the feature-engine library. In this episode she explains how it has helped her and others build reusable transformations that can be applied in a composable manner with your scikit-learn projects. She also discusses the importance of understanding the data that you are working with and the domain in which your model will be used to ensure that you are selecting the right features.

Data Brew by Databricks
Data Brew Season 2 Episode 8: Feature Engineering

Data Brew by Databricks

Play Episode Listen Later Jul 9, 2021 31:17 Transcription Available


For our second season of Data Brew, we will be focusing on machine learning, from research to production. We will interview folks in academia and industry to discuss topics such as data ethics, production-grade infrastructure for ML, hyperparameter tuning, AutoML, and many more.Is there ever a “one-size fits all” approach for feature engineering? Find out this and more with Amanda Casari and Alice Zheng, co-authors of the Feature Engineering for Machine Learning book.See more at databricks.com/data-brew

Psyda Podcast with Minhaaj
Interpretable Machine Learning with Serg Masis

Psyda Podcast with Minhaaj

Play Episode Listen Later May 15, 2021 122:08


Serg Masis is the author of best-selling book 'Interpretable Machine Learning with Python' and senior Data Scientist at Sygenta. He has mentored many data scientists around the world. Timestamps: 00:00 intro 08:30 Old 4.77 MH z Computer, Late 80s and Programming 11:51 Fairness, Accountability and Transparency in Machine Learning, Startup and Harvard 16:33 Fairness vs Preciseness, Bias and Variance Tradeoff, Are Engineers to blame? 21:43 Mask-Detection Problem in Coded-Bias, Biased Samples, Surveillance using CV 32:38 Fixing Biased Datasets, Augmenting Data and Limitations 37:39 Algorithmic Optimisation and Explainability 40:51 Eric Schmidt on Behavioral Prediction, SHAP values, Tree and DeepExplainers 44:50 Challenges of using SHAP and LIME & Big Data 49:37 GPT3, Large Models and ROI on Explainability 01:00:00 TCAS, Collision Risks and Interpretability, Ransom Attacks 01:08:09 Guitar, Bass, and Led Zepplin 01:09:31 Birth Order and IQ, Science vs Folk Wisdom 01:13:30 Reverse Discrimination & Men, Bias in Child Custody, Prison Sentences, and Incarceration 01:23:11 Receidivism to Criminal Behaviour, Ethnic over-representation & Systematic Racism 01:24:44 Human Judges vs AI, Absolute Fairness, Food and Parole 01:30:20 Face Detection in China, Privacy vs Convenience, Feature Engineering and Model Parsimony 01:35:51 Sparsity, Interaction Effects, and Multicollinearity 01:38:23 Four levels of Global and Local Predictive Explainability 01:43:17 Recursive and Sequential Feature Selection 01:47:42 Ensemble, Blended and Stacked Models and Interpretability 01:53:45 In-Processing and Post-Processing Bias Mitigation 01:57:00 Future of Interpretable AI

Reversim Podcast
409 ML Real World Usage with Noam from Pecan

Reversim Podcast

Play Episode Listen Later May 2, 2021


בפרק מספר 409 אנחנו מתכבדים לארח את נועם מחברת פקאן - שלום נועם, ברוך הבא!(נועם) שלום, תודה רבה(רן) ברוך הבא לצפון הקר, אחרי שעשית את דרכך אלינו - למי שלא יודע, אנחנו בדרך כלל מקליטים מהבית של אורי בכרכור, בלילה, בשעה 2100+ בערב, זאת השעה שלנו להקליט פודקאסטים . . .(אורי) בדרך כלל האורחים שלנו מגיעים טרוטי-עיניים מנסיעה מהמרכז . . .(נועם) אבל אני חייב להגיד שמציאים פה קפה מצויין, אז ממליץ בחום לבוא.(רן) תודה . . . אז לכל מי שמאזין - בואו לאורי, לקפה [קופון לא יצורף בסוף הפרק].(אורי) ואם אתם יכולים להביא פקאן בדרך, אז גם טוב.(רן) כן, הבאנו פקאנים . . . אז פקאן זו חברה שעוסקת, כמובן, בגידול פקאנים . . . (אורי) והתחלנו לפצח פה [מוזמנים לדמיין אפקטים של פיצוח](רן) אז בוא, נועם - ספר לנו - עליך, על הרקע האישי שלך, ועל פקאן, על מה שאתם עושים.משם כבר נצלול אל הנושא המרכזי של הפרק, שעוסק - נעשה לכם פה ספויילר - בתחום של Machine Learning והעולם האמיתי.אז קודם עליך נועם - מאיפה באת?(נועם) אז התחלתי . . . הכל התחיל שם, איפשהו בתקופה של הצבא, כמה מפתיע - 8200, הייתי במה שנקרא “אתגרים”לפי מקורות זרים - ורק מקורות זרים - זה בעצם עולם הסייבר [לכאורה].ככה התחיל עולם הסייבר של 8200 - הייתה תקופה מדהימה, קבוצה קטנה כזאת, הרגיש ממש כזו סטארטאפ בתוך היחידה, היינו הולכים על אזרחי . . .ושם הכל התחיל מבחינתי, ממש שם התחילה הקריירה - הייתי ראש צוות פיתוח.ובעצם, משם התגלגלתי, אחרי שהשתחררתי, לתוך עולם הדאטה - במשך 7 שנים ייעצתי להמון חברות פה בארץ - אם זה חברות ענק כמו בנקים וגם לסטארטאפים, על איך לבנות Infrastructure, בעצם לייעל שאילתות.ונכנסתי ככה עמוק לתוך עולם הדאטה, וזה היה מרתק - באמת עולם שהוא, כמו שאתם יודעים, מאוד מגוון ועם המון Use Cases, ונדבר על זה כמובן בהמשך כי זה כמובן רלוונטי.בעצם משם - ותיכף אני מגיע לפקאן - בעצם עשיתי תואר שני ודוקטורט בתחום של מדעי המוח ומה שנקרא Computational Neuroscience - שזה בעצם מודלים, שמסבירים איך המוח ואיך רשתות ומשפחות של נוירונים מייצרים פעילות.(רן) זאת אומרת - התחלת מרקע סופר-טכני, Security ו-Databases וכאלה - והלכת לאקדמיה, והיום אתה, ככה, איפשהו באמצע, אני מנחש - גם מבין את הצד העסקי, כי עבדת עם הרבה לקוחות כאלה, מבין מה הם רוצים ומה האילוצים שלהם, וגם אתה מביא את הרקע התיאורטי והאקדמאי בסיפור הזה.(אורי) אגב, איפה לומדים או איפה עושים כאלה תארים - בארץ?(נועם) בטח - בארץ, באוניברסיטת תל אביבהתואר הזה היה באוניברסיטת תל אביב, יש שם חבר’ה מאוד חזקים בתחום של Computational Neuroscience, יש את בית ספר סגול, שממש מוביל את זה.וזה באמת על התפר - ואני נורא אוהב את זה, רן - זה על התפר הזה, וזה גם מה שכל כך דיבר אליזה התפר שבין, מצד אחד, עולם המחשבים - יש פה איזשהו חיבור בין מחשבים לבין עניין באמת תיאורטי, מחקרי, מוח, באיזשהו מקוםכשכמובן שהחיבור ביניהם נופל לתוך Machine Learning, וככה באמת דברים התגלגלו להם.(רן) אז היום אתה בפקאן - ספר לנו קצת על מה שאתה עושה שם ומה עושה החברה(נועם) אז אולי אני אספר איך הפקאן נולד לו . . . באמת, בעצם זה התחיל, אם טיפה נחזור לתואר השני - על היום הראשון של התואר השני אני פוגש איש יקר שקוראים לו זוהר - ואנחנו מתחברים, ניהיים חברים מאוד טוביםלמעשה, את כל הדוקטורט עשינו ביחד, את כל המאמרים שפרסמנו - פרסמנו ביחדובעצם עם זוהר, שהיה לנו את החיבור הזה, סיימנו את כל מה שהיינו צריכים ל-PhD ואמרנו “אוקיי - מה עכשיו? מה הצעד הבא?”ואני זוכר הליכה, ככה, שאנחנו עושים באוניברסיטה, וזוהר אומר שתמיד היה לו חלום לעשות AI - ואז אמרנו שחלומות חייבים להגשים.אנחנו שוכרים חדר קטן מול האוניברסיטה - ומתחילים לעשות מחקר.וככה מתגלגלים בעצם לתוך פקאן.מה זה פקאן? מה זה כל הסיפור?הרעיון - זה מה שאנחנו מבינים בתחילת הדרך - זה שלייצר מודלים של Machine Learning, מודלים פרדקטיביים (Predictive), זה מאתגר, זה לא דבר פשוט.וזה דורש, כמובן, Data Science ו-Data Scientists שמכירים מאוד טוב את המקצוע, ורק הם יכולים באמת לייצר את אותם מודלים נחשקים, שיעזרו אחר כך כדי בעצם לקחת את העסק שלנו, ולהביא את אותם ניבויים - כדי שנוכל לייעל את העסק, ולהביא באמת למקום שהוא טוב יותר.(אורי) אבל אנחנו מדברים לא רק על Data Scientist שמכיר את עולם ה-Data Science, ומביא ניסיון משם, אלא גם צריכים להכיר את ה-Domain, את עולם הבעיה.(נועם) מדהים, בדיוק - זאת נקודה כל כך משמעותית, וזה מה שהביא אותנו לפקאןבעצם, מה אנחנו עושים בפקאן? פקאן מיועדת לא ל-Data Scientists, זאת נקודה נורא חשובה - היא מיועדת ל Data Analystsהיא דווקא מאפשרת בדיוק לאותם אנשים, שמגיעים בדיוק מתוך . . . כמו שאמרת - אתה צריך להכיר את עולם התוכן, זה לא מספיק שאתה יודע Data Scienceאתה צריך להכיר את עולם התוכן שבו אתה פועל - ובאמת פקאן בדיוק מיועדת לאנליסטים, שמכירים מאוד טוב את עולם התוכן, אבל לא מכירים מספיק טוב סטטיסטיקה, לא יודעים . . . בעצם, אין להם את הכלים כדי לייצר מודלים פרדיטיביים (Predictive) - והיופי של פקאן זה שאין צורך לדעת בעצם Data Science, על מנת לייצר מודלים.זו בעצם פלטרפורמה ראשונה שבאמת מאפשרת לאנליסטים - ולא ל-Data Scientists - לייצר מודלים פרדיקטיביים של Machine Learning, וזה מה שכל כך מיוחד בפלטפורמה.(רן) בוא ניקח כמה דוגמאות, זאת אומרת - אנחנו יודעים, בעולם, שמודלים של Machine Learning יודעים לנהוג במכוניות - ככה-ככה, לא תמיד זה עובד - יודעים לראות תמונות ולהבין, לפעמים לצייר ציורים, יודעים לפרש Natural Language , יודעים הרבה מאוד דברים - אבל אלו עולמות שונים לגמרי, כל עולם ומלואו שונה לחלוטין מהשני.יש בתחומים העסקיים דברים כמו מידול של התנהגות לקוחות, גם בנושא של קמפיינים יש לא מעט . . . מכל הדברים הגדולים האלה, מה פקאן יודעים לעשות?(נועם) אז זו נקודה מצויינת, ואגב - כשיצאנו לעולם, ראינו שבאמת כל אחד, כשמדברים על AI וזה כל כך פופלארי וזו כזו Buzzword - לכל אחד יש משהו אחר בראש, ובאמת יש כל כך הרבה סוגי מודלים.אז בפקאן, אנחנו קודם כל מתמקדים, מבחינת הנתונים, ה-Data, במה שנקרא Tabular Data - דאטה שיושב בעצם בתוך מאגרי הנתונים.לא מדובר בתמונות אלא באמת במידע טבלאי, שאיתו בעצם אנחנו מייצרים ניבוייםעכשיו, מהו בעצם עולם התוכן שאנחנו לרוב מתעסקים בו בפקאן? אז עולם התוכן שמתעסקים בו בפקאן זה . . .קודם כל, יש מגוון רחב של שאלות שאפשר לענות עליהן, זו פלטפורמה גנריתאבל אם נראה איפה האיזורים שאנחנו מתמקדים בהם, אז מצד אחד אנחנו מדברים על העולמות של עבודה מול לקוחות, Customersלזהות, בעצם, מראש את אותם לקוחות שינטשו - מה שנקרא Churn Predictionאו לדוגמא לזהות מראש מי הם אותם לקוחות שיהיו לנו הכי טובים, כי אנחנו רוצים מראש כמובן לדעת את זה - אנחנו מדברים על ניבוי של מה שנקרה High Value Customersו-Lifetime Value -כל אותם מודלים שמתעסקים בלקוחות.אבל זו משפחה אחת, יש עוד משפחות שאפשר לעשות בפקאן, לדוגמא, סתם כדוגמא - אנחנו מדברים על עולם של Inventory Control, ניהול מלאי.כמובן שבשביל לדעת על המלאי, איך צריך לנהל אותו, צריך מה שנקרא Demand Forecasting, להבין איך המכירות שלנו יהיו.מה שיפה בפקאן זה שיש פה אוסף של שאלות שאפשר לשאול, מהמון סוגים, ומה שבנינו בעצם בפלטרפורמה זה משהו . . . אנחנו קוראים לזה Templates או Use Cases, שמנווטים את ה-User, בעצם לאפשר ולענות של השאלות האלה בצורה מאוד מאוד פשוטה.(רן) אפשר לעשות את זה בצורה כל כך גנרית? זאת אומרת - נגיד, מודל של Customer Live Value Prediction עבור לקוחות - אני מניח שהוא מאוד שונה בין חברת מוניות לבין חנות או מסעדה או כל ביזנס אחר.אפשר באמת לבנות מודל שהוא כזה גנרי, ולמכור את זה ללקוחות כל כך שונים?(נועם) שאלה מדהימה - וזה באמת . . . אגב, בתחילת הדרך, נורא היינו עסוקים בשאלה הזאת.אחד הדברים שהבנו זה קודם כל שזה לא מודל אחד, שאנחנו באים איתו מראש - כל היופי של הפלטפורמה זה שהפלטפורמה מתחברת [ברברס?] לנתונים, לומדת את הנתונים - ובעצם מאמנת את המודל בהתאם לנתונים שיש לך.בעצם, זה לא משנה . . . כמובן שאנחנו מתחילים תמיד עם, אתם יודעים - Go-to-Market שהוא כן עם סגמנטים מסויימים, בעיקר בצד של ה-Marketingחשוב שיהיה לנו את אותו מסר, ושהמסר יהיה מאוד ברור - אבל בסוף זה לא משנהסתם לדוגמא - אנחנו עובדים עם חברות Retail מאוד גדולות, CPG . . . זה לא משנהאו, לדוגמא, חברות בכלל מאיזורים של Gaming - ועדיין זה אותם מודלים.הכוונה היא לא שזה אותו מודל שנוצר, אלה שזה מודל שמתאמן על הדאטה - ובגלל זה הוא גנרי ויודע להתאים את עצמו.(רן) יש לכם איזשהו Tool-set טיפוסי, שאיתו אתם עובדים בשביל המודלים האלה? לצורך העניין, רשת ניורונים או רגרסיות מסוגים שונים או מסווגים מסוגים אחרים?(נועם) נורא חשוב כמובן, וזה גם קשור לשאלה הקודמת שלך - כדי שנוכל להתאים את עצמנו, אנחנו עובדים עם הרבה משפחות.זה לא שאנחנו עובדים עם סוג מודל אחד, אנחנו עובדים עם הרבה משפחות - אבל אני אגיד שהאתגר הכי גדול זה דווקא לא המידול עצמו, המידול הוא החלק, אני אגיד כמעט “הקל”, בסיפור.החלק הכי קשה זה כל ה Pre-processing של הדאטה - ושם באמת, אם אנחנו מסתכלים על סוגי הלקוחות והסוגי נתונים . . תיכף כמובן נכנס לזה, אני משער, קצת יותר לעומק - כי זה באמת אחד המקומות הכי קשים, וזה באמת איך לוקחים דאטה, שהוא כל כך מגוון . . .דיברנו על דאטה טבלאי, וכמו שאתם יודעים - אצל כל הלקוחות, בעצם, המבנה הוא שונה, הטבלאות שונותומה שאנחנו יודעים, וזה חלק שעבדנו עליו מאוד קשה, זה לדעת לפרמל (Formalize) את זה בצורה כזו שלא משנה איזה סוג דאטה יש - אתה תוכל בעצם לחבר [דאטה], ברגע שהוא טבלאי (Tabular), אתה תוכל להכניס אותו פנימה, ובעצם לייצר את המודלים.(אורי) אז היה פה, לפני כמה פרקים, אסף קליין מ-Outbrain, שדיבר על AutoML[פרק 401 AutoML at outbrain with Assaf Klein][והוא אומר] בעצם, “קח דאטה, מסווג או מתוייג ברמה מסויימת, ועכשיו תן למערכת לרוץ עליו”; המערכת תמצא את המודל המתימטי הנכון לדבר הזה, את ה-hyperparameter הנכונים, את ה. . . . אולי אפילו תנקה את הדאטה - ותקבל מודל.אז כעיקרון, אתה לא צריך עבודה, או הרבה עבודה, של Data Scientist - שזה כמובן נכון בתיאוריה . . . אבל אתה לא צריך הרבה עבודת Data Science כדי לבנות מודל, כי המכונות פשוט עושות הרבה ניסיונות ומוצאות משהו טוב . . .(נועם) אז קודם כל - זה היה פרק מרתק, וזה לגמרי נכון - אבל יש “אבל” ענק פה, וסופר-משמעותיאצל אסף, כבר הדאטה, בעצם, הגיע למבנה - ותיכף אני אדבר על זה, כי זה נורא משמעותי - מבנה שמכונות יכולות להבין אותו.התחלת . . . סתם, אני אתן דוגמא ואחרי זה נפרט ויהיה נחמד להיכנס קצת לעומק על ההבדלים ועל מה זה אומר - אבל כדי שמודלים . . . תיקח מידע מתוייג - אבל מאיפה יש ללקוחות שלנו, שהם אנליסטים, מיידע מתוייג? אין להם, הם אפילו לא יודעים מה זה אומר . . .בעצם, צריך להבין את השפה של האנליסט - אותם אנליסטים, שעובדים, לדוגמא, עם כלי BI, ושמביאים ל-Business היום תובנות - לא יודעים את עולם ה-AI, הם לא יודעים בכלל מה זה “מידע מתוייג”.צריך להתחיל איתם בכלל במושגים שלהם - בטבלאות, ואני אתן תיכף דוגמאותאפשר לדבר על טבלה של טרנזקציות - שזה משהו שהם מבינים, טבלה של לקוחות - אז זה הם מבינים.אבל “מידע מתוייג”? - וזה רק דוגמא אחת.אם נלך רגע לעוד דוגמאות, ואני חושב שהן אפילו יותר מורכבות - זה איך בעצם מייצרים פיצ’רים?כל העולם של Feature Engineering זה לא משהו שמכונה יכולה לייצר, כי בסוף צריך להבין את הדאטה.זה בדיוק האלמנט שנקרא “To make sense of Data”.אותם אנליסטים לא יודעים בכלל מה זה אומר Feature Engineering, הם לא מבינים . . .וזה כמובן, וזה נורא חשוב - יש גם אנליסטים שכן יודעים, אבל אם נסתכל על ה-Bulk הגדול, שבדרך כלל מתעסקים ועובדים בעולמות של BI - הם לרוב לא יודעים לעומק את העולם הזה, וזה מה שמייחד את ה-Data Scientistאיך לייצר את אותם פיצ’רים, שמייצרים . . . לוקחים את הדאטה הגולמי, ומייצרים ממנו מידע שאפשר להכניס לתוך מודלים.ומה שמאוד מיוחד בפקאן זה שאנחנו עושים את באופן אוטומטי.(רן) באופן אוטומטי מסתכלים על דאטה, שלא ראית לפני כן, של חברה שאתה לא מכיר, שאתה לא מבין מה ה-Business שלה - ואתה עושה מזה משהו הגיוני? . . . טוב, אז אולי ניכנס פנימה ונבין איך זה עובד.(נועם) מהמם.אז (א) - חשוב [להבין]: אין פה קסם - זה הכל Engineering שמחבר את הדבריםאבל כן אני אתחיל ואגיד, וזה באמת המקום שבו . . . אתם זוכרים את אותו חדר קטן שדיברנו עליו, מול האוניברסיטה? שם כל הרעיונות נוצרו, מבחינת הבסיס, באמת.כי מה קרה? קיבלנו דאטה של לקוחות, ובתוך התהליך קיבלנו עוד דאטה ועוד “דאטאות” שונים, ובאמת בכל פעם היינו מייצרים מודליםוראינו את אותם מקומות והבנו שבעצם כן - יש פה קו מנחה אחד שעובר בתוך כל המקומות האלה.וזה אותו מקום, שהבנו שכן אפשר לייצר את אותו Framework, שהוא מאוד משמעותי - ובעצם הוא מדבר לכל אחד שמבין דאטה, ודרכו אנחנו מגיעים למודל.עכשיו - למה אני מתכוון? כי זה נשמע עדיין מאוד אמורפי, אז קצת ניכנס לתכל’ס - בסוף, אם חושבים על זה, בעצם כדי להגיע למודלים פרידקטיביים (Predictive), יש את אותן קומפוננטות (Components) נורא חשובות שצריך להכיר אותן - אנחנו קוראים להן The Four W’s, וזה לא מכונית שנוסעת, זה לא אוטו שיודע לנסוע, אלא זהא. Who - עבור מי עושים את הפרדיקציה?ב. When - מתי עושים את הפרדיקטציה? - וזה נורא חשוב, תיכף אתם תבינו איך זה בונה את כל העולם תוכןג. ברגע שאנחנו יודעים עבור מי עושים את הפרדיקציה ומתי, נשאר לנו What - מה אנחנו רוצים בעצם?וזה אותו מקום אגב . . . מה שאנחנו רוצים לחזות, אותו מקום של מידע מטוייב.אז אנחנו לא מבקשים מה-user שלנו, בעצם, להביא מידע מתוייג - אנחנו נתייג אותו בשבילו.איך נעשה את זה? אנחנו מבינים את עולם התוכן, אנחנו מבינים שמדובר ב-Life-Time Value או ב-Churn, אנחנו רק צריכים עכשיו לדעת מה-user מהי, לדוגמא, טבלת ה-Transactions שלו, או מה היא הטבלה שאליה אנחנו רוצים לסכום.אז בעצם, ברגע שאנחנו נותנים את אותה מסגרת של Who, When, What - וכמובן ה-W האחרון, שזה מה שדיברנו עליו לפני כן - ד. זה With - בעזרת איזו אינפורמציה אנחנו רוצים שהמערכת תייצר את הניבוי?עכשיו, פה מגיע אותו חלק כל כך משמעותי, של “איך אנחנו יודעים To make sense of data?”קיבלנו טבלה - עכשיו, קחו טבלת . . . אפשר לדבר סתם לדוגמא על טבלה שאנחנו מקבלים - שיחות טלפוןרשומות, כשכל רשומה היא שיחת טלפון ל-Support, ורוצים להבין את המשמעותהיופי זה שאנחנו מבקשים מה-user, בעצם, להביא לנו עמודות של זמן, של תאריך - מהו אותו תאריך שבו האירוע קורהומשם אנחנו כבר מזהים את כל העמודות השונות, מה המשמעות שלהן, איזה סוג זה - ומייצרים את אותם פיצ’רים.אני אתן כמה דוגמאות קטנות כדי שתבינו: קחו, לדוגמא, אם אנחנו מדברים על אורך של שיחה, אז מה שמעניין זה, פר user מסויים, לא רק לראות שיחה מסויימת אלא מה קורה על פני הזמןבעצם, אנחנו בפקאן מסתכלים על אוסף של אותן רשומות, ומייצרים להן נגזרת - לא רק לוקחים נקודה מסויימת, אלא ממש מסתכלים על הנגזרת על פני הזמן, ורואים איך יש שינוי.אז אם לבנאדם בתהחלה הייתה שיחה קצרה, ואחר כך יותר ארוכה ויותר ארוכה ויותר ארוכה - מאוד יכול להיות שקורה פה משהו.זה בדיוק אותו מידע שחשוב למודל, ואנחנו יודעים לייצר את אותם פיצ’רים על מנת להגיע, בעצם, למשהו ש Make sense of data.(אורי) אז אם אני מנסה להבין - ה - Secret sauce הוא ב . . . אוקיי, יש לך מידע טבלאי, אני שואל אותך ארבע שאלות - אותן ארבע W’s שלך - וזה מספיק לי בשביל לקחת את המידע הטבלאי שלך - וכמובן הוא חייב לכסות את התשובות של השאלות - בשביל לייצר מזה מידע שאני יכול להכניס ל-AutoML כזה או אחר, ולקבל מודל פרדיקציה?(נועם) לחלוטין - אתה בעצם . . . רק חשוב להגיד: פקאן זה End-to-End Solutionאתה רק צריך לחבר את אותן טבלאות, כמו שבדיוק הסברת, והסברת מהמם, עם אותן Four W’sובעצם מה שאתה מקבל - לוחץ על כפתור, מה שנקרא Train the model בתוך פקאן - ומאותו רגע, בעצם, אתה מקבל מודל מוכן.כמובן שיש את כל ה-Processing של ה-Data, ואם תרצו אפשר להכנס באמת למה שקורה שם - אבל בעצם מעבדים את כל הנתונים, מבינים.עושים, כמובן, מה שנקרא Feature engineering או Feature selection, מידולומגיעים בעצם למודל מוכן - ועכשיו אתה בתוך פקאן, עם מודל מוכןומה שנורא יפה בפתרון, וזה אחד הדברים שנורא ריגשו אותי בפקאן, זה שכשסגרנו את ה-Loop - ואתה יכול ללחוץ על כפתור שאומר “עכשיו תתחיל להשתמש במודל הזה”.אתה לא צריך לעבור למערכת אחרת, אתה בתוך פקאןאתה במה שנקרא “use my model”, ועכשיו אתה יכול להגיד “אני רוצה להשתמש בו” - ולא צריך לעשות שום פעולה במקום אחר.בעצם, אתה רק אומר איזה תזמון אתה רוצה, ועכשיו אנחנו מושכים רק Data חדש, מייצרים את הניבויים - ושולחים אותם חזרה אליך כ-User.(אורי) בעצם, התחלנו את השיחה מ-Machine Learning בעולם האמיתי. . . .(רן) . . . אז בוא אני אתן לך שאלה של Machine Learning בעולם האמיתי . . . (נועם) יש!(רן) . . . כמעט כל מי שעושה איזושהי תיאוריה ב-Data Science או Machine Learning, מסתכל על Data-set מדהים, והוא מריץ כמה שורות ב-Pandas וב-scikit-learn ועוד איזה TensorFlow, והכל עובד נהדרהסיווגים יוצאים בתשעים-ומשהו אחוזי דיוק, והרגרסיות יוצאות יפות והכל סבבה.ואז, כשאתה לוקח את אותו הדבר ואתה רוצה להפעיל את זה על ה-Business שלך - נקרא לזה העולם האמיתי - פתאום כלום לא עובד . . . שום דבר לא מדויק, כל הרגרסיות עקומות, הפיצ’רים לא בכיוון . . . זאת אומרת, כשהמדע פוגש את השטח, את מגלה שיש שריפה בצמיגים.אז אני מניח שאתם, בגלל שאתם רואים הרבה מאוד לקוחות, בטח רואים את זה חדשות לבקרים - וחשבתי שאולי תוכל לחלוק איתנו כמה מהלמידות שלכם בתחום הזה, של איך לוקחים את התיאוריה והופכים אותה למשהו שהוא פרקטי וגם Actionable-י.(נועם) לגמרי . . . אולי נתחיל . . . זה עולם באמת עצום, וזה מרתק, כי זה באמת אותם מקומות, ואני זוכר את עצמי בדוקטורט, מתעסק עם עולם של מידול, ומידול של מוחאם אנחנו מדברים לדוגמא על EEG, ואיך מייצרים משם פרדיקציות . . . ובאמת, יחסית - עולם ורוד . . . זה באמת עולם שבו לדאטה יש מבנה שהוא הרבה יותר ברוראין כאלה פערים גדולים, ובטח כשאנחנו מדברים על אותם Data-sets שאתה באמת מוריד כדוגמא ורוצה לראות והופ! הכל נפלא.אז בואו באמת ניקח כמה דוגמאות, אם מתאים לכם, ונתחיל להסתכל על כמה דברים, ודברים שאנחנו ראינו אותם כמובן - והתמודדויות שצריך לדעת להתמודד איתן.אולי נתחיל, ויש פה כמה איזורים - נתחיל . . . דיברנו קודם על LTV, נכון? (רן) Lifetime Value . . .(נועם) סליחה, Life-Time Value, נכון - לחזות כמה אותו לקוח יהיה שווה - כמובן שאנחנו מדברים על חיזוי, אז יהיה שווה בעתיד.בעולם , אם ניקח, אתם יודעים . . . כמובן, בדרך כלל בדוגמאות האלה, אם אנחנו עושים מתוך רגרסיה איזושהי לדוגמא, כמעט תמיד ההתפלגות היא התפלגות כזאת גאוסיאנית - פעמון יפהוהמודלים - הם אוהבים פעמונים, טוב להם לשמוע את הצליל הזה, תמיד נעים להם מאוד . . אבל במציאות . . .(אורי) כמו פרות בשוויצריה . . .(נועם) בדיוק . . . אבל . . .(רן)בדיוק חשבתי על הגיבן מנוטרדאם, אבל בסדר, פעמון זה פעמון . . .[יותר בכיוון של High Hopes . . . ](נועם) אז אני אגיד - הגיבן מנוטרדאם זה באמת יותר איך שהדאטה נראה, והוא לא נראה כל כך ישר ויפה . . .(אורי) יש לו גיבנת . . .(נועם) יש לו גיבנת, ויש לו אחר כך גם זנב . . . לא חושב שהיה לו זנב, אבל במציאות יש זנב ארוך, שם בתוך ההתפלגות.ובאמת זה מה שרואים - בדרך כלל, כמו שאתם יודעים, במציאות, בהרבה מאוד מקרים דווקא יש מעט לקוחות שמביאים בעצם את רוב ההכנסותהם אותו הזנב - וההתפלגות נראית קטסטרופה, ועכשיו לך תתמודד עם הדבר הזה.מודלים נראים קטסטרופה במצב הזה, וההתמודדות שם היא מאוד קשה, היא לא . . . זו דוגמא קטנה להתמודדות ראשונה(רן) זאת אומרת - אנחנו מדברים על מצב שבו ה-Target שלך, מטרת היעד - אולי בספרות היא נראית כמו איזשהו פעמון גאוסיאני מאוד יפה, אבל במציאות זה נראה ברדק שלם, ואז המודל לא יכול . . . הוא כנראה לא יעבוד טוב במצב כזה.(נועם) נכון מאודבעצם, הרבה פעמים הסיבה היא שבהרבה מאוד מהמודלים יש הנחה, בתוכם - הנחה, שמניחה שבאמת ה-Target, יש בו התפלגות גאוסיניתומה לעשות שהנחות נועדו כדי שהן לא תתקיימנה, כמובן [Normal’s overrated].(רן) טוב, אתה יודע - המרצה לסטטיסטיקה יגיד “במספרים מספיק גדולים, זה תקף”, אבל זה המספרים שיש לי, אין לי מספרים מספיק גדולים . . .[והם גם כמעט אף פעם לא בלתי תלויים, או שווי התפלגות . . .](נועם) אגב, גם ב”מספיק גדולים” פה - זאת בעיה, כי זאת המציאות פהואנחנו מתעסקים עם מספרים מאוד גדולים - וזאת עדיין ההתפלגות, כי זאת פשוט המציאות[ד”ש לאסימוב?]אתם יודעים מה? אני מגיע מעולם של פסיכולוגיה, ובאמת בפסיכולוגיה, אנחנו כבני אדם - הרבה מאוד מההתפלגויות הן באמת גאוסיאניות, אבל דווקא בעסקים זה נראה מאוד מאוד שונה.ובאמת בדאטה עסקי, אנחנו לא רואים את אותה התפלגות גאוסיאנית[אקספוננציאלית? Log-Normal?]אני משער שיש פה . . . לא יודע אם אתם מרגישים את המתח של “רגע, מה עושים, איך מתמודדים עם זה?” . . .(רן) לא - אני רק שואל את עצמי מה ההתפלגות, נו? . . .(נועם) אז אולי אני אתן לכם רק . .. כמובן, יש פה כמה טיפים, אבל איך בכלל ניגשים לשאלה כזאת? אני חושב עכשיו על האנשים ששומעים [ומנסים לתמלל!] אותנו, ואומרים “רגע, יופי! הוא - יש לו מלא דאטה של לקוחות, קל לו, אבל אני בבית, איך אני יכול לעשות? מה אני יכול לעשות?”את תדעו לכם - זוכרים שהתחלנו בעצם, ככה בגאראז’ שלנו - תמיד מתחילים מדאטה, שבעצם הוא סימולציה, מייצרים סימולציות, זה מאוד חשובכי בעצם, דרך סימולציה, אפשר גם לייצר את החוק, והדרך הכי טובה להתחיל מחקר בעולמות של Machine Learning זה קודם כל לייצר קוד שמסמלץ (Simulates) את הנתונים, ומשם בעצם לומדים איך הכי נכון לייצר את אותם מודלים.[הקשר מעט אחר אבל קצת רפרנס ל In order to scale you have to do things that don’t scale ול- Do Things that don’t Scale]תמיד עבדנו, בעצם יצרנו סימולציה של מידע שיש לו זנב מאוד ארוך, עם חוק מאוד מסוייםכמובן בצורה של Rule-based, פשוט בשביל הסימולציה - אין צורך . . . פה זה לא מקום שצריך הרבה יצירתיות - דווקא מעט יצירתיות היא מאוד טובה פה - משהו פשוט.ורוצים לראות שהמודלים, גם עם “ההתפלגות הבעייתית”, יודעים לעלות על החוק, כאשר זו סמולציה פשוטה.קודם כל צריך לפצח את זה - אם לא תפצחו את זה, לא תצליחו לפצח גם מידע שהוא הרבה יותר מורכב בחוקיות שלו.(אורי) אז אתה אומר “אני מסתכל על מידע אמיתי; אני מזהה את החוק או את הבעיה; ומסמלץ את המידע הזה לצורך משחק עם המודל” - כשבעצם, כשאתה מייצר מידע סינטטי, אתה מסמלץ מידע שהוא סינטטי, אבל מכיל את הבעיה . . . מכיל בעיה אחת, וכנראה שבדאטה האמיתי מסתתרות עוד כמה בעיות.זא אומרת - אני קודם כל מייצר לי את המודל שמצליח לעלות על הבעיה שבעצם סימלצתי; אני אראה שהמודל עובד על זה, ואז אני אעבור לבעיה הבאה.(נועם) בדיוק - אי אפשר להתחיל מלפתור את כל הבעיות, זה פשוט בלתי אפשרי, זה לא . . . זה מאוד מאוד קשה.ובאמת, הדרך שלנו לפעול זה כל פעם לקחת בעיה, לראות איך הדרך הנכונה להתמודד איתה, ודרך אותן סימולציות באמת להבין איך נכון להתמודד עם זה, אני מתחיל את המחקר שם.כמו שאמרת - אתה משחק, אתה גם חוקר, מבין איך נכון בעצם לפעול - ועכשיו לוקח את זה לעולם האמיתי.(רן) לצורך העניין, בדוגמא שלנו, אתה אומר “סבבה, המודל עובד על התפלגות גאוסיאנית - אבל מה לעשות, ההתפלגות היא, Whatever - אקספוננציאלית או Weibull או משהו אחר כזה, לא כל כך יפה - אז בואו נסמלץ (Simulate) התפלגות אקספוננציאלית, ננסה להתאים את המודל עליה, ואחרי שעברתי את זה אני אעבור לדאטה האמיתי, ושם אני אעשה את התיקונים הנדרשים”. אבל . . .(אורי) או שאני אקח את הבעיה הבאה בדאטה האמיתי - ואני אסמלץ גם אותה ו . . .(רן) כן, אבל זה נשמע כאילו “שלב מיותר” - למה לעבור דרך סימולציה, אם כבר יש לי את הדאטה? זו שאלה אחת.ושאלה שנייה - אולי אתה פותר בעיה קלה מדי? זאת אומרת, אז עשיתי סימולציה, אבל הסימולציה פשוט לא מספיק נאמנה לדאטה האמיתי או, לא יודע, אולי יש לי איזשהו Bias בדאטה, אולי יש לי הרבה אנומליות - כאלה שמה לעשות? אני לא מסמלץ אותן, וכשאני מגיע לדאטה אז שוב אני בפני שוקת שבורה, וכל העבודה שעשיתי לפני - אי אפשר להשתמש בה.(נועם) שתי נקודות מאוד מאוד טובות וחשובות . . .אני אתחיל, רגע, מהראשונה - על הנקודה שאמרת שאולי יש פה מצב שבוא אתה פותר בעיה אחת, שהיא יחסית “פשוטה”נכון - אבל אנחנו לוקחים את זה . . . “אבל בעצם יש לך את הדאטה, למה אתה צריך את ה[בעיה ה]פשוטה?”כשאתה מתמודד עם כל הבעיות “במכה”, אין לך מושג האם התקדמת . . . אתה כל פעם נתקע, וזו הבעיה הכי גדולה, אגב, ב-Data scientists שמתמודדים עם דאטה כזה - הם לא יודעים האם הם מתקדמים.אתה כל פעם עשית משהו, אבל “רגע, זה לא עבד לך”,אז אתה מנסה משהו אחר, ו”רגע, זה לא עבד”.אבל זה לא עבד בגלל עשרים מחסומים בדרך - ואם אתה לוקח כל מחסום ומחסום בנפרד . . . ותראו - אני אומר לכם את זה אחרי שעברנו את המחסומים, ואחרי שאנחנו באמת כבר מייצרים מודלים ללקוחות על דאטה אמיתי ורואים ביצועים מאוד טובים - זה בדיוק דרך אותה שיטה של בכל פעם לקחת את המחסום לבד הצידה, עם דאטה הרבה יותר פשוטכי אם לא תעשו את זה עם מידע יותר פשוט, לא תדעו מה הדרך להתמודדומשם לעבור למחסום הבא.שוב, אני מקווה שהצלחתי להעביר - זה לא שזה נעשה בצורה אטומטיתאותם . . . הדרך של “כל פעם לעבור את המחסום”, זה אצלנו, כמובן, יש צוות של Data scientists, חבר’ה מאוד חזקים, שמסמלצים את הבעיה.הבעיות, בסופו של דבר, חוזרות על עצמן - אלו לא בעיות שלכל לקוח זו בעיה שונה, דברים חוזרים על עצמם.אבל הדרך להתמודד היא באמת לקחת מחסום כזה ולהבין איך מתמודדים איתו.(אורי) אז אפשר גם לסמלץ ואפשר גם לנקות, לא? כאילו - אתה יכול לנקות בעיות מהדאטה . . .(נועם) לגמרי . . . מה שדיברתי בסימלוץ זה תמיד כשאי אפשר לנקות, אבל לגמרי - אנחנו מנקים, וזה מאוד חשוב.וזה לגמרי, קודם כל . . . זה תהליך שלם, בתוך ה-Pipeline שלנו, זה כמובן לעשות Cleansing לדאטה, Wrangling של הדאטה . . . וזה תיכף, אפשר קצת לדבר גם . . . אתם יודעים, מדברים על “דאטה מלוכלך” - מה זה “דאטה מלוכלך” בכלל?אני מקווה שנספיק, כי אני לא יודע כמה זמן יש ויש המון נושאים וזה מרתק . . .אומרים “דאטה מלוכלך”, אבל כל אחד מתכוון לדברים שונים . . .אבל כמובן - אם אנחנו מדברים על Missing Values שזה מאוד חשוב, אם אנחנו מדברים על טעויות בתוך הדאטה . . .אלמנט מאוד מאוד חשוב זה גם Data Type - מה ה-Type שלי? הם אני תאריך או לא תאריך? ואיך אני מייצר את התאריך? ואיזה תאריכים . . . ורגע, אולי יש לי פתאום תאריך עתידי בדאטה, בטעות, שאתם יודעים - תמיד נכנסים תאריכים לא נכונים כאלה פה ושםאלו בדיוק אותם מקרים שמאוד משמעותי לנקות אותם, לפני שיוצאים לדרך, לגמרי.(אורי) אז הזכרת Data scientists שיושבים על הדאטה ועובדים עליו . . . כמה מה-Workload של מלקחת לקוח ועד שאתה יודע לתת לו מודל פרדיקציה (Prediction Model) . . . זה קשה להגיד את זה אבל . . . (רן) אתה מתכוון לשאול כמה מזה אוטומטי וכמה מזה . . . (אורי) . . . כמה מזה אוטומטי וכמה זה עבודה . . .?(נועם) יש לי תשובה מאוד פשוטה לזה, מאוד פשוטה . . . אני אגיד לכם למה - וזה אגב, בחווייה האישית, תחשבו בתור, אתם יודעים - מישהו שזה “הבייבי שלו”, ויוצא לדרך - אתה לא יודע לאן אתה הולךואני יכול להגיד לכם - רגע שבשבילי היה ללא ספק משמעותי מאוד בדרך זה כשעבדנו עם לקוח מאוד גדול, חברת Retail אמריקאית ענקית, אני כמובן לא יכול להגיד את השם . . עבדנו איתם והם אמרו “אנחנו רוצים, כמובן, פיילוט - רוצים לראות מה אתם יכולים לעשות”ובעצם לקחנו ככה, ביקשנו מהם את הדאטה והכנסנו אותו לתוך המערכת, ביחד איתם הכנסנו את זה לתוך המערכת - ותוך שבועיים, בעצם, הגענו למודל שהם במשך שנה עבדו עליו - זה הסדרי גודל.וזו הייתה הפעם הראשונה - אחרי זה הגענו לעוד לקוח, ובדיוק אותו סיפור: שנה שבה הצוות עובד - ואתם יודעים איך התהליכים, ואפשר אולי לדבר על התהליכים של מה זה לייצר מודל - זה גם קשור לדאטהזה גם קשור, כמובן, ללהבין ולחבר את זה לשאלה שהיא מוגדרת היטבלנקות את הדאטה, להריץ מודל . . .עכשיו - זה לא פעם אחת: אתה כל פעם עושה סייקלים (cycles), אתה בכל פעם רוצה לשפר ועושה סייקליםוזה היופי - זה מצא. בתוך פקאן, אתה מצליח, בתוך שבועיים - ותיכף אני אדבר על למה זה כל כך מהיר ואיפה באמת, כמו שדיברת, איזה Workload זה לוקח - אל מול שנה.וזה לא לקוח אחד - אנחנו מדברים על הרבה לקוחות שזה בדיוק מה שאנחנו שומעים.והיום, כששואלים אותנו מה ה-Value שלנו . . . פעם, היינו אומרים שה-Value הכי גדול של פקאן זה באמת לאפשר למישהו שלא מכיר לייצר מודלים - אבל זה הרבה יותר מזה.זה לייצר, בעצם, הרבה מודלים - זה לייצר ולענות על הרבה שאלות עסקיות והיום, כשאתה שואל את עצמך למה שלקוח גדול - ודיברנו על לקוחות באמת גדולים - למה שהם בכלל ידברו איתנו? מה - אין להם צוותים?[אז] יש להם, אבל הבעיה זה שאותם צוותים לא יכולים לענות על הרבה שאלות עסקיות, כי זה לוקח הרבה זמןבעצם, בעזרת פקאן, הם פשוט מחברים את הדאטה ומקבלים את אותו מודל פרדיקטיבי.עכשיו, למה אגב שבועיים? למה לא מיידית? למה עדיין יש פה איזשהו תהליך מסויים? כי באמת, וזה אחד הדברים המשמעותיים, היופי בתוך פקאן זה . . . דיברנו על ה Four W’s, ויש שם קונפיגורציות, יש שם כל מיני קונפיגורציות שאתה יכול לשחק איתןאם, לדוגמא, אנחנו מדברים על Lifetime Value, אז השאלה לכמה זמן אתה חוזה קדימה, ולכמה זמן מראש אתה רוצה לחזות קדימה . . . והיופי בתוך פקאן זה שאתה יכול לשנות את הקונפיגורציה - אתה עושה “Duplicate my Model”, משנה את הקונפיגורציה - והנה, יש לך מודל חדש.אז בעצם מה שאנחנו עושים זה שאנחנו מייצרים כל מיני וריאציות [נושא טעון בימים אלו…] על בסיס קונפיגורציות - אבל לא של Hyper Parameters, זה מאוד חשוב - קונפיגורציות עסקיות, ובעצם מקבלים תמונה מלאה.ועל זה דיברנו, על פער שבין אקדמיה לעסקי - בעסקי, זה לא שאתה בונה מודל אחד בשביל לענות על שאלה; אתה רוצה לקבל את כל . . . בעצם את כל הקשת השונה, ולראות 360 מעלות כדי להבין את הלקוח.ולהבין מה הם המודלים הכי טובים, שאיתם אתה יוצא לדרך.(רן) אז אנחנו ב-Scope של “איזה דברים עובדים נהדר באקדמיה, או איזה דברים עובדים נהדר על הנייר, אבל הרבה יותר מאתגרים בעולם האמיתי” - ובוא נכסה עוד נושא אחד כזה, כי אין לנו את כל הזמן שבעולם.אז דיברת על לקחת דאטה ולסמלץ אותו כדי לעבור, מה שנקרא “פרה-פרה”, כדי לעבור את המכשול הראשון לפני שאנחנו מגיעים למכשול השני . . .איזה עוד בעיות יש שככה נתקלים בהן בדרך כלל בעולם האמיתי, שאולי בעולם האקדמאי הן נראות כאילו הן כבר פתורות?(נועם) אז אחת הנקודות - ובטח אתם תזדהו עם הבעיה הזו, לכל מי שמתעסק עם העולמות של Data Science זו אחת הנקודות הכואבות, ויש לזה גם כמה שמות, זה בא בזויות שונות - מושג של Leakage . . . אחת הנקודות, כ-Data scientist, זה גם אלמנט מאוד קשה, זה באמת מצב . . ובאקדמיה הרבה פחות . . . לא כל כך מתעסקים בכלל עם Leakageזה כמובן תלוי איפה וזה כמובן נושא שמדובר, אבל אם לוקחים את אותם מודלים ומסתכלים, אז לרוב יש באמת . . .הרי כשמסתכלים במאמרים, לרוב אלו Data sets קבועים, מאוד מסויימים - זה לא שבאמת מסתכלים על מגוון רחבאבל ברגע שמגיעים למציאות, ותיכף אני אתן כמה דוגמאות, ודוגמאות באמת של איפה שהדבר הזה נופל ועד כמה הוא מורכב . . אבל Leakage . . . אולי אני אסביר שנייה מה זה בכלל, ואז ניכנס קצת ל . . .בעצם, דיברנו על Machine Learning, אנחנו מדברים על לחזות משהו קדימה בזמן - מה יקרה?אז הדבר הכי מסוכן זה שאיכשהו אנחנו מכניסים לתוך המודל מידע, שבתוכו חבוי מידע מתוך העתיד, שלא ידענו אפילו שהוא מתוך העתיד, ואיכשהו הוא “התחבא” לו שם, בלי ששמנו לבועכשיו ברור שלמודל מאוד “קל”, כי . . זה אמור להיות יחסית קל, כי זה חבוי לו בפנים . . .(רן) יש לו רמז מאוד מאוד ברור, כשאתה בונה אותו, אבל במציאות הרמז הזה כבר לא יהיה קיים, זאת אומרת - בדרך כלל אתה מאמן על מידע שהוא היסטורי, ששם יש לך אינפורמציה מלאה, ואתה “עוצם לרגע עין אחת” כדי לא להסתכל קדימה, אבל בטעות אתה קצת “פותח את האצבעות” וכן מסתכל קדימה, בלי שהתכוונת - וזה ה-Leakage הזה שעליו אתה מדבר.(נועם) בדיוק - ובעצם, כמו . . .מאוד יפה, אני אוהב את הדוגמא הזו עם החצי-עין עצומה וככה, לעצום . . .(רן) אל תשכח לתת זכויות יוצרים!(נועם) אז הנקודה היא באמת, שכשמגיעים לדאטה - ותזכרו, אנחנו מתחברים בעצם למקורות דאטה של הלקוחות שלנו, ממש מתחברים ל-Databases שלהם, למקורות מידע, ו . . . תחשבו רגע קצת על איך נראה מידע בתוך ה-Database - לרוב לוקחים דאטה וגם מעדכניםמעדכנים שם רשומות, ואם אנחנו מעדכנים פתאום רשומה, ומסתכלים עליה ו . . . ממש כמו שדיברת, אנחנו הרי מסתכלים על מידע היסטורי, אז אנחנו לקוחים רשומות ישנות ומשתמשים בהן כאילו הן נוצרו עכשיואבל בעצם הרשומה השתנתה - קרו לה כל מיני דברים . . . המון המון מידע בעצם התעדכן מאז - ואנחנו מניחים עכשיו, כשאנחנו ברגע הפרדיקציה, שזה המידע שיש לנו בידאבל כשנגיע באמת לרגע הפרדיקציה [במציאות] - המידע לא יראה ככה בכלל . . .וזה אותו פער - זה בעצם . . . בגלל זה ה-Leakage הזה: דלף מידע . . .(רן) בוא, רגע, נמציא דוגמא - נגיד, יש לי עמודה שקוראים לה “איכות הלקוח”לפני שנתיים, כשרק קיבלנו את הלקוח, לא ידענו עליו שום דבר, אז שמנו שם, נגיד, “C”.עם הזמן, הלקוח שילם תמיד בזמן, תמיד חזר והכל - וזה לאט-לאט עלה ל-”B” ועלה ל-”A”עכשיו - אתה בא לעשות איזשהו Prediction ואתה רואה בתוך העמודה הזאת שאיכות הלקוח היא “A” - זאת אומרת שזה לקוח ממש-ממש טובאבל במציאות, כש”יוולד” לך לקוח חדש, או לקוח שרק קיים במערכת - הציון שלו לא באמת יהיה “A”זאת אומרת - אם אתה עכשיו מנסה לעשות פרדיקציה מהמקום שבו היית שנתיים לפני כן, האיכות שלו הייתה “C”, היא לא הייתה “A” - אבל אתה לא יודע את זה כשאתה . . . (אורי) אגב, זה קורה לפעמים כשאתה מעלה מודל חדש, ואתה מנסה לבדוק אותו ב-A/B Testing מול מודל ישן - ככל שאתה מרחיב את הניסוי של ה . . . - לא יודע אם A או B, זה לא משנה - את המשקל של המודל “החדש” שלך, “הטוב יותר” שלך - הדאטה שלו מתחיל ללמד את המודל הישן . . . בעצם, פתאום אתה רואה שה-Lift שלך, ככל שאתה מייצר . . . ה-Lift יורד.(נועם) אני אגיד שזו ממש הייתה . . . צריך להגיד לצופים [הצופים בטקסט? כי היתר לרוב מאזינים . . .] - לא העברתי לך שום שטר, אבל זו לגמרי הייתה הרמה להנחתה, וזה באמת . . .זה בדיוק - מה שעכשיו הסברת - זה התחלה, בעצם, של איך שאנחנו מתמודדים עם הבעיה הזו.בעצם, תזכרו כמה קל לקחת מודל בתוך פקאן ולהתחיל להשתמש בו בתוך Production - זו לחיצת כפתוראתה זוכרים את ה-Usage model שדיברנו עליו? - בעצם, נורא קל . . . אין צורך עכשיו לקחת את כל המודל שלנו, לקחת צוות של Data Engineers ולהעלות אותו ל-Production - אתה פשוא לוחץ על כפתור.ובעצם, ממש כמו שדיברת - ברגע שאתה מעלה אותו ל-Production ,אתה ישר מזהה שיש פה בעיה, כי הרי ב-Production אתה כבר עובד עם מידע עדכני, אתה כבר עובד עם המידע החי.שם, זו הרי הפעם הראשונה שאתה תפגוש את ה-Leakageדיברת על ה”חצי-עין עצומה”? שם אתה תקבל אותו “בום לפרצוף” . . .(רן) תביא רטייה, לא תוכל פתוח את האצבעות . . . (נועם) בדיוק . . . ובגלל זה, מה שיפה בפקאן זה שאנחנו מאוד בקלות מזהים את אותם Leakage-ים, רואים את זה, כי אנחנו מגיעים ל-Production נורא בקלות, נורא מהר, מזהים את אותם Leakage-ים ויכולים להתמודד איתם.מבינים בדיוק מה לעשות ובעצם להתקדם קדימה.(רן) אז אתה אומר שבעצם אין פתרון קסם למציאת Leakage - אם הוא שם אז יכול להיות שהוא שם ואתה בחיים לא תזהה אותו, אבל כשאתה פורש את המודל הזה ב-Production, ופתאום אתה רואה ירידה דראסטית בביצועים, אז החשד הראשון הוא שכנראה היה Leakage בתוך הדאטה . . .(נועם) לגמרי . . . יש לנו, אגב, גם עוד כמה טכניקות על לזהות Leakage עוד בבנייה - בדרך כלל, לדוגמא - פיצ’רים שהם כל כך . . . אתם יודעים, אצלנו יש עניין של Feature Importance, ובעצם מזהים Feature שהוא כל כך חשובובדרך כלל כשמדובר ב-Leakage אז הפיצ’רים האלה קופצים נורא-נורא גבוה - כמובן יש התראה על העניין הזה, שיש פה חשש ל-Leakageאבל בנוסף לזה, יש פה כמה מנגנונים בדרך - וכמובן שהאחרון, וההכי בטיחותי, זה באמת המנגנון האחרון שבו אתה מוריד ל-Production, רואה מיד מה קורה, ואם יש בעיה אתה כמובן יכול לתקן.(רן) בסדר, מעולה - אז תראה, אני חושב שיש לנו עוד נושאים לשיחה לאיזה שבועיים, אבל אמרנו שזה יהיה הנושא האחרון והזמן שלנו כבר עבר.כמה דברים, ככה לפני שנסיים - איפה אתם נמצאים בישראל? את מי אתם מחפשים לגייס?(נועם) מדהים . . .אז אנחנו בישראל - האמת שהיום בתקופת הקורונה, “ישראל” זה כבר “איפה בישראל? כל אחד בביתו” . . . כמובן, יש לנו גם משרדים בבורסה [רמת גן], אבל מי שרוצה, אצלנו אנחנו מאוד בתפיסה “ההיברידית”, שמי שרוצה לעבוד מהבית עובד מהבית ומי שרוצה להגיע למשרד כמובן מוזמן.ובאמת אנחנו ממש עכשיו בצמיחה נורא מהירה בחברה - אבל נורא נזהרים על האנשים: אנחנו לא גדלים . . . הקצב גידול של האנשים שלנו הוא . . . אנחנו באמת רוצים את הכי טוביםמגייסים אצלנו כמובן משרות של Data Engineers, אז אם אנחנו מדברים על Frontend ו-Backend, ללא ספק.ו-Data scientists, כמה מפתיע . . . אבל באמת, אנשים מאוד חזקים בעולמות האלה.אפילו יש לנו משרת ניהול ל-Data Scienceוכמובן עולמות גם של Product ו-Data Analysts.אולי עוד משהו אחרון לסיום, אם יש לנו עוד שנייה אחרונה, אנחנו ככה בפרסומות . . .אז פרסומת לתחרות מאוד מגניבה שאנחנו עושים , בעולמות של Pythonאז לכל התותחי Python ששומעים אותנו - הכנסו פשוט ב-LinkedIn ל-Pecan.ai, אתם תראו שם פרטים על התחרות בעולמות של Pythonסופר מעניין, ממליץ בחום - וכמובן: פרס . . (רן) Python גנרי או משהו, ככה, יותר מפוקס על Machine Learning?(נועם) לא - לא, Machine Learningהיה לנו חשוב, הפעם . . אנחנו עושים גם Machine Learning, עושים תחרויות Machine Learningהפעם היה לנו חשוב שזה יהיה Python רחב - יהיה שם באמת . . .אני לא יכול לספר מה יש בתחרות עדיין, אבל זה הולך להיות אתגר סופר-מעניין(רן) מתי זה קורה? אם מישהו שומע את זה בעתיד [Leakage . . .], מה התאריכים?(נועם) אז אנחנו מדברים על אמצע מאי - פשוט תיכנסו, אתם תראו שם את כל הפרטים.מאמצע מאי התחרות יוצאת לדרך - ובעצם אתם מוזמנים . . .(אורי) זה מידע מהעתיד . . . (רן) כן, לגמרי . . .(אורי) אולי יש לנו Leakage? . . . (רן) ולא עצמנו עין[תמיד יש את Childhood's End](רן) טוב, נועם - תודה רבה, שיהיה לכם בהצלחה בפקאן, נשמע כמו מקום עם מוצר בהחלט מאתגר ומעניין(נועם) תודה רבה לכם, תודה שהזמנתם אותי לכאן, ממש שמחתי(אורי, רן) תודה ולהתראותהקובץ נמצא כאן, האזנה נעימה ותודה רבה לעופר פורר על התמלול

Resolve's Gestalt University
Feature Engineering, Strategy Mining, Economic Value and The Profitability Rule with Michael Harris

Resolve's Gestalt University

Play Episode Listen Later Apr 29, 2021 87:51


Michael Harris started trading rates and derivatives 30 years ago. He is the Founder of Price Action Lab and the developer of the first commercial software for identifying parameter-less patterns in price action 20 years ago. In the past 10 years he has worked on the development of DLPAL, which is a software program designed to identify short-term anomalies in market data for use with fixed and machine learning models.   In this wide ranging interview we discuss:   Back testing and generating trading signals on an Atari Console Loss Compression and Forecasting Data Mining – microfeatures, micropatterns and trend following The hit rate, payoff ratio, profit factor and the Profitability Rule Data Mining Bias and Data Snooping The Seven Weekly Strategies The direction of probability   The conversation was interesting and enlightening as Michael provided new insights into emerging financial technologies. We hope you enjoy it. Thank you for listening.

MLOps.community
Deploying Machine Learning Models at Scale in Cloud // Vishnu Prathish // MLOps Meetup #60

MLOps.community

Play Episode Listen Later Apr 16, 2021 57:57


MLOps community meetup #60! Last Wednesday we talked to Vishnu Prathish, Director Of Engineering, AI Products, Innovyze. //Abstract The way Data Science is done is changing. Notebook sharing and collaboration were messy and there was minimal visibility or QA into the model deployment process. Vishnu will talk about building an ops platform that deploys hundreds of models at-scale every month. A platform that supports typical features of MLOps (CI/CD, Separated QA, Dev and PROD environment, experiments tracking, Isolated retraining, model monitoring in real-time, Automatic Retraining with live data) and ensures quality and observability without compromising the collaborative nature of data science. //Bio With 10 years in building production-grade data-first software at BBM & HP Labs, I started building Emagin's AI platform about three years ago with the goal of optimizing operations for the water industry. At Innovyze post-acquisition, we are part of the org building world-leading water infrastructure data analytics product. //Takeaways Why is MLOps necessary for model building at scale? What are various cloud-based models for MLOps? Where can ops help in various points in the ML pipeline Data Prep, Feature Engineering, Model building, Training, Retraining, Evaluation and inference //Final thoughts Please feel free to drop some questions you may have beforehand into our slack channel (https://go.mlops.community/slack) Watch some old meetups on our youtube channel: https://www.youtube.com/channel/UCG6qpjVnBTTT8wLGBygANOQ ----------- Connect With Us ✌️------------- Join our Slack community: https://go.mlops.community/slack Follow us on Twitter: @mlopscommunity Sign up for the next meetup: https://go.mlops.community/register Connect with Demetrios on LinkedIn: https://www.linkedin.com/in/dpbrinkm/ Connect with Vishnu on LinkedIn: https://www.linkedin.com/in/vishnuprathish/ Timestamps: [00:00] Introduction to Vishnu Prathish [00:16] Vishnu's background [04:18] Use cases on wooden pipes for freshwater [04:55] Virtual representation of actual, physical, tangible assets [06:56] Platform built by Vishnu [08:30] Build a reliable representation of network [11:52] Pipeline architecture [16:17] "MLOps is still an evolving discipline. You need to try and fail many times before you figure out what's right for you." [17:11] Open-sourcing [18:17] Platform for virtual twin [20:02] Entirely Amazon Stagemaker [20:43] Data quality issues [23:21] Reproducibility [23:40] "Reproducibility is important for everybody. Most of the frameworks do that for you." [25:00] Reproducibility as Innovyze's core business. [26:38] Each model is individual to each customer [27:50] Solving reproducibility problems [28:24] "Reproducibility applies to the process of training pipelines. It starts with collected from historical raw data from customers. In real-time, there's also this data being collected directly from sensors coming from a certain pipeline." [31:55] "Reusable training is step one to attaining automated retraining." [32:17] Collaboration of Vishnu's team [36:23] War stories [41:36] Data prediction [44:24] "A data scientist is the most expensive hire you can make." [47:55] 3 Tiers [48:53] MLOps problems [52:25] Automatically retraining [52:34] "Because of the numbers of models that go through this pipeline, it's impossible for somebody to manually monitor and retrain as necessary. It's not easy, it takes a lot of time." [54:22] Metrics on retraining [56:42] "Retraining is a little less prevalent for our industry compared to a turned prediction model that changes a lot. There are external factors that depend on it but a pump is a pump."

Human Coders Podcast
Dans le quotidien d'un·e Data Scientist

Human Coders Podcast

Play Episode Listen Later Apr 8, 2021 33:46


Vous les connaissez sûrement tous, ces buzzwords autour de la data et du Machine Learning, mais est-ce que vous savez comment ça se passe en vrai un projet de Machine Learning ? Nastasia Saby a commencé sa carrière en tant que développeur back-end, et est aujourd’hui ingénieure Machine Learning. Elle travaille actuellement pour Konecranes, une entreprise dont le domaine principal est la vente et le service des engins de levage.  Dans cet épisode elle nous partage son quotidien de Data Scientist, depuis l'ingestion des données au monitoring des modèles.  Au programme donc du feature engineering, des tests de données, mais aussi de nouveaux buzzword (?) plus en phase avec la réalité du terrain, tels que le Data Drift et l'Explainability/Interpretability. Pour aller plus loin  Pour tester ses données : Deequ, Alibi-detect Pour versionner ses données : Delta-Lake, DVC  Un livre recommandé par Nastasia pour avoir une vue du Machine Learning dans la vraie vie : Machine Learning Engineering - Andriy Burkov Lectures sur le Data Drift Characterizing Concept Drift - Geoffrey I Webb, Roy Hyde, Hong Cao, Hai-Long Nguyen et François Petitjean. Survey of distance measures for quantifying concept drift and shift in numeric data - Igor Goldenberg et Geoffrey I Webb Monitoring and explainability of models in production - Janis Klaise, Arnaud Van Looveren, Clive Cox, Giovanni Vacanti et Alexandru Coca Failing Loudly: An Empirical Study of Methods for Detecting Dataset Shift - Stephan Rabanser, Stephan Günnemann, Zachary C. Lipton N'hésitez pas à suivre Nastasia sur son blog et son Twitter. Elle y partage ses expériences tech !

KJ_Pods
Feature engineering

KJ_Pods

Play Episode Listen Later Feb 12, 2021 1:16


Feature engineering

MLOps.community
Serving ML Models at a High Scale with Low Latency // Manoj Agarwal // MLOps Meetup #48

MLOps.community

Play Episode Listen Later Jan 24, 2021 56:17


MLOps community meetup #48! Last Wednesday, we talked to Manoj Agarwal, Software Architect at Salesforce. // Abstract: Serving machine learning models is a scalability challenge at many companies. Most applications require a small number of machine learning models (often < 100) to serve predictions. On the other hand, cloud platforms that support model serving, though they support hundreds of thousands of models, provision separate hardware for different customers. Salesforce has a unique challenge that only very few companies deal with; Salesforce needs to run hundreds of thousands of models sharing the underlying infrastructure for multiple tenants for cost-effectiveness. // Takeaways: This talk explains Salesforce hosts hundreds of thousands of models on a multi-tenant infrastructure to support low-latency predictions. // Bio: Manoj Agarwal is a Software Architect in the Einstein Platform team at Salesforce. Salesforce Einstein was released back in 2016, integrated with all the major Salesforce clouds. Fast forward to today and Einstein is delivering 80+ billion predictions across Sales, Service, Marketing & Commerce Clouds per day. // Final thoughts Please feel free to drop some questions you may have beforehand into our slack channel (https://go.mlops.community/slack) Watch some old meetups on our youtube channel: https://www.youtube.com/channel/UCG6qpjVnBTTT8wLGBygANOQ //Relevant Links https://engineering.salesforce.com/flow-scheduling-for-the-einstein-ml-platform-b11ec4f74f97 https://engineering.salesforce.com/ml-lake-building-salesforces-data-platform-for-machine-learning-228c30e21f16 ----------- Connect With Us ✌️------------- Join our Slack community: https://go.mlops.community/slack Follow us on Twitter: @mlopscommunity Sign up for the next meetup: https://go.mlops.community/register Connect with Demetrios on LinkedIn: https://www.linkedin.com/in/dpbrinkm/ Connect with Manoj on LinkedIn: https://www.linkedin.com/in/agarwalmk/ Timestamps: [00:00] Happy birthday Manoj! [00:41] Salesforce blog post about Einstein and ML Infrastructure [02:55] Intro to Serving Large Number of Models with Low Latency [03:34] Manoj' background [04:22] Machine Learning Engineering: 99% engineering + 1% machine learning - Alexey Gregorev on Twitter [04:37] Salesforce Einstein [06:42] Machine Learning: Big Picture [07:05] Feature Engineering [07:30] Model Training [08:53] Model Serving Requirements [13:01] Do you standardize on how models are packaged in order to be served and if so, what standards Salesforce require and enforce from model packaging? [14:29] Support Multiple Frameworks [16:16] Is it easy to just throw a software library in there? [27:06] Along with that metadata, can you breakdown how that goes? [28:27] Low Latency [32:30] Model Sharding with Replication [33:58] What would you do to speed up transformation code run before scoring? [35:55] Model Serving Scaling [37:06] Noisy Neighbor: Shuffle Sharding [39:29] If all the Salesforce Models can be categorized into different model type, based on what they provide, what would be some of the big categories be and what's the biggest? [46:27] Retraining of the Model: Does that deal with your team or is that distributed out and your team deals mainly this kind of engineering and then another team deal with more machine learning concepts of it? [50:13] How do you ensure different models created by different teams for data scientists expose the same data in order to be analyzed? [52:08] Are you using Kubernetes or is it another registration engine? [53:03] How is it ensured that different models expose the same information?

Data Science Imposters Podcast
Is Feature Engineering a low hanging fruit?

Data Science Imposters Podcast

Play Episode Listen Later Oct 19, 2020 39:16


In this episode, Antonio explains to Jordy what he knows about feature engineering from work, Kaggle projects, and general research. Antonio talks about featuretools which he was able to use recently. Feature Engineering appears to be an area that could really enhance machine learning in significant ways. What do you think? Do we need experts Read More ...

The Artists of Data Science
The Philosopher of Data Science | Giuseppe Bonaccorso

The Artists of Data Science

Play Episode Listen Later Sep 28, 2020 88:31


Giuseppe Bonaccorso is an experienced and goal-oriented leader with wide expertise in the management of Artificial Intelligence, Machine Learning, Deep Learning, and Data Science. His experience spans projects for a wide variety of industries including: healthcare, B2C and Military industries, and Fortune 500 firms. His main interests include machine/deep learning, data science strategy, and digital innovation in the healthcare industry. You may recognize him from the many best-selling machine learning books he's published including: Python: Advanced Guide to Artificial Intelligence, Fundamentals of Machine Learning with scikit-learn, and Hands-On Unsupervised Learning with Python. WHAT YOU'LL LEARN [00:13:01] The need for creating a culture of data science [00:16:08] Why you need to be more than a nerd [00:27:06] Heuristics for scaling data [00:35:50] How to cross-validate [00:43:53] Feature engineering techniques [00:46:50] A lesson on tuning hyperparameters [00:51:33] A lesson on using regularization [00:58:01] What to do after model deployment QUOTES: [00:10:29] "Data science is not something that can be learned in a week or even in a month. It's a real topic with a lot of theory behind. And it's very important for the practitioners to have clear ideas about what they do." [00:22:45] "Another very important thing when defining a model is that our goal is not necessarily to describe what we already know, but to make predictions. So our model must become a sort of container of future possibilities. " [01:06:14] "Data science is a science for sure. There is mathematics behind and we never we should never forget this. But I consider also mathematics and mix of science and art." [01:09:48] "The only way you can really expand yourself is to be curious, to learn the new processes, to learn how other people work, to talk to other people, to understand how your business work." FIND GIUSEPPTE ONLINE: Website: https://www.bonaccorso.eu/ LinkedIn: https://www.linkedin.com/in/giuseppebonaccorso/ Twitter: https://twitter.com/GiuseppeB SHOW NOTES: [00:01:44] Introduction for our guest [00:03:06] How Giuseppe got into data science [00:04:37] The hype around data science [00:06:10] Machine learning in the future [00:07:33] The biggest positive impact data science will have in the near future [00:10:13] How to minimize the negative impacts of data science [00:13:39] Healthy vs unhealthy data science culture [00:17:45] Good vs great data scientists [00:21:50] What's artists I would love to hear from you. [00:22:33] What is a model and why do we build them in the first place? [00:27:06] Heuristics for scaling data [00:35:50] With so many methods of cross-validation out there, how can we know which one to utilize for any given scenario? [00:43:43] How we can be more thoughtful with our feature engineering feature? [00:46:50] Tips on tuning hyperparameters [00:51:33] A lesson on using regularization [00:58:01] What to do after deployment [01:01:24] The data generating process [01:04:00] Keywords you need to search to learn more about different parts of the machine learning pipeline [01:06:01] Do you consider Data science and machine learning to be an art or purely a hard science? [01:07:21] Creativity and curiosity [01:10:38] How could Data scientists develop their business acumen and cultivate a product sense? [01:13:50] Advice for people breaking into the field [01:17:19] What's the one thing you want people to learn from your story? [01:19:08] The lightning round Special Guest: Giuseppe Bonaccorso.

Machine learning
Feature engineering using pandas and logistic regression and decsion trees

Machine learning

Play Episode Listen Later Sep 5, 2020 39:09


Recap of this week

The Artists of Data Science
Physics and the Art of Data Science | Santona Tuli, PhD

The Artists of Data Science

Play Episode Listen Later Aug 13, 2020 76:28


On this episode of The Artists of Data Science, we get a chance to hear from Santona Tuli, a physicist and data scientist who has a PhD in physics specializing in nuclear science and quantum chromodynamics. She currently leads a team of five doctoral and postdoctoral physicists studying a new plasma phase of matter and the elusive nuclear effects in high energy proton and nucleus collisions at the Large Hadron Collider at CERN in Geneva, Switzerland. Santona shares with us her journey into data science as a physicist, and her perspective on the future of the field. She also discusses the differences between data science and decision science, tips to break into the field, and advice for women in STEM. It was an absolute delight hearing Santona's advice, and I believe her unique perspectives can help all data scientists! WHAT YOU'LL LEARN [4:46] Where the field of data science is headed [32:42] Is data science an art or science? [49:07] Tips for breaking into data science [57:55] How to get over the perfectionist mindset and feeling like a failure [1:02:07] Diversity and inclusion of minorities in STEM QUOTES [34:51] “...just being able to step outside and think of alternative approaches, stepping outside the predefined paths. To me, that's how the creative part of my brain is really engaged when I'm doing Data science.” [39:38] “...the audience should be able to look up at this screen and see themselves reflected in it, being able to understand that the physics that's going on...physics is very much within their reach. Science is very much within their reach.” [52:40] “...separate or distinguish what the end goal is and the steps that you need to take in order to get there” [55:21] “get over this idea that it has to be perfect before [you] push it out...What's the worst that can happen? Maybe someone criticizes in some way...But it might turn out that this criticism that you're receiving on it is actually going to help you iterate on that project and make it better.” WHERE TO FIND SANTONA LinkedIn: https://www.linkedin.com/in/santona-tuli/ SHOW NOTES [00:01:21] Introduction for our guest today [00:02:40] The path into data science [00:03:20] What the heck is quantum chromodynamics? [00:03:54] Data science and the study of nuclear forces [00:04:49] The future of data science [00:08:17] Data science and empathy [00:09:27] How to be a great data scientist [00:10:48] What is CERN? [00:13:13] What is this Y particle? [00:15:15] The data science work flow and particle physics [00:20:25] Data reduction and data bottlenecks [00:23:43] Selection cuts and rules based clustering [00:29:43] The importance of feature engineering [00:32:31] How do you view data science? Do you view it as an art or a science? [00:34:17] How does the creative process come to life in Data science? [00:36:39] Santona talks about the IMAX movie that she stars in [00:40:43] The difference between interpretable and explainable machine learning. [00:44:22] Decision science and data science [00:48:49] Words of encouragement for people learning new things [00:51:04] What does it mean to think like a product manager? [00:54:14] Break free of the perfectionist mindset [00:57:00] How to deal with feedback and criticism [00:58:31] What are some soft skills that you think Data scientists are missing? [01:01:29] Advice and words of encouragement for the women in our audience who are breaking into tech or currently in tech. [01:05:48] Santona talks about the impact she hopes to have on young women in STEM [01:09:08] What can men do, in particular in the Data community, to help foster the inclusion of women in STEM, in tech and Data? [01:11:28] What's the one thing you want people to learn from your story, [01:11:57] What's your data science superpower. [01:12:02] What would you say is the most fundamental truth of physics that all human beings should understand? [01:12:19] What do you think is the most mysterious aspect of our universe? [01:12:43] What is an academic topic outside of Data science that you think every data scientist should spend some time researching or studying on. [01:12:53] What's the number one book? Fiction, nonfiction? Or if you want to pick one of each that you would recommend our audience read. And what was your most impactful takeaway from it? [01:14:02] If we can somehow get a magical telephone that allowed you to contact 18 year old Santona, what would you tell her? [01:15:09] What song do you have on repeat. [01:15:28] How do people connect with you? Where can they find you? Special Guest: Santona Tuli, PhD.

PaperPlayer biorxiv bioinformatics
Rapid discovery of novel prophages using biological feature engineering and machine learning

PaperPlayer biorxiv bioinformatics

Play Episode Listen Later Aug 10, 2020


Link to bioRxiv paper: http://biorxiv.org/cgi/content/short/2020.08.09.243022v1?rss=1 Authors: Siren, K., Millard, A., Petersen, B., Gilbert, M. T. P., Clokie, M. R., Sicheritz-Ponten, T. Abstract: Prophages are phages that are integrated into bacterial genomes and which are key to understanding many aspects of bacterial biology. Their extreme diversity means they are challenging to detect using sequence similarity, yet this remains the paradigm and thus many phages remain unidentified. We present a novel, fast and generalizing machine learning method based on feature space to facilitate novel prophage discovery. To validate the approach, we reanalyzed publicly available marine viromes and single-cell genomes using our feature-based approaches and found consistently more phages than were detected using current state-of-the-art tools while being notably faster. This demonstrates that our approach significantly enhances bacteriophage discovery and thus provides a new starting point for exploring new biologies. Copy rights belong to original authors. Visit the link for more info

Reversim Podcast
393 Bumpers 68

Reversim Podcast

Play Episode Listen Later Jul 27, 2020


פרק מספר 68 של באמפרס (393 למניין רברס עם פלטפורמה) - רן, אלון ודותן נפגשים שוב ב-8 ביולי 2020 בעיצומו של הגל השני, מקליטים מהבית דרך Zoom . . . ואף על כן - באמפרס: רן, אלון ודותן עם סידרה של קצרצרים על מה שקרה ברשת, מה עניין אותנו, בלוג-פוסטים מעניינים שנתקלנו בהם, Repos מעניינים ב-GitHub ועוד.אז נצלול . . .רן - חברת Microsoft הוציאה לקוד פתוח את התוכנה שנקראת GW-BASIC - מי זוכר מה זה?מדובר בשכלול קל על ה-Basic הרגיל, הכי בסיסיה-GW-BASIC הייתה אחת הגרסאות הכי פופלאריות של Basic - יכול מאוד להיות שאם אתם מכירים Basic, אז אתם מכירים את הגרסא הזו.למעשה, Microsoft גם הוציאו בלוג-פוסט וגם Repo ב-GitHub, ששם נמצא כל ה-Source Code של GW-BASIC(דותן) שאפו על זה שהם ממש שמו היסטוריה אמיתית ב-Git - יש כאן “38 years ago” . . .(רן) כנראה באמת שיחזרו את ההיסטוריה, כי Git לא היה קיים לפני 38 שנים . . .אתם יכולים לגשת לכל קבצי ה-ASM (הלא הם ה-Assembly!) ולקרוא את הפקודות - אשכרה פקודות-מכונה שבאמצעותן נכתב GW-BASICמרתק למי שבקטע - או סתם נוסטלגיה למי שפחות.(דותן) אתם יודעים מה זה אומר? (אלון) שאפשר להתחיל לכתוב ב-BASIC?(דותן) גם - וגם שצריך להתחיל לפתוח להם Pull-Requests . . . למה אין Source folder?! למה אין Make?!(רן) לגמרי - מבחינת איכות כתיבת הקוד . . .(דותן) אין פה Folders בכלל! מחפש איפה להיכנס ואין לאן.(אלון) אני לא יודע האם לפני 38 שנים Windows ידע לעבוד עם Folders - בעצם זה היה עוד בכלל DOS . . .(דותן) כן, יש פה Code of Conduct ו-Contributing . . . תתרום! אה, בעצם - “Please do not send Pull Requests” . . .(רן) למרות שיש פה ושם עדכונים - ראיתי אחד לפני חודשיים, אז זה לא שזה לגמרי הכל כמו לפני 38 שנים, אבל הרוב כן.(דותן) וכולם כל כך ממושמעים - אין כאן אפילו Pull Request אחד שנפתח, לא Closed, לא כלום . . .(רן) כן, טוב - הם הבעלים של הפלטפורמה, בוא לא נשכח . . .סקר של Stack Overflow שהתפרסם לא מזמן - הסקר השנתי שלהם של שנת 2020הם כל שנה מוציאים סקר וזה תמיד מעניין ונחמד לקרוא את מה שהם כותבים.הפעם הדבר הבולט ביותר בעיני הוא שויזואלית - זה מהמם . . . פשוט מעוצב יפה.יש שם גם הרבה תוכן, אבל הדבר הראשון שבולט לעין (כן . . .) זה שזה מעוצב יפה, עם JavaScript כזה אינטראקטיבי וכל מיני גרפים שזזים.על הסקר ענו 65,000 מפתחים מרחבי העולם - אפשר לראות פרטים דמוגרפיים שלהם וכו’.אני לא זוכר איזשהו אייטם ספציפי לגבי שאלות או תשובות מעניינות שראיתי, אבל יש שם המון אינפורמציה - כל אחד ימצא את מה שמעניין שם.יש המון אינפורמציה על טרנדים דמוגרפיים וטרנדים בתעשייה - אם זה טכנולוגיות ודברים כאלהפשוט כיף לראות את זה, ויזואלית זה מאוד יפה, עם הרבה מאוד אינפו-גרפיקות מכל מיני סוגים.אם אתם זוכרים, באחד הפרקים שעברו דיברתי על זה שאני קורא כמה ספרים ובינתיים לא מצאתי משהו מעניין - אז מצאתי ספר טוב שאני כן רוצה להמליץ עליודותן, זוכר? אמרת שברגע שיהיה משהו להמליץ אז נמליץ? אז הנה - ספר שאני עדיין בעיצומו ולא סיימתי לקרוא אותו ונקרא An Introduction to Machine Learning, שזה תחום שאני עוסק בו בזמן האחרון.הורדתי את הספר אונליין, אני קורא אותו כ eBookמה שאני אוהב בספר הזה זה(1) הוא כתוב בשפה מאוד יפה, זאת אומרת - בניגוד לספרים אחרים שקראתי והייתה בהם אנגלית “קצת שבורה ומעצבנת”, כאן זאת באמת שפה יפה שכיף לקרוא ובנוסף (2) יש בו הרבה מאוד תרגילים - בסוף כל פרק - שמאוד עוזרים להפנים את החומר.יש שלושה סוגי תרגילים - סוג אחד הוא “תרגילי חשיבה”; סוג שני הוא “קח נייר ועפרון ותעשה חישוב” וסוג שלישי של כתיבת תוכניות שמממשות Perceptron או מסווג מסוג כזה או אחר - וזה מאוד עוזר להפנים את החומר.אז הספר נקרא An Introduction to Machine Learning, בהוצאת Springer, המחבר הוא Miroslav Kubat - אמריקאי מאוניברסיטת פלורידה (מיאמי)אם אתם בעניין של לעשות איזושהי הכרות עם Machine Learning אז זו היכרות די מעמיקה, אני חייב להגיד.(דותן) עד כמה הוא פרגמטי? או אם לשאול בצורה אחרת - אתה צריך לדעת אלגברה לינארית לפני כן? להיזכר בכל מיני דברים מהאוניברסיטה, או שהוא מאוד פרגמטי?(רן) הוא לא מאוד פרגמטי . . . הוא לא מדבר על ספריות כמו Pandas או TensorFlow, לא מדבר בכלל על כליםהוא מדבר ברמה התיאורטית - אבל התרגילים הם כן פרקטיים, זאת אומרת שצריך ממש לכתוב תוכנהאני את התרגילים האלה כותב ב Clojure מתוך היצר המזוכיסטי שלי . . .אתה כן מקבל איזשהו ניסיון תכנותי - אבל הוא לא פרגמטי כל כך במובן של “להכיר כלים אמיתיים”.מבחינת ידע ורקע - אני חושב שמתימטיקה ברמה של תואר ראשון זה לגמרי מספיק, כנראה שאפילו פחות, אולי אפילו רק השנה הראשונה של התואר הראשון מספיקה; אלגברה לינארית ברמה לא גבוהה מדי, חשבון אינפיטיסימלי או חדו”א (!) ברמה גם לא-מאוד-גבוהה - צריך להבין מה זו נגזרת, מה זה אינטגרל, דברים כאלה . . . שנה ראשונה באוניברסיטה בכל אחד מהמקצועות המדעיים נותנת לכם רקע מספיק בשביל הדברים האלה, עם קצת הבנה בהסתברות וסטטיסטיקה, אולי קצת הבנה בקומבינטוריקה אבל לא הרבה. זהו . . .זה לא ספר קל, אני חייב להגיד (כי עד עכשיו נשמע סבבה) - דורש קריאה איטית ומחשבה, אז גם אם יש לכם את הרקע, זה לא רומן . . . זה משהו שדורש מחשבה והעמקה ובעיקר תרגול.בכל אופן - אני אוהב את הספר. המלצה!(אלון) טוב לדעת . . . אבל אם לא סיימת, עדיין אפשר לעשות לך ספויילרים על מה קורה בסוף! נגלה לך איזו תוכנה אתה כותב בסוף . . .זה ספר על Machine Learning, מה כבר יכול לקרות?(רן) האם המסווג הוא חיובי או שלילי?נושא אחר אבל קצת דומה (ופרגמטי) - בלוג-פוסט של GitHub שמתאר איך הם עושים MLOps (שזה בעצם Machine Learning Ops) באמצעות GitHub Actionsה - GitHub Actions הוא Feature בן שנה בערך, אולי יותר - ומאפשר לעשות לא רק CI מעל GitHub אלא בכלל איזושהי אוטומציה יותר כלליתלמשל - בכל פעם שעושים Push, אז להריץ איזשהו Pipelineכאן הם מתארים כל מיני משימות סטדנרטיות שיש ב-Machine Learning, שהם מכנים בשם הכללי “MLOps”לא שהם המציאו את השם הזה, הוא היה כבר קייםלמשל - ניקוי Data או Feature Engineering או הרצה של כל מיני Frameworks (במקרה הזה מדברים על binder) - דברים כאלהוכל זה - ב-Pull Request, וזה נחמדהרבה פעמים כשמפתחים איזשהו מודל ורוצים לעשות אופטימיזציות, רוצים לראות שלא עשינו משהו יותר גרוע, שלא שברנו משהו - וזה נחמד שכל הדברים הללו יכולים לקרות בצורה אוטומטית.אתם חושבים ששיפרתם משהו - עשיתם Commit לאיזשהו פרמטר ואז פתאום מגלים ששברתם משהו אחר . . . זה כל ה- Concept מאחורי Contentious Integration.בהקשר הזה - MLOps זו התשובה, והם נותנים דוגמא שלה באמצעות GitHub Actions(אלון) זה נשמע ממש בסיסי . . מה הבשורה שלהם?(רן) כקונספט, לנו כמהנדסים, אין כאן שום דבר חדש - אבל הם כן מראים איך הם עושים אינטגרציה לכלים הרלוונטיים השונים.איך אתה עושה Extraction ל-Data, איך אתה עושה Feature Engineering, איך אתה מריץ את המודל - וכל זה בתוך ה-Containers שלהםלמי שעושה CI כבר שנים אין פה חדש, אני מסכים - זה לא קונספט חדש, אלא משהו יותר פרקטי, מראים את הכלים עצמם(אלון) משעשע שהם משתמשים Argo עבור Workflow, ולא במשהו פנימי . . . לא ידעתי שמישהו משתמש בזה חוץ מאיתנו . . .שפה בשם goplus - וכן, זה “Go עם עוד קצת” . . .זה מעיין Super-set של Go, כשכל תוכנית ב-Go היא גם תוכנית ב-goplus - אלא של-goplus יש גם Syntax נוסף שמאפשר לה להיראות קצת כמו Script, קצת כמו Python באיזשהו מובן.לא חייבים להכריז על פונקציה, אפשר פשוט לכתוב “=:a” ולכתוב לשם איזשהו מערך וכו’ - נותן איזשהו “Feel” של Python (או Ruby או JavaScript), אבל עם Syntax שהוא מאוד Go-י - קצת כמו לקחת את Go ולעשות ממנו Script.כמה פיצ’רים בולטים - אפשר פשוט להריץ את זה כסוג של Script, לא צריך לכתוב פונקציה כדי להריץ משהוכמו ב-Python, יש יכולת לעבוד על List Comprehensions (או Map Comprehension), שכל מי שאוהב את Python בודאי מכיר - For x in . . . where x>3 - אז אפשר לעשות את זה גם למערכים וגם ל-Maps, וזהו מאוד קומפקטי ונחמדזה לגמרי Compatible עם Goויש עוד הרבה פיצ’ריםויש גם Playground - כמו שיש את ה Go Playground, יש גם Go+ Playground, שזה נחמדכל הקונספט של זה, לפי מה שרשום, זה שזה אמור להיות ידידותי ל-Data Science: ה-Tagline הוא The Go+ language for data scienceלמה זה “ידידותי ל-Data Science”? כי Data Scientists בדרך כלל עובדים בתוך Notebooks, כותבים סקריפטים קצרים ורוצים לראות מה התוצאה - ולכתוב תוכנית ב-Go זה לפעמים overhead שהוא קצת פחות מדבר ל-Data Scientists, ובגלל זה Python כל כך קוסמת.אז goplus מביא את חלק מהיתרונות של Python לפהכמובן שהחלק המשמעותי הוא הספריות - שאולי חלק מהן קיימות, אבל זה ממש לא באותה רמה של Python, אבל השפה כבר פה.האם זה חילול הקודש או ברכה? לא יודע, כל אחד עם הטייק שלו . . . מי שאוהב את Go ואוהב אותה כמו שהיא אז עבורו זה כנראה חילול הקודש, אבל למי שרוצה לראות את Go מתפתחת לכל מיני כיוונים אז זה אולי אחד מהכיוונים.דרך אגב - אני לא רואה את המפתחים של Go מאמצים משהו מפה - זו לגמרי שפה אחרת, אפשר לחשוב על זה כמו על C ועל ++C - יש כאלה שפשוט ישארו עם C תמיד ולא ילכו ל++C, וזה לא מתערבב.בכל מקרה - זה מעניין, וזה Repo שהושקעה בו הרבה מאוד עבודה - וגם מאוד פופולארי ב-GitHub(אלון) יש פה כמה קונספטים ממש מעניינים . . . ה-Error-Handling זה משהו שמאוד התחברתי אליו, הוא הרבה יותר הגיוני לדעתי.אני חושב שלקחת את Go ולהביא אותה ל - Data Science זה מעניין, אבל לדעתי זה לא יבוא מ-Go אלא יבוא מ-Rust כי Facebook מאוד דוחפים לזה, אבל זה מעניין, קונספט מעניין ומבורך.(רן) דרך אגב - יש ספריות Data Science ב-Go, הן לא עשירות כמו אלו של Python אבל בהחלט קיימות. בואו נראה . . .גם ב-Rust זה מעניין - יכול להיות שאת ספריות ה-Core, אם היום כותבים אותן ב-++C אז מחר יכתבו אותן ב-Rust, אבל עדיין משתמשי הקצה . . . הרבה מה- Data Scientists לא כותבים ב-++C אלה ב-Python או R, ואני לא רואה אותם עוברים ל-Rust סתם ככה, אלא אם כן הם באמת צריכים לכתוב ממש ספריות, וזה לא רוב הזמן.אלון - נתחיל מאחד הנושאים הפופולאריים - הפגנות Black Life Matter: התחילו לעשות “ניקוי שורות” בכל מיני שפות, נתחיל ב-Go כדי להמשיך את הקו: Pull request של להעיף את כל הרפרנסים ל - White list מול Black list או Master ו-Slave מה-Core Library של Goשמתי את זה בתור אחד מהראשונים שלי, ואז זה התחיל לתפוס פופולאריות בעוד כל מני מקומות, ולהתחיל להעיף איזכורים מעוד כל מיני מקומות.הרעיון הוא ש -whitelist/blacklist זה דבר פוגעני, וצריך להחליף ל Allowlist /Blocklist - שזה גם שמות יותר ברורים, האמת.ואת master/slave ל- Primary / Secondary אני חושב, לא רואה את זה כרגע.בקיצור - הרבה שפות התחילו לשנות, לא רק Go, והמונחים שאנחנו רגילים להשתמש בהם הולכים להשתנות כנראה בתקופה הקרובההדבר היחיד שעוד לא ראיתי ששינו זה את ה Git Repo - ה-Root זה עדיין Master . . . אבל עוד לא ניתקלתי במחאה בכיוון הזה.(דותן) חייב להגיד שאני נפלתי פה - לקחתי את ה-Commits שיש פה, סתם כדי להסתכל, ונפלתי על To-Do - שינו את הטקסט ב To-do, והיה שם Split כדי שאפשר יהיה לעשות allowlist במקום whitelist - אז אם כבר נכנסו ושינו, לא לא כבר עשו את ה-To-do? . . .(אלון) אם אתה הולך נגיד על fmt, אז שינו שם למשל את blacklist ל-blocklist . . .(דותן) כן - אבל יש שם הערה שאומרת “to-do: צריך לממש את זה אחרת”, ואם אתה כבר עושה re-factor ל-Comment אז כבר תעשה מימוש . . .(אלון) תראה, אני לא נכנסתי פה . . .(דותן) אבל אתה כבר שם! שינית את ה- whitelist ל-allowlist . . .(אלון) בסוף זה Copy-Paste-Replace . . . כן, שינו - אתה יכול לעבור על ה-commits, חלקם זה באמת Comments (בתוך ה-GC זה Comment) . . .בתוך loader.go שינו whitelist ל-allowlist(דותן) אז צריכים לעבור קובץ-קובץ ולהכריז . . .(אלון) כן, אין הרבה שינויים - אבל עשו עבודה, וזה לא במקום היחיד שעשו את השינוי הזה.טוויט נחמד שנתקלתי בו - Ashley Willis שאלה What’s the best tech talk you’ve ever seen?מה שמעניין זה שיש פה מאות תשובות עם לינקים להרצאות, שכל אחד טוען שזו ההרצאה הכי טובה שהוא ראהעברתי על זה ברפרוף ואמרתי שאני שומר לעצמי את הלינק הזה - והעבודה הבאה היא לפלטר לי מפה הרצאות ולהכין רשימת צפייה, כי זה בטח שווה משהו, אם כל אחד שם את ההרצאה שהוא חושב שהיא הכי טובה אז בטח יש פה רשימה מכובדת, “חוכמת ההמונים” וכו’.נראה כמו לינק שעבור מי שמחפש הרצאות לראות אז זה יהיה מאוד שימושי עבורו.(דותן) יש על זה כבר Crawling או עוד לא? . . . (אלון) לא . . .הנה , יש לך הזדמנות - שמו לפעמים את אותו לינק פעמיים ואז תדע עם מה להתחיל.(רן) רציתי להגיד שזה מדהים, מבחינת חדשנות ישראלית, איך לכל דבר אנחנו מביאים את ה-Touch האישי שלנו, פשוא מדהים המוח היהודי . . .(דותן) צריך רק למצוא איזו תמונה של מישהו מרצה על איזשהו Slide, ואז כשאתה לוחץ . . .(רן) כן, בשנות התשעים זה היה אחד הטובים(אלון) היית עושה מליונים, הרבה לירות היה יוצא לך מזה . . . בקיצור, יש כאן הרצאות ענתיקות בחלקן וחלקן מהשנים האחרונות, אנשים שמו פה הרצאות גם מ-1900 ומשהו, אני לא יודע אם היה למרצה מחשב באותה תקופה, כל מיני כאלה - וחלק זה ממש מהשלוש-ארבע שנים האחרונות אז כנראה יותר רלוונטי . . . נראה לי מגניב(דותן) אני גם לא רואה כאן את Remembering Joe . . .(רן) של Joe Armstrong? אני חושב שאני מכיר . . .(דותן) זה היה באחד הפרקים (369 הקוסמי!), מה זאת אומרת?!(רן) בסדר, לא כולם מקשיבים (ברור, חלק רק קוראים)(אלון) דווקא חושב שראיתי את Joe Armstrong שם, די בטוח - בקיצור, תעבור, תכין רשימה יותר מצומצמת, ניתן לרן לצמצמם עוד קצת - ואז אני אסתכל(דותן) אי אעשה את הישנים והטובים, אתה תעשה את המודרניים והמגניבים(רן) ואני דורש שיהיו בכל רשימה לפחות חמישה מכנסי רברסים שעברו . . .(אלון) זו הזדמנות להכניס שם ל-List ולהתחיל להפציץ אותו . . . אני מבקש מכל המרצים: כל אחד, שישים את הלינק של עצמו.זו קריאה למרצים! - שימו את הלינק להרצאות שלכם שם, ואז אתה מקפיץ את הכנס כנס? 2020?ספריה ישראלית - golang mediary - של Here Mobilityהוספת interceptors ל-http.Clientשלחו לי - הסתכלתי - נחמד - מפרגן בכיףהרעיון הוא שאפשר להתחבר על ה HTTP Request - לפני ה-Request, אחרי ה-Request, ואז לעשות אינטרפולציות ל-Request עצמו או ל-Responseאפשר להוסיף לוגים או דברים של Security או statsd . . . יש דוגמאות, גם Tracing . . . יכול להיות מענייןנראה חמוד למי שצריך את זה, ספריה צעירה יחסית - שיהיה בהצלחה! אני אהבתיונמשיך עם Go, ככה יצא הפעם - mockery זו ספריה שמאפשר לעשות Mock-ים ב-Goספרייה מאוד פשוטה וחמודה - למי שמחפש לעשות Unit Test ומחפש איך למקמק (create mocks) קוד - שווה להסתכלנחמד, פשוט, קליל, שימושי ונוח.(רן) ואחת הפופולאריות שבהן - יש עוד אחת-שתיים, אבל זו אחת הפופולאריות ביותר(אלון) מה שמפתיע זה שגם הפופולאריות לא פופולאריות . . . פחות מ-2000 Stars זה . . . או שאנשים לא עושים טסטים, גם אופציה(רן) אני חושב שפשוט צריך הרבה פחות Mocks, במיוחד ב-Go, בעיקר בגלל הגישה של ה-Interfaces - פונקציה שמקבלת Interface, אז אם הוא מספיק “רזה” זה כל כך קל למקמק (Mock) בעצמך כך שאתה לא חייב שום Framework.מתי כן צריך Framework? אולי לא צריך - אבל מתי תרצה? או כשה-Interfaces יחסית ארוכים ואתה לא רוצה למקמק הכל בעצמך, או כשאתה רוצה לעשות Spying: לספור את מספר הקריאות או משהו כזה, ואז אתה כבר תלך ותשתמש באיזשהו Frameworkאני, בטסטים שלי, פשוט יוצר Instances של ה-Interfaces בלי להשתמש באף Framework - יותר קומפקטי, יותר מובן, לדעתי, לא מצריך ללמוד עוד Framework - אני חושב שזה לפחות חלק מההסבר(אלון) כן, אבל הרבה פעמים יש דברים מורכבים . . . זה נכון לדברים יותר פשוטים, אבל כשאתה בא לספריית צד-שלישי בדרך כלל, עם כל מיני התחברויות ודברים שקורים . . . זה יותר מורכבאני ניסיתי פעם למקמק ל-S3, וזה לא היה סימפטי(רן) במקרים כאלה אני באמת לא אקח את זה על עצמי ובאמת אשתמש בספרייהאו שאני אשתמש בבדיקות אינטגרציה (Integration Testing), למשל - ארים Container שיש לו Interface של S3 - מכיר את Testcontainers? יש להם מלא קונטיינרים עם כל מיני כלים - S3 זה אחד מהם אם אני לא טועה, יש ל-SQS ולעוד כל מיני דברים כמובן - כל הדברים הסטנדרטיים כמו Databases מסוגים שוניםאז אתה יכול פשוט להרים Container - ודרך אגב יש לזה גם תמיכה ב-Go: אתה יכול לעשות setup לטסט שמרים לך Container בהתחלה ואז מוריד את ה-Container, ולפעמים זה יותר נוח מאשר למקמק (Mock it) את זה בעצמךזה אמנם רץ יותר לאט, אבל מצד שני זה קצת יותר אמין, מבחינת ה-API(אלון) מבחינת טסטים ל-Integration זה הכי נחמד - אבל זה כבר Integration Test ולא Unit Test.(רן) נכון, זה כבר לא Unit Test - אבל אתה כבר עובד עם S3, האם זה עדיין Unit Test? שאלה פילוסופית . . . אם אתה גם ככה כבר עובד עם משהו כבד חיצוני, זה כנראה גם ככה כבר לא ממש Unit Test.(אלון) זה ברור, אני נכנסים פה כבר לפילוסופיה . . .(דותן) זה עניין של טעם, בסוף - טעם ואיזון.(רן) לגמרי - אני לא מנסה להחליט מה זה Integration Test ומה זה Unit Test כי לא נצא מזה בחיים - רק אומר שיש לך כאן כמה אופציות, ואחת מהן זה באמת לעשות Mocking באמצעות mockery או באמצעות כלים אחרים; אופציה שנייה זה לקחת את ה-Interfaces ולממש אותם בעצמך, וזה נוח כשה-Interfaces יחסית “רזים”; ואופציה שלישית זה באמת להרים Service, אם אתה מדבר עם Service - להרים Service ב-Container ליד; או, רחמנא ליצלן! - לדבר עם ה-Service האמיתי (למשל S3 האמיתי), אבל זה ברוב המקרים הכי פחות מומלץ.אם אתה באמת הולך על הגישה של Container - יש Framework כזה שנקרא Testcontainers, שיש לו תמיכה בהמון שפות - Java ו-Go ובטח עוד הרבה - שממש נותנים לכם בזמן ה-Setup של הטסט להרים Container ולהוריד אותו בסוף הטסט, והאינטגרציה הזו מאוד נחמדה.(אלון) זה חמוד ממש - ותמיד יש את ההמלצה הקבועה: הכי טוב זה טסט אמיתי - טסט על Production! למה לא לנצל את זה?(רן) Famous last words . . .דותן - ספריה ש-Apple הוציאה, או יותר כמו Framework, בשם ExposureNotificationאם נחבר את זה לאקטואליה - בעצם הם ייצרו Framework סטנדרטי שממדל חשיפות ל - COVID-19זה חלק מההכרזות שלהם לא מזמן (iOS 13.5 release)- הם ראו שיש כל מיני ממשלות או כל מיני אפליקציות שמנסות למדל חשיפות לקורונה על גבי מפה וכו’ - והם פיתחו עבור זה API סטנדרטיעכשיו אם אתה רוצה לבנות אפליקציה כזו - אתה יכול להשתמש בספרייה הזאת, והיא גם עוזרת לך פה ושם.אני (דותן) נכנסתי לקרוא את ה-Interface, ויש שם כמה חלקים מגניבים, שאולי מגיעים משפות של רפואהלדוגמא, לרגע התבלבלתי כשהיה כתוב שם “Transmission risk level” ו-”Signal” - אני לקחתי את זה לכיוון של רדיו וכו’ . . .(רן) אתה כנראה הסתכלת על טורי פורייה, אבל הכוונה לביולוגיה . . .(דותן) בדיוק . . . הכוונה ל-Transmission של המחלה, אולי ה-Signal של המחלה? בכל אופן - נראה מעניין, לפחות ברמה של ה-API, שאפשר לקרוא איך נראית קורונה דרך API . . . זה מגניב, וכמובן שאם מישהו רוצה לפתח אפליקציה פופולארית ל-App Store, אז זה מקל את הכאב . . .(רן) דרך אגב - לא דיברנו כאן ואולי שווה לדבר על איך עובדות אפליקציות למעקב אחרי קורונה . . . בגדול, לפי מה שאני (רן) יודע, יש שני סוגים - סוג אחד זה לפי קירבה - משתמש ב-Bluetooth ועושה איזשהו מעקב אחרי מי נמצא ליד מי, למשל אם אתם נמצאים במקום ציבורי, אז ה-Bluetooth שלכם “מדבר” עם Bluetooth של אחרים, וככה אתם יודעים אם אתם קרובים למישהו אחר - ואם אחר כך מתגלה שהוא חולה, אז יש את המעקב הזה.איך זה נשמר ואיך באמת עושים את הגלוי? זה כבר סיפור אחר . . . אבל לפחות ברמה העקרונית, ברמה הפיזית, הגילוי הוא באמצעות Bluetooth.שיטה אחרת זה באמצעות מיקום - GPS וכו’למיטב ידיעתי, השיטה של ה-Bluetooth נקראת “השיטה הסינגפורית”, ואותה בסופו של דבר גם Apple וגם Google מאמצים - כשדיברו על זה ש-”Apple ו-Google משלבים ידיים למאמץ משותף” אז מדובר על זה, למיטב ידיעתי, בשיטה שמבוססת על ה-Bluetoothאלא שזה לא יהיה באפליקציה - זה יהיה ממש מוטמע במערכת ההפעלה, וזה יהיה Battery efficient וכל זה.השיטה של האפליקציה הישראלית שנקראת “המגן”, אני מניח שהרבה מכם התקינו אותה - זו דווקא שיטה שמתבססת על מיקום - ולכל אחד מהם יש יתרונות וחסרונות:ל-Bluetooth - מצד אחד הוא באמת יותר אמין - ברזולוציה, Bluetooth אמור לקלוט למרחק של כמה מטרים בודדים, כשהדבקה מוגדרת, אני חושב, כמצב שבו אתה נמצא רבע שעה במרחק של שני מטרים או פחות מבנאדם - ומרחק של שני מטרים או פחות זה משהו שבדרך כלל Bluetooth יודע ו-GPS פחות יודע, כי GPS (אזרחי…) עובד ברזולוציה יותר גבוהה.מצד שני - ל-Bluetooth יש גם יכולת לקלוט מעשרה או עשרים מטרים, תלוי בתנאי מזג האוויר ורעשי רקע ודברים כאלה.לכל אחד מהם יכולים להיות False Positives, ואולי גם False Negatives - אני לא מכיר את המקרים אבל יכול להיות שיש כאלה.זהו - אני חושב שזה מעניין, ככה, קצת לדבר על הטכנולוגיה שמאחורי זה, אבל אני שואל את עצמי האם באמת Apple ו-Google יכולים לקחת את ה-Bluetooth ולהוריד שם את רמת ה-False Positives בצורה משמעותית, כי בשביל להיות מסוגלים לעשות את זה, צריך גישה ממש למערכות הפיסיות, כדי להבין באמת מה עוצמת הסיגנל ומהן רמות ההפרעה וכו’, כדי להבין האם באמת הבנאדם קרוב או רחוק ממני.(דותן) וזו קריאה ל Apple ו-Google - לשלוח מכתב למערכת (AWS מאזינים מזמן . . .), אבל כן - זה מגניב(אלון) קודם כל - שמעתם את זה פה לראשונה, כי אנחנו תמיד חוזים דברים, זה ידועאבל רגע - “לפני מיליון שנה”, כשעבדתי באינטל, היו חיישני Bluetooth והיינו מבינים איפה הדבר נמצא לפי המרחקים ועוצמת ה-Bluetooth - עוד אז רישתנו הכל ב-Bluetooth וידענו להגיד איפה ה-Wafers נמצאים בכל רגע נתון לפי מרחקים - אז זה משהו שכבר קיים, לפי הרבה שנים(דותן) עוצמת הסיגנל של Bluetooth, אם אני זוכר נכון, קיים ב-iOS(רן) כאן, זה קיים - השאלה היא רק מה רמת הדיוק של זה? לפעמים עוצמה היא “5” כשאתה במרחק שני מטרים ולפעמים העוצמה היא “5” כשאתה במרחק של עשרה מטרים . . . זה לא מדויק. אתה יכול אולי באופן יחסי להגיד מי קרוב ומי רחוק(אלון) תראה (תשמע) - אני יכול להגיד לך שאנחנו אולי היינו (Literally) בתנאי מעבדה, אבל בתנאי מעבדה זה היה מאוד יציב . . . היה מאוד ברור וזה עבד מאוד טוב, הזיהוי מרחק של מקומות, זה היה עוד בזמן “Bluetooth 0” או לא יודע איזו טכנולוגיה זה היה, אבל ה-Bluetooth התקדם מאז די הרבה אז יכול להיות שעכשיו זה שונה - אבל בזמנו זה עבד, אז אני לא יודע מה הבעיה . . .(רן) הפיסיקה השתנתה . . . באמת, אין לי ידע עמוק בזה אז אם מישהו מהמאזינים מכיר אז מוזמנים לתקן אותי, למיטב הבנתי זה פשוט מאוד תלוי בתנאי הסביבה, ובאמת יש הבדל מאוד משמעותי אם אתה בתנאי מעבדה או לא - תלוי בלחות, תלוי במכשירים האחרים שנמצאים ליד, ואני מניח שבעוד כמה פרמטרים.אבל שוב - אני בטח לא מומחה לתחום, ואני גם שמעתי או קראתי את זה איפשהו.בכל אופן - אני חושב שזה מעניין עכשיו להגיד שבאמת יש שני מודלים, ויכול להיות שהתשובה היא איזשהו שילוב של שניהם, כדי להגיע לרמה דיוק יותר גבוהה - אבל שני המודלים האלה בגדול הם שאחד מתבסס על שירותי מיקום (כמו באפליקציית המגן הישראלית), והשני מתבסס על Bluetooth, זהו, Se Tu.(אלון) רק אסיים - הפיסיקה אכן השתנתה! בתקופתי העולם היה עגול ועכשיו אומרים שהוא שטוח, אז זה כנראה שינה את כל הפיסיקה(דותן) ואז ניהיה דור 5 . . . ספריה וכלי - streamlitמבוסס Python, או לפחות לקהילת ה-Python או ככה זה נראהלמי שמכיר את Swift Playgrounds - זוכרים שהייתה ההכרזה של Apple על Swift, ואז זה גם הופיע ב-iPad - שאתה צריך לכתוב קוד ומופיעה לך ויזואליזציה של הקוד שלך והכל אינטראקטיבי, אתה יכול להזיז Sliders כאלה, והקוד שלך בעצם משתנה לפי ה-Sliders?אז הם לקחו את הקונספט הזה - ועשו את אותו הדבר ל-Pythonלפחות מה-ReadMe נראה שקהל היעד זה בעיקר Data Scientists ואנשים שמתעסקים עם Data.שיחקתי עם זה קצת וזה אחלה לכל דבר - מספיק שיש לך פה Sliders ו-Controllers אינטראקטיביים, ויש לך איזושהי פונקציה ב-Python שאתה רוצה לשחק איתה, אז זה מהר מאוד יכול להפוך לכלי לימודי, בלי קשר ל-Data Science, אחלה דבר.(רן) אני מחכה לראות את זה נכנס לתוך Jupyter Notebooks, כי זה מתבקש הרבה פעמים רציתי לעשות איזושהי ויזואליזציה (Visualization) עם איזשהו Control של Slider, או משהו כזה - ועד עכשיו לא מצאתי, אז נראה שזו אולי התשובה, רק צריך לעשות לזה אינטגרציה לתוך Jupyter(דותן) לא ראיתי על משהו כזה . . . כן נראה שיש פה חברה מאחורי זה, סוג של . . . אני מניח שהם רצו להחליף או להיות אלטרנטיבה לזה, כי זה נראה קצת כמו Jupyter.קצת בקטע של נוסטלגיה - Cryengine, או Crytek - החברה שמאחורי Cryengine שמאחורי המשחק Crisis - פתחה (Open sourced) את הקוד של המנוע הראשון של Crisis (המשחק)אנחנו לא משחקים עם ה-Crisis הראשון, אבל אני זוכר אותו, כי זה מסוג המשחקים ששינו את העולם ונשארים לך במוח, כמו Doom וכאלה (עד כדי כך?)אז הם פתחו את הקוד ואני קצת רפרפתי - קצת ++C, בגדול, שנראה שנכתב ע”י מפתח אחד או שניים, “במשיכה אחת” מה שנקרא.מעניין למי שאוהב נוסטלגיה - אני אוהב להסתכל לפעמים; לא בניתי, לא קימפלתי וממש גם לא הולך לעשות את זה, אבל לפעמים גם כיף להסתכל על קוד שנכתב באותה תקופה, וזה נחמד.(רן) אני מסתכל על Commits שלהם, ונראה שיש להם מוסכמה מעניינת ל-Commits - נגיד B! או T! או I! . . . מעניין מה זה.(דותן) האמת שראיתי את זה וזה היה נראה לי כמו רעש, אבל אתה נותן פה טוויסט מעניין . . . (רן) כנראה שיש כאן איזושהי קונבנציה (Convention) ל-Commits שאני מנסה לפענח . . לפני איזה שניים נגיד יש XB! (היה בהקלטה לפחות . . .)(אלון) וגם XI! . . . זה מגניב, עכשיו אני חייב להבין מה זה . . . T! זה סתם טקסט, אתה רואה שזה סתם Copyright וכאלה, אז זה כבר מעניין.(רן) אולי B! זה Bug . . . מה זה I! ? . . .(אלון) U! זה בטח User Interface . . . לא, בעצם זה Undo . . . נחמד(דותן) יש כאן עוד כמה דברים מעניינים - יש Commit שמתקן משהו שנראה כמו Bug מלפני חודש - עכשיו, זה Cryengine, זה מ-2004 . . . מה קורה פה?(רן) כנראה עבדו על זה כדי להוציא את זה ל-Open Source(דותן) יכול להיות . . . מעניין; אלו החלקים שאני אוהב לנבור בהם, בקוד מאוד ישן - מגלים כל מיני דברים שהאנושות כבר לא עושה.(אלון) עכשיו רק תחפש פה פרצות אבטחה ונחש מה עבר הלאה לגרסאות החדשות . . .(דותן) כן, הא . . .האייטם הבא הוא backstage - פרוייקט של Spotify שהם החליטו לעשות לו Open-sourceזה בעצם Developer portal Framework, והם מכנים את זה “open platform for building developer portals”אני חייב להגיד שקראתי את זה ומאוד רציתי לדעת מה זה - וכשראיתי אז מאוד לא רציתי לראות מה זה . . .לא יודע, אני עדיין מבשל את זה עם עצמי - זה נראה כמו Wiki משולב ב-Dashboards, והכל מוכוון למפתחים ב-Spotify - אם אתה חבר ב-Squad אז יש לך את ה-Squad metrics מול הפנים; אם אתה רוצה לקרוא חדשות אז יש לך חדשות של Spotify שם; אם אתה לראות Metrics של Services אז זה גם שם - בעצם, כל העולם שלך נמצא בתוך מקום אחד.אולי אני קצת Old school, אבל זה . . . אני קצת פחות התחברתי, זה משדר “רובוט שעובד בשביל חברה”, וכל עולמו נסגר במקום אחד . . . כשאני קראתי את זה, חשבתי שאני הולך לראות Developers Portal במובן של כל הידע של ה-Developers והפרוייקטים והכלים שאני יכול להשתמש בהם כדי להאיץ את העבודה וכו’ - אבל אני בעצם רואה פה סוג של “מנגנון שליטה” או “חוטים סביב הבובה”. אבל תשוטטו בזה, זה מגניב.(אלון) אני עוד לא הבנתי מה אני יכול לעשות עם זה, אם זה טוב או רע - אני צריך לראות את הוידאו, לא נעים לי(דותן) יש לך Gif, לא צריך וידאו . . .(אלון) ה-Gif לא מספר את כל הסיפור . . . ב-Gif זה דווקא נראה חמוד: אתה מכין דשבורדים (Dashboards), יש את כל המטריקות (Metrics) שאתה צריך, אם מעניין אז יש משהו לראות . . . יכול להיות נחמד.(דותן) זה קצת Fallacy, כי קודם כל - אם אתה מאמן או מאלף אנשים להסתכל רק במקום אחד ולא לצאת מהמקום הזה, אז אוקיי, סבבה - יש כאן כל מיני Widgets שאם מישהו שם Widget שאתה אמור להכיר אז עכשיו לא הכרת ולא ידעת אז זה לא קיים.(אלון) אתה יכול לבדוק את ה-CI, לבדוק את המטריקות (Metrics), לבדוק לוגים . . . יש לך מקום אחד במקום להתחיל לטייל, וזה לא רע.(רן) לא - וגם חברות עושות את זה אז בוא - כל חברה בונה את זה לעצמה, כל חברה שאני הייתי בה בנתה אחד כזה, אז זה יכול להיות נחמד להתחיל ממשהו מוכן.אתה יכול לבוא ולהגיד שיש לזה חסרונות, כי ברגע שאתה בונה פורטל כזה לא מסתכלים ימינה ושמאלה - אולי, אבל מצד שני כולם בונים, כי אני חושב שה-Benefit עולה על החסרון הזה.עכשיו - האם זה פורטל טוב? אני לא יודע, אבל האם צריך פורטל? אני חושב שכן, אני די משוכנע שצריך.(דותן) זה תמיד יש - יש לך Jira ויש לך את העולמות שלך . . מה שאני מכיר זה שבונים, אבל בונים בתצורה של כלי, ופה ה-Feel שאני מקבל זה של “זה העולם שלך, וה-Browser שלך נעול לתוך הדבר הזה וזהו”. זה Feel כזה, זה לא באמת . . .(רן) יכול להיות . . . אני מסכים עם זה שנכון שיהיה לו API, שזה לא יהיה UI-First אלה API-First, שכל פעולה שאתה יכול לעשות דרך ה-UI אתה תוכל לעשות גם דרך ה-CLI באמצעות Client וכו’.עדיין, אני חושב שזה נכון שיהיה איזשהו פורטל מפתחים, ששם יהיה את כל מה שהם צריכים - אתה יודע, דברים בסיסיים כמו Service Catalog ו-Metrics ואיך ליצור Service חדש, ומי ה-Owner של כל אחד מה-Services ומה התלויות בינהם ודברים כאלה.דרך אגב - לא הכל כל כך בסיס, חלק מהדברים כן מורכבים, אבל זה הכל שימושי בעיני.כל חברה שהייתי בה בסופו של דבר בנתה לעצמה אחד כזה, אז אני חושב שזה נחמד להתחיל מאיזשהו משהו, אבל אני לא יודע - צריך לעשות לו איזשהו Test Run ולראות האם זה באמת הכלי הנכון בשבילכם.(דותן) לא, עכשיו זה נראה . . פחות, אבל תנסו(אלון) אל תקשיבו! Spotify, אתה לא יכול ללכלך עליהם - הגיע סוף סוף לארץ ה - Spotify Family (קישור לא ממומן . . .), אז אני מבקש - לא ללכלך עליהם!(דותן) לא מלכלך . . . זה אחלה, כלי מדהים!הספרייה הבאה - rich - עושה צבעים ב-Pythonחייב לומר שזו סופסוף ספרייה שנראית טוב, עבור מי שרוצה ליצור Developer experience טיפה מעבר למה שיש בסטנדרט של Python.היא עושה את כל בצבעים, כל הפלטה (palette) - טבלאות ו-Spinners ו-Progress bars, עושה גם Syntax coloring על הטרמינל ועוד ועוד - אפילו מרנדרת markdown מגניב, ברגע שאתה לוקח ספרייה כזו, יש לך את החופש לעשות מה שבא לך, או שבתוך הטרמינל את יכול לרנדר Markdown, יכול להוציא טבלאותאני מניח שכלים מגניבים יבנו מעל הספרייה הזאת ובזכותהממש אהבתי - וגם עושה חשק לבנות כלי Command Line חדשים שנראים טוב ב- Pythonתשתמשו!ספרייה בשם texthero - שעושה עיבוד טקסטהדגש פה הוא על זה שהיא קלה וקלילה - אהבתי את הנקיונות של טקסט שבה, אבל יש בה עוד יכולותאתה מתקין ומיד יש לך כל מיני אלגוריתמים פופולאריים לעבודה על טקסטלא יותר מדי עמוק אבל גם לא יותר מדי - פשוט וממש נחמדלמי שלא אוהב את הדוקומנטציה (Documentation) של Docker, יש docker-cheat-sheet (באתר של Docker)כאן יש את כל הדוקומנטציה שבאתר - משוטח לקובץ Markdown אחד, הכל ב-Repositoryגם נחמד - וגם יותר קל לחפש, וגם יותר נוח להשאיר פתוח כל הזמן . . .(אלון) רשום פה “4 months ago” . . .(דותן) כן, הדוקומנטציה הרשמית כנראה מתעדכנת יותר תדיר, אבל יש פה את הדברים שהם Basic ורוב מה שלפעמים אתה אולי שוכח אז יש לך.עוד ספרייה בשם mimalloc - נושא שהוא קצת יותר Low-level ו-hardcore, דיברנו על זה קצת בעבר - הספרייה היא לשימוש ב-Allocator ש-Microsoft הוציאוהם בעצם הפכו ל-Allocator עם ה-Performance הכי טוב בשוק, פחות או יותרלאן זה רלוונטי? רלוונטי לספריות או כלים שבנויים על ++C, וב-Space האישי שלי - על Rust.אנחנו רואים פה כבר הבדלים שהם יחסית משמעותיים - היא עושה ניהול אלוקציה של זכרון (Memory allocation) פי 5 או פי 6 מהר ממה שיש שיש לך ב-Default.יש פה גם פי 10 ופי 20 לעומת אלטרנטיבות אחרותלמי שעוסק ב-Performance או ש-Performance חשוב לו, ויש לו Code Base שעושה המון אלוקציות והמון עבודה “קשוחה” כזו ב-Rust, יכול להחליף את ה-Allocator שלו ברמה של כמה דקות עבודה ולראות האם זה שיפר לו ביצועים.בשפות אחרות אני מניח שזה גםבשורה התחתונה - הופך להיות משהו שהוא פחות אקספירמנטלי וכבר נראה די טוב לשימוש.עוד אייטם שמצא כן בעיני דווקא בגלל ה-Feel שלו - hackingtool: כלי ל-Hackers כמו בשנות ה-90!מישהו לקח סקריפט ב-Python, ובנה כאלה Prompts ולוגו כזה ענק וכו’ - וזה בסך הכל מפעיל מלא Scripts אחרים, סתם הצחיק אותי(אלון ) רגע . . . עכשיו אנחנו עובדים מהבית, אבל במשרד, עם חלון כזה פתוח באופן קבוע זה . . . שמע - להיט!(דותן) כן, ממש 90’s, ממש הזכיר לי את זה - זה כזה עם תפריטים, שאתה לוחץ ואז מופיע התפריט הבא, ויש כותרת אחרת ועוד תפריט, עד שבסוף אתה מגיע למה שאתה רוצה להפעיל ואומר לו “תפעיל!” . . . ממש s’90 ונוסטלגיהבסוף יש מלא כלי Hacking, ממש המון, אז הוא לקח רק כמה - לא יודע אם זה הכלי הכי טוב ל-Hacking או ל-Pen-Testing, אבל בהחלט הכי מעלה זכרונות(רן) אני זוכר שפעם היו ממש גרסאות Linux שממש היו מיועדות לזה, עם כל הכלים מותקנים . . .(דותן) אה - יש! עדיין יש(רן) עוד עושים כאלה?(דותן) בטח . . . מה שקרה איתן זה שלמשל KALI ו-Backtrack הפכו להיות חברות, באיזושהי דרך, חברות Security שאיכשהו מימנו או קנו, ונוצרה להן מעיין יישות שהיא, מעבר להפצת Linux עם מלא כלי Security, בעצם גם מובילת-דעה בעולם של Pen-Testing, וחלק ממה שהיא עושה זה גם להוציא את ההפצה שנקראת, נגיד, KALI.אז לא רק שהיו - הן גם התרבו ויש כבר די הרבה.ב”ימים של האינטרנט הגרוע” היה לי כזה, בסטנדרט, בתיק - וכשהייתי צריך אינטרנט אז הייתי “משיג” בצורה כזאתגם ה-WiFi של פעם לא היה כזה מתוחכם - לוקח כמה דקות ויש לך סיסמא של מישהו, של ה-WiFi שלו . . .היום זה כבר פחות רלוונטי, זה יותר קשה לעשות(אלון) תגיד - הרצת את זה? יש גם מוסיקה, כמו פעם?(דותן) לא . . . אין מוסיקה, אבל זה אחלה רעיון ל-Pull Request.(רן) זה כולל קפוצ’ון?(אלון) נראה לי שתורנו לקבל קפוצ’ון . . .(דותן) רעיונות מדהים, נראה לי שצריך להוסיף ל Pull Requests - “להוסיף מוסיקה!”ועוד אחד - EasyOCR: מישהו לקח Neural Network, את כל מה שאנחנו מכירים ב-Neural Network ו-Deep Learning וזיהוי טקסט, ארז את זה בספרייה ויצר OCR שמזהה כמה וכמה שפות.אני חושב שהדגש הוא על קלות ההפעלה, או איך שלא נקרא לזהבעצם, בשלוש שורות - יש לך OCR, מה שבדר”כ היינו עושים tesseract כזה, שזה חינמי? אז פה כבר אפשר לקחת, לנסות ולראות אם זה נותן יתרון משמעותי מעל ה-OCR-ים האחרים, החינמיים.(רן) רק נזכיר למי ששכח - OCR זה Optical Character Recognition - היכולת “לקרוא” טקסט(דתן) מקבלים תמונה - מקבלים טקסטואם כבר אנחנו מתמקדים בנושא - ה OCR-ים “מהדור הראשון” לקחו פונטים ואיכשהו היו Coupled לפונטים בדרך שלהם לזהות טקסטהיום זה כבר Neural Network, אז ההבדל הוא די רציניבכל אופן - ה-EasyOCR יודע לעשות את זה גם באנגלית וגם בשפות קצת יותר אקזוטיות: סינית, תאילנדית וכו’. מעניין.אייטם נוסף - gitqlite: אני ראיתי בזה עוד פעם את “איך לא עשו את זה כבר?” - מישהו לקח Git Repo ולקח SQLite . . . היה לנו אייטם כזה פעם, שמישהו לוקח Data, מכניס אותו ל - SQLite ויוצר לו ספריית תחקור . . .אני חושב שזה היה אפילו מישהו ישראלי, זה היה נקרא q, לא? אם אני זוכר נכון . . .(רן) הראל בן עטיה כתב את q, שבאמת לוקח Data, שם אותו בתוך SQLite ואז מתשאל אותו.(דותן) כן, אז שם זה היה JSON אם אני זוכר נכון, וכאן זה Git Commits או Git בכלל - אני מניח שככה הוא בנה את זה: לקח Git Log ועשה לו קצת Parsing או אולי משהו קצת יותר מתוחכם, דחף את זה ל-SQLite לכמה טבלאות, ועכשיו יש לך כלי Command Line שאתה יכול להפעיל שאילתות מעל ה-Repo שלך או מעל ה-Git - שזה די מגניברעיון כזה פשוט ש”איך אף אחד לא חשב על זה קודם?”(רן) במקרה של q, אני חושב שהיו לו כמה סוגים של Inputs - גם JSON וגם CSV וגם Output של פקודות, שהוא היה יכול לפרסר (Parsing) אותן כטבלאות.(דותן) מגניב . . . צריך לבדוק מה הוא עשה ב-gitqlite, אבל אולי אפשר להזרים את זה לתוך q . . . בעצם לא, זה SQLite . . .ואייטם אחרון (כמעט) - practical-python: לא יודע אם זה כזה Highlight כי יש כל כך הרבה resources ללמוד Python, אבל כשהסתכלתי על זה אז משהו קפץ לי פה - השם של מי שעשה את זה הוא David Beazley - וכל מי שעשה Python בשנות ה-2000 מכיר את David Beazley, רן מכיר בטוח . . .(רן) לא מכיר . . .(דותן) הוא עשה את ה-Python Cookbook והיה די חלוץ בעולם ההוראה ה Python-ימה שהוא בעצם עושה זה לפתוח את הקורס שלו, שהוא כתב שהוא העביר יותר מ-400 פעמים, סוג של Training שלו - הוא פותח אותו ועושה אותו חינם ופתוח ב-GitHub, ואפשר ללכת ולעשות את הקורס.יש שם Exercises והוא טוען, ואני מניח שהוא צודק - שהקורס הזה הוא בעצם למידה שלו, שהוא שייף לאורך משהו כמו 20 שנה אחורה.מעניין לפחות להסתכל מה יש שם.ואייטם ממש אחרון - !HEYגובל בדרמה, ואני מניח ששמעתם מה היה עם !HEY . . .(רן) לא - ספר לנו!(דותן) אה, אוקיי . . אז יש את ה-Email החדש שנקרא !HEY, אם אפשר לקרוא לזה ככה, ש DHH . . .(רן) זה Email client?(דותן) לא יודע אם Email client, זה ממש email . . .מחליף את Gmail באיזשהו מובן, ש-DHH ו-Basecamp וכל הקבוצה הזו הוציאו.זה לא של Basecamp, אבל זה חלק מהכלים של Basecamp, נראה לי, בקטע של Productivityמה שהוא אומר זה שהוא הוציא מייל שהוא לא של אף יישות גדולה, לא יודע אם להוסיף “מרושעת” אבל כנראה שזו הכוונה שלו, שהוא תומך ב-Privacy וכו’אבל העניין שהתפתח הוא ש-DHH כהרגלו, יש לו איזשהי מנטרה ל-business שהיא מאוד ידועה, וכשהוא הגיש את האפליקציה של !HEY ל-Apple App Store, אז הוא עבר על ה-Policy של in-app purchase - וקיבלת אפליקציה שאי אפשר להשתמש בה, אלא אם כן את הולך לאתר הנפרד, שלא קשור ל-app Store, של !HEY, ואז אתה משלם ואתה כן יכול להשתמש בה . . . ו-Apple - כמובן שזה נוגד את ה-Term & conditions שלהם, אתה לא יכול לתת אפליקציה שאתה לא יכול להפעיל אותה בלי לשלם, ולשלם בתוך ה-Ecosystem של Apple - אז הם עשו לו Ban לאפליקציה . . .ואז התחילו משהו כמו שבועיים של טרור-טוויטר של של DHH נגד Apple, והתפתחו כל כך הרבה Threads ושיחות מטורפות מעל Twitter וזה די “שבר את Twitter” - ובסוף Apple וויתרו.וזהו - זה היה HEY . . .(רן) רגע - אז הם נותנים לו לעשות Purchase מחוץ ל App Store? בתוך האפליקציה?(דותן) הם סוג-של-וויתרו, וגם הוא סוג-של-וויתר - אבל זה היה . . . אם היית קורא את ה-Twitter בימים האלה אז כאילו נראה היה שיש פה מלחמה ואף אחד לא הולך לרדת מהעץ - אז בסוף הוא עשה גרסא סוג-של-חינמית והם סוג-של-וויתרו על החוקים הנוקשים שלהםאפילו מישהו פתח אתר כזה … היה איזה VP ב-Apple שאמר “You download the app and it doesn’t work”’ ואז מישהו פתח אתר כזה בשם YouDdownloadTheAppAndItDoesntWork.com - ושם היו Screenshot של כל האפלקיציות שאתה מוריד והן לא עובדות.הבדיחה היא שהן לא באמת לא עובדות . . .בין השאר היו גם Spotify ו-Netflix וכו’, וכולן במודל הזה - ב-Apple אמרו שזה Reader וזו לא בדיוק אפליקציה, אבל גם Gmail זה Reader . . . בקיצור, התפתחו שם כל מיני דיונים פילוסופיים מסובכיםיש כאלה שטוענים שזה היה PR Stunt של DHH, כי זה נתן המון פרסום - מעבר ל-Twitter זה עשה המון גלים בכל “אתרי החדשות לגיקים”, אבל זה…מה שנותר לעשות זה לנסות להשתמש בHEY ולנסות להחליף את המיילים שאתם מכירים בחינם - בכסף.(רן) יפה אז סיפקת לנו את הדרמה של היום, בהחלט.(אלון) אני עדיין לא מבין למה אני צריך להחליף את האימייל שלי מכל הסיפור . . . (דותן) אז אמרתי - אתה מוזמן להחליף את האימייל שלך באימייל אחר - בתשלום!(אלון) במקום בחינם?(דותן) כן(רן) אני חושב שזה הקטע שהוא לא מבין, דותן, אבל נסביר לו אח”כ.לאוסף(דותן) סתם - מה שהוא מוכר בסוף זה Privacy - במחיר של $99 לשנה, אתה מקבל Privacy: הוא חוסם לך Trackers וכאלה, ואתה מקבל כתובת אימייל של hey.com, שזה כאילו מגניב . . . אפשר לפתוח לרגע פסקת ציניות? כןלפני ההשקה, כי DHH חימם את כל Twitter, מישהי עשה לו Reply ואמר לו “כבר השגתי כניסה ל-HEY, והכתובת של זה Hey@username” - הפכה את ה-Domain ואת השם, שזה כאילו . . . בסוף את משלם על Domain של שלוש אותיות, זה מה שקורה.(אלון) כן - ואז תתחיל להקריא את זה בשירות שאתה צריך בטלפון: “לאן לשלוח?” - “לAlon@Hey.com” - “מה?! H?” - אנשים לא מבינים, עזוב אותך, למי אכפת שלוש אותיות?(דותן) היה שם קטע נחמד - קיבלתי Invite יחסית מוקדם, אז הדבר הראשון שאתה עושה כשאתה מקבל Invite יותר מוקדם מכולם זה לנסות לתפוס שמות . . .אז יש שם קטע נחמד של מעט אותיות - נגיד, שתי אותיות זה סכום מטורף, אבל שלוש אותיות זה כבר $350 לשנה, נדמה לי - ואז אתה כבר מתחיל לתהות . . .כמובן שניסיתי “DHH” - לא היה . . . ואז ניסיתי DNH, שזה קצת דומה ל-DHH - וכן היה.אז סתם - לידיעתם ה-fisher-ים שם בחוץ, אפשר לעשות דברים מעניינים . . . אבל לא - לא שילמתי(רן) לא שילמת $350?(דותן) לא - לא הלכתי על זה(אלון) היה פעם למישהו סקריפט שתופס שמות קצרים ב-Twitter, אבל בוא נעצור פה.(רן) אני כבר רואה את הבלוג-פוסט הבא: “אתה קונה שם בשלוש אותיות ב-$350 - וזה לא עובד!”(דותן) “com.”(רן) טוב, קצת חרגנו - הגיע הזמן לקטע של המצחיקולים, כדי להקל על האווירה אחרי הדרמה הרצינית הזאת שקרתה פה . . .הראשון - טוויט של bradfitz, אחד המפתחים המפורסמים בעולם - היה בצוות ה-Core של Go, כתב את Memcached בעבר,ועודהוא כתב ב-Twitter שהוא אחרי יום ארוך של ראיונות ורוצה להוציא את התסכול שלו - אז הנה השאלה: “Print the largest even integer in an array of integers.” - וספקו לי אך ורק תשובות שגויותוזה ניהיה מצחיק . . . אנשים הציעו כל מיני רעיונות לאיך להדפיס את המספר הזוגי הגדול ביותר במערך של Integersלמשל - תשובה אחת זה “(print(a” - פשוט להדפיס את כל מערך, והמספר הזוגי הגדול ביותר כנראה יודפס שם . . . זה עובד.תשובה נוספת - לעשות לולאה בין 0 ל-MaxInt ולהדפיס את כל המספרים - וגם במקרה הזה המספר הזוגי הגדול ביותר במערך כנראה יודפס איפשהו שם.בקיצור - היו כל מיני תשובות מתחכמות כמו “קודם כל צריך ליצור מודל ואז לאמן אותו” והייתה תשובה ב-Shell עם Grep ו-Sort . . . בקיצור, כל מיני תשובות מאוד משעשעות, מוזמנים לעבור על ה-Thread ב-Twitterוכן - חלק גם נתנו רפרנסים לתשובות ב-Stack Overflow. . . עשו מזה מטעמים. נחמד, משעשע.אייטם הבא - ypp, או: Yid++ כמו שהם כותבים - the oylem’s first programming shprachמי שיודע פה יידיש - מוזמנים לתרגם . . .וכן - Yid++ זה בעצם Compiler מיידיש ל-++C, אם אני לא טועהזה למעשה ה-Compiler הראשון בעולם, או משהו כזהאתם מוזמניםללכת לקרוא Source Code של Yid++, למשל - למשל - be_soymech_on זה (Include (iostreamו- holding shitta std זה (namespace(std - למי שזוכר את ה-++C בטח יראה את הדמיוןיש גם -bli_ayin_hara main () bh שזה בעצם (void (main, והוא מחזיר בעצם “bh”, שאני מניח שזה “בעזרת השם”ולמעלה כמובן כתוב בגדול “BSD” - שזה “בסיעתה דשמייא” כמובן . . .(דותן) זה גם מבלבל מבחינה לגאלית . . .(רן) אני בטוח שזה לא יד המקרה . . .(אלון) מעניין האם זה מתקמפל בשבת . . .(דותן) לקחת לי! אני כבר מחכה להגיד את זה!(אלון) סליחה, אתה יכול למחוק את המשפט האחרון שלי? (לא) - דותן, מה רצית להגיד?(דותן) האם זה מתקמפל בשבת? האם ה-Compiler יעבוד בשבת?(רן) בואו נקרא עוד קצת פנינים מהשפה - למשל - >>be_machriz זה >>cout, להדפסהיש פה עוד איזו מילה ביידיש שאני לא מזהה . . .בקיצור - משעשע(דותן) בינתיים אני גם מסתכל בקוד - וצריך לפרגן פה לבנאדם שכתב את זה: בחור בשם משה שור מחיפה, מהטכניון - קל”ב אליך . . .יש פה גם דברים מגניבים בקוד, כמו קובץ ++C שנקרא ani_maymin.cpp . . . בקיצור, גם הקוד עמוס בדברים כאלהזה כל כך חזק, שאני מאמין כבר שזה אמיתי . . . אני רואה שיש כאן הכשר מאיזשהו רב ל - Code base . . . זה מתחיל להיות כבר . . . צריך לבדוק את זה איתו.(רן) יש תעודת הכשר לקוד, יפה, הלך עם זה עד הסוף - כל הכבוד, משה!(רן) אני רואה שיש פה שניים - משה וגם עוד מישהו שתרם - יחיאל קלמנסון, שהוא דווקא מניו-יורק(דותן) אני חושב שזה אמיתי, זה נראה לי אמיתי, זו באמת שפה כשרה . . .(רן) לגמרי - סחטיין על העבודה חברים, אם אתם שומעים אותנווזהו - אחלה צחוק, תקראו קצת את הקוד, אני בטוח שתזהו הרבה יידיש גם אם אתם לא דוברי יידיש שוטף, בטוח שתזהו הרבה.זהו - זה הכל, כאן אנחנו מסיימים.תודה לכם אלון ודותן, היה משעשע ומחכים כרגיל - נתראה בפעם הבאה.הקובץ נמצא כאן, האזנה נעימה ותודה רבה לעופר פורר על התמלול

Redis Stars Podcast
Scott Haines | Protobuf, Spark-Redis and the Magic of Redis Data Structures

Redis Stars Podcast

Play Episode Listen Later May 21, 2020 37:47


Scott Haines is a full stack engineer with a focus on real-time, highly available analytics and insights systems. He works at Twilio as a Senior Principal Software Engineer on the Voice Insights team where he helped drive Apache Spark adoption and streaming pipeline architecture best practices. Previously, Scott has presented at RedisDay Seattle  and RedisConf20. View his sessions below.  “What is your job at Twilio?” (1:40) “How did you get your start with Redis?” (4:00)“What is the Redis patterns do you find the most interesting?” (10:35)“Can stuff any kind of object into a sorted set?” (13:00) “What is protobuf?” (18:15)“What was your connection with Redis at Twillo?” (21:00)“How did we first meet?” (23:15)“What is you RedisConf workshop about Scott? (28:30)RELATED LINKS: "The Happy Marriage of Redis & Protobuf" - https://www.redisconf.com/watch/video-library/session/-M66QDbH6Sw-it5WWL0H"Introduction to Machine Learning with Apache Spark and Redis"- Part 0 - Intro - https://www.redisconf.com/watch/video-library/session/-M66_PxiVbfKO8j8od2j- Part 1 - Spark Basics - https://www.redisconf.com/watch/video-library/session/-M7BKj806nF9WdV77DNq- Part 2 - Exploratory Data Analysis - https://www.redisconf.com/watch/video-library/session/-M7BKa8BImJvns00O1jQ- Part 3 - Feature Engineering - https://www.redisconf.com/watch/video-library/session/-M7BKYn1b7JNgiW80r7d- Part 4 - Logic Linear Analysis - https://www.redisconf.com/watch/video-library/session/-M7BNi3i6J1vyHnQK8Lc- Part 5 - Taking Things Online with Streaming - https://www.redisconf.com/watch/video-library/session/-M7BO6jHl1HUgvi65IJwhttps://twitter.com/newfronthttps://www.twilio.com/

FLOSS Weekly (Video LO)
FLOSS Weekly 579: MindsDB

FLOSS Weekly (Video LO)

Play Episode Listen Later May 20, 2020 62:20


Open-source autoML framework.Doc Searls and Dan Lynch talk to Jorge Torres, Co-Founder and CEO of MindsDB. MindsDB is a free, open-source autoML framework to streamline the use of neural networks. It's designed to make it super easy for developers to deploy machine learning in their projects. Hosts: Doc Searls and Dan Lynch Guest: Jorge Torres Download or subscribe to this show at https://twit.tv/shows/floss-weekly Think your open source project should be on FLOSS Weekly? Email floss@twit.tv. Thanks to Lullabot's Jeff Robbins, web designer and musician, for our theme music. Sponsor: WWT.COM/TWIT1

FLOSS Weekly (Video LO)
FLOSS Weekly 579: MindsDB

FLOSS Weekly (Video LO)

Play Episode Listen Later May 20, 2020 62:20


Open-source autoML framework.Doc Searls and Dan Lynch talk to Jorge Torres, Co-Founder and CEO of MindsDB. MindsDB is a free, open-source autoML framework to streamline the use of neural networks. It's designed to make it super easy for developers to deploy machine learning in their projects. Hosts: Doc Searls and Dan Lynch Guest: Jorge Torres Download or subscribe to this show at https://twit.tv/shows/floss-weekly Think your open source project should be on FLOSS Weekly? Email floss@twit.tv. Thanks to Lullabot's Jeff Robbins, web designer and musician, for our theme music. Sponsor: WWT.COM/TWIT1

FLOSS Weekly (Video HI)
FLOSS Weekly 579: MindsDB

FLOSS Weekly (Video HI)

Play Episode Listen Later May 20, 2020 62:20


Open-source autoML framework.Doc Searls and Dan Lynch talk to Jorge Torres, Co-Founder and CEO of MindsDB. MindsDB is a free, open-source autoML framework to streamline the use of neural networks. It's designed to make it super easy for developers to deploy machine learning in their projects. Hosts: Doc Searls and Dan Lynch Guest: Jorge Torres Download or subscribe to this show at https://twit.tv/shows/floss-weekly Think your open source project should be on FLOSS Weekly? Email floss@twit.tv. Thanks to Lullabot's Jeff Robbins, web designer and musician, for our theme music. Sponsor: WWT.COM/TWIT1

All TWiT.tv Shows (Video HD)
FLOSS Weekly 579: MindsDB

All TWiT.tv Shows (Video HD)

Play Episode Listen Later May 20, 2020 62:20


Open-source autoML framework.Doc Searls and Dan Lynch talk to Jorge Torres, Co-Founder and CEO of MindsDB. MindsDB is a free, open-source autoML framework to streamline the use of neural networks. It's designed to make it super easy for developers to deploy machine learning in their projects. Hosts: Doc Searls and Dan Lynch Guest: Jorge Torres Download or subscribe to this show at https://twit.tv/shows/floss-weekly Think your open source project should be on FLOSS Weekly? Email floss@twit.tv. Thanks to Lullabot's Jeff Robbins, web designer and musician, for our theme music. Sponsor: WWT.COM/TWIT1

All TWiT.tv Shows (Video HI)
FLOSS Weekly 579: MindsDB

All TWiT.tv Shows (Video HI)

Play Episode Listen Later May 20, 2020 62:20


Open-source autoML framework.Doc Searls and Dan Lynch talk to Jorge Torres, Co-Founder and CEO of MindsDB. MindsDB is a free, open-source autoML framework to streamline the use of neural networks. It's designed to make it super easy for developers to deploy machine learning in their projects. Hosts: Doc Searls and Dan Lynch Guest: Jorge Torres Download or subscribe to this show at https://twit.tv/shows/floss-weekly Think your open source project should be on FLOSS Weekly? Email floss@twit.tv. Thanks to Lullabot's Jeff Robbins, web designer and musician, for our theme music. Sponsor: WWT.COM/TWIT1

FLOSS Weekly (Video HI)
FLOSS Weekly 579: MindsDB

FLOSS Weekly (Video HI)

Play Episode Listen Later May 20, 2020 62:20


Open-source autoML framework.Doc Searls and Dan Lynch talk to Jorge Torres, Co-Founder and CEO of MindsDB. MindsDB is a free, open-source autoML framework to streamline the use of neural networks. It's designed to make it super easy for developers to deploy machine learning in their projects. Hosts: Doc Searls and Dan Lynch Guest: Jorge Torres Download or subscribe to this show at https://twit.tv/shows/floss-weekly Think your open source project should be on FLOSS Weekly? Email floss@twit.tv. Thanks to Lullabot's Jeff Robbins, web designer and musician, for our theme music. Sponsor: WWT.COM/TWIT1

All TWiT.tv Shows (Video LO)
FLOSS Weekly 579: MindsDB

All TWiT.tv Shows (Video LO)

Play Episode Listen Later May 20, 2020 62:20


Open-source autoML framework.Doc Searls and Dan Lynch talk to Jorge Torres, Co-Founder and CEO of MindsDB. MindsDB is a free, open-source autoML framework to streamline the use of neural networks. It's designed to make it super easy for developers to deploy machine learning in their projects. Hosts: Doc Searls and Dan Lynch Guest: Jorge Torres Download or subscribe to this show at https://twit.tv/shows/floss-weekly Think your open source project should be on FLOSS Weekly? Email floss@twit.tv. Thanks to Lullabot's Jeff Robbins, web designer and musician, for our theme music. Sponsor: WWT.COM/TWIT1

FLOSS Weekly (MP3)
FLOSS Weekly 579: MindsDB

FLOSS Weekly (MP3)

Play Episode Listen Later May 20, 2020 62:20


Open-source autoML framework.Doc Searls and Dan Lynch talk to Jorge Torres, Co-Founder and CEO of MindsDB. MindsDB is a free, open-source autoML framework to streamline the use of neural networks. It's designed to make it super easy for developers to deploy machine learning in their projects. Hosts: Doc Searls and Dan Lynch Guest: Jorge Torres Download or subscribe to this show at https://twit.tv/shows/floss-weekly Think your open source project should be on FLOSS Weekly? Email floss@twit.tv. Thanks to Lullabot's Jeff Robbins, web designer and musician, for our theme music. Sponsor: WWT.COM/TWIT1

All TWiT.tv Shows (MP3)
FLOSS Weekly 579: MindsDB

All TWiT.tv Shows (MP3)

Play Episode Listen Later May 20, 2020 62:20


Open-source autoML framework.Doc Searls and Dan Lynch talk to Jorge Torres, Co-Founder and CEO of MindsDB. MindsDB is a free, open-source autoML framework to streamline the use of neural networks. It's designed to make it super easy for developers to deploy machine learning in their projects. Hosts: Doc Searls and Dan Lynch Guest: Jorge Torres Download or subscribe to this show at https://twit.tv/shows/floss-weekly Think your open source project should be on FLOSS Weekly? Email floss@twit.tv. Thanks to Lullabot's Jeff Robbins, web designer and musician, for our theme music. Sponsor: WWT.COM/TWIT1

FLOSS Weekly (Video HD)
FLOSS Weekly 579: MindsDB

FLOSS Weekly (Video HD)

Play Episode Listen Later May 20, 2020 62:20


Open-source autoML framework.Doc Searls and Dan Lynch talk to Jorge Torres, Co-Founder and CEO of MindsDB. MindsDB is a free, open-source autoML framework to streamline the use of neural networks. It's designed to make it super easy for developers to deploy machine learning in their projects. Hosts: Doc Searls and Dan Lynch Guest: Jorge Torres Download or subscribe to this show at https://twit.tv/shows/floss-weekly Think your open source project should be on FLOSS Weekly? Email floss@twit.tv. Thanks to Lullabot's Jeff Robbins, web designer and musician, for our theme music. Sponsor: WWT.COM/TWIT1

MLOps.community
MLOps.community #6 - Mid Scale Production Feature Engineering with Dr. Venkata Pingali

MLOps.community

Play Episode Listen Later Apr 16, 2020 59:11


In our 6th meetup, we spoke with the CEO of Scribble Data Dr. Venkata Pingali. Scribble helps build and operate production feature engineering platforms for sub-fortune 1000 firms. The output of the platforms is consumed by data science and analytical teams. In this talk we discuss how we understand the problem space, and the architecture of the platform that we built for preparing trusted model-ready datasets that are reproducible, auditable, and quality checked, and the lessons learned in the process. We will touch upon topics like classes of consumers, disciplined data transformation code, metadata and lineage, state management, and namespaces. This system and discussion complements work done on data science platforms such as Domino and Dotscience. Bio: Dr. Venkata Pingali is Co-Founder and CEO of Scribble Data, an ML Engineering company with offices in India and Canada. Scribble’s flagship enterprise product, Enrich, enables organizations to address 10x analytics/data science usecases through trusted production datasets. Before starting Scribble Data, Dr. Pingali was VP of Analytics at a data consulting firm and CEO of an energy analytics firm. He has a BTech from IIT Mumbai and a PhD from USC in Computer Science. Connect with Demetrios on LinkedIn: https://www.linkedin.com/in/dpbrinkm/ Connect with Venkata on LinkedIn: https://www.linkedin.com/in/pingali/

DataCast
Episode 27: Feature Engineering with Ben Fowler

DataCast

Play Episode Listen Later Jan 24, 2020 60:50


Show Notes:(2:17) Ben talked about his past career working in the golf industry - working at the National Golf Foundation and the PGA of America.(4:12) Ben discussed about his first exposure to machine learning and data science.(5:06) Ben talked about his motivation for pursuing an online Master’s degree in Data Science at Southern Methodist University.(6:02) Ben emphasized the importance of a Data Mining course that he took.(8:12) Ben discussed his job as a Senior Data Scientist at CarePredict, an AI elder care platform that helps senior live independently, economically, and longer.(8:56) Ben shared his thought about data security, the biggest challenge of adopting machine learning in healthcare.(10:38) Ben talked about his next employer JM Family Enterprises, one of the largest companies in the automotive industry.(12:44) Ben walked through the end-to-end model development process to solve various problems of interests in his Data Scientist work at JM Family Enterprises.(14:15) Ben discussed the challenges around feature engineering and model experiments in this process.(18:09) Ben shared information about his current role as Machine Learning Technical Lead at Southeast Toyota Finance.(19:29) Ben talked about his passion to do IC data science work.(22:37) Ben went over different conferences he has been / will be at.(26:03) Ben shared the best practices/techniques/libraries to do efficient feature engineering and feature selection, as presented at Palm Beach Data Science Meetup in September 2018 and PyData Miami in January 2019.(29:27) Ben talked about the importance of doing exploratory data analysis and logging experiments before engaging in any feature engineering / selection work.(32:50) Ben shared his experiments performing data science for Fantasy Football - specifically using machine learning to predict the future performance of players, from his talk at the Palm Beach Data Science Meetup last year.(37:25) Ben talked about his experience using H2O AutoML.(40:07) Ben gave a glimpse of his talks about evaluating traditional and novel feature selection approaches at PyData LA and Strata Data Conf.(51:25) Ben gave his advice for people who are interested in speaking at conferences.(52:29) Ben shared his thoughts about the tech and data community in the greater Miami area.(53:16) Closing Segment.His Contact Info:LinkedInHis Recommended Resources:MLflow from DatabricksStreamlit LibraryPyData ConferenceH2O World ConferenceO’Reilly Strata Data and AI ConferenceREWORK Summit ConferencePandas LibraryXGBFir Librarytsfresh LibraryLending Club DatasetSHAP library from Scott Lundberg"Interpretable Machine Learning with XGBoost" by Scott LundbergAmazon SageMakerGoogle Cloud AutoMLH2O AutoMLWes McKinney’s "Python for Data Analysis"

Datacast
Episode 27: Feature Engineering with Ben Fowler

Datacast

Play Episode Listen Later Jan 23, 2020 60:50


Show Notes:(2:17) Ben talked about his past career working in the golf industry - working at the National Golf Foundation and the PGA of America.(4:12) Ben discussed about his first exposure to machine learning and data science.(5:06) Ben talked about his motivation for pursuing an online Master’s degree in Data Science at Southern Methodist University.(6:02) Ben emphasized the importance of a Data Mining course that he took.(8:12) Ben discussed his job as a Senior Data Scientist at CarePredict, an AI elder care platform that helps senior live independently, economically, and longer.(8:56) Ben shared his thought about data security, the biggest challenge of adopting machine learning in healthcare.(10:38) Ben talked about his next employer JM Family Enterprises, one of the largest companies in the automotive industry.(12:44) Ben walked through the end-to-end model development process to solve various problems of interests in his Data Scientist work at JM Family Enterprises.(14:15) Ben discussed the challenges around feature engineering and model experiments in this process.(18:09) Ben shared information about his current role as Machine Learning Technical Lead at Southeast Toyota Finance.(19:29) Ben talked about his passion to do IC data science work.(22:37) Ben went over different conferences he has been / will be at.(26:03) Ben shared the best practices/techniques/libraries to do efficient feature engineering and feature selection, as presented at Palm Beach Data Science Meetup in September 2018 and PyData Miami in January 2019.(29:27) Ben talked about the importance of doing exploratory data analysis and logging experiments before engaging in any feature engineering / selection work.(32:50) Ben shared his experiments performing data science for Fantasy Football - specifically using machine learning to predict the future performance of players, from his talk at the Palm Beach Data Science Meetup last year.(37:25) Ben talked about his experience using H2O AutoML.(40:07) Ben gave a glimpse of his talks about evaluating traditional and novel feature selection approaches at PyData LA and Strata Data Conf.(51:25) Ben gave his advice for people who are interested in speaking at conferences.(52:29) Ben shared his thoughts about the tech and data community in the greater Miami area.(53:16) Closing Segment.His Contact Info:LinkedInHis Recommended Resources:MLflow from DatabricksStreamlit LibraryPyData ConferenceH2O World ConferenceO’Reilly Strata Data and AI ConferenceREWORK Summit ConferencePandas LibraryXGBFir Librarytsfresh LibraryLending Club DatasetSHAP library from Scott Lundberg"Interpretable Machine Learning with XGBoost" by Scott LundbergAmazon SageMakerGoogle Cloud AutoMLH2O AutoMLWes McKinney’s "Python for Data Analysis"

Linear Digressions
What's *really* so hard about feature engineering?

Linear Digressions

Play Episode Listen Later Oct 6, 2019 21:18


Feature engineering is ubiquitous but gets surprisingly difficult surprisingly fast. What could be so complicated about just keeping track of what data you have, and how you made it? A lot, as it turns out—most data science platforms at this point include explicit features (in the product sense, not the data sense) just for keeping track of and sharing features (in the data sense, not the product sense). Just like a good library needs a catalogue, a city needs a map, and a home chef needs a cookbook to stay organized, modern data scientists need feature libraries, data dictionaries, and a general discipline around generating and caring for their datasets.

Reversim Podcast
370 ThetaRay and Unsupervised Learning

Reversim Podcast

Play Episode Listen Later May 27, 2019


פודקאסט מספר 370 של רברס עם פלטפורמה - אורי ורן מארחים בכרכור את אתי גבירץ מחברת ThetaRay לשיחה על תוכנית הלימודים למכונות וילדים מוצלחים.אתי היא VP Product Management ב-ThetaRay - חברת בינה מלאכותית שמשלבת טכנולגיות Big Data עם אלגוריתמים ייחודים “שלומדים אינטואיטיבית” (Unsupervised Learning) שפותחו בחברה.הפלטפורמה משמשת אירגונים פיננסיים גלובאליים במלחמה בפשעים כלכליים (הלבנת הון, מימון טרור, סחר באנשים ושאר רעות חולות).הפתרונות גנריים לחלוטין ויכולים לשמש גם למקרים אחרים, אבל כרגע המיקוד הוא בתחום הפיננסי.שתי שאלות כלליות לפני הצלילה לטכנולוגיה - הלבנת הון נשמע אכן קשור לנושאים פיננסיים - איך סחר בנשים (למשל) מתקשר?בסופו של דבר צריך להעביר את הכסף . . .לחברה יש מיזם Pro bono עם עמותה בארה”ב, שמחפשת סימנים לסחר באנשים באמצעות מאגר מידע גדול, שחלקו כלכלי, ו-ThetaRay עוזרת למצוא נקודות שצריך לבדוק.לא מעט פשעים לאחרונה מתבצעים תוך שימוש במטבעות קריפטוגרפיים (נכון?) - האם יש ממשק גם לכיוון הזה?התחושה כנראה נכונה, אין כרגע ממשק פעיל בתחום אבל בהחלט יש מחקרים.אז נתחיל - מה זה Machine Learning מבחינתכם? איך זה משרת את החברה?ראשית - מוטיבציה: למה מכונות צריכות בכלל ללמוד?דמיינו ערימה של חפצים בצבעים שונים. למען הפשטות - רק צבעים אחידים, ואף אחד לא עיוור-צבעים (אין גברים בקהל, נכון?)למיין חמישים פריטים כאלה בשעה - לא בעיה, ונשאר המון זמןלמיין “הר” של כאלה (כמה מיליארדים) - כן בעיה, לא בשעה ולא ביום, חוץ מזה שגם ממש לא בא לכם לעשות את זה אלא לתת למישהו אחר (משימה פשוטה וחזרתית עם צורך ב-Throughput גבוה - מזכיר את פרק 363 על ה-GPU).אנחנו כבר יודעים למיין - “רק” צריך ללמד את המכונה לעשות את זה. איך? כמו שמלמדים ילדים: “זה תפוח אדום”, “זה אגס צהוב” וכו’. בפעם הבאה שואלים “מה זה?” ונותנים פידבק על התשובה, עד שיוסי הילד המוצלח לומד באמצעות דוגמאות - גם על המקרה הספציפי וגם להשליך על דברים אחרים (“כרבולת של תרנגול זה גם אדום” וכו’).כולל לרוב גם מקרים של “תרנגול זה תפוח” ודיונים על טבעונות, אבל זה כבר עניין אחר.באופן דומה ניתן ללמד מכונה להבדיל בין צבעים למשל - מתן המון דוגמאות ואז בחינה של התוצאה, תיקון ושוב עד לתוצאה הרצויה - ועכשיו המכונה יודעת למיין את הפריטים לפי צבע במקומכם.השלב הבא: באמצע הערימה יש פריט סגול . . כזה לא היה לנו קודם. מה עכשיו?אפשר להגיד “זה דומה לכחול” ואז לסווג ככחול בסבירות בינונית. האם זו טעות? תלוי בהגדרה.אפשר להגיד “זה דומה לכחול וגם לאדום” ולהגיד שלא ניתן לסווג בבטחון. האם זו טעות? שוב. תלוי מה רוצים, ומה הוא רווח הסמך שהוגדר.המקביל בדוגמא שלנו - יוסי לא יודע מה זה חציל כי לא היה קודם (ועוד לא ביקר אצל עובד).מה שראינו כאן זה דוגמא למגבלה: המכונה “לא יודעת” את מה שלא “לימדו” אותה קודם - Supervised Learning: מישהו מפקח על הלמידה.יש הגדרה של ה-Training Set - הקטיגוריות שיכללו, כמה דוגמאות בכל אחת, מהם ה - thresholds ולזיהוי כו’.המדדים להצלחה הם דיוק (Accuracy, Precision) וכיסוי (Coverage, Recall).מבחינת Detection יש התייחסות גם ל Detection Rateהכל חשוב ברמה העסקית - מהי המטרה שהמכונה משרתת? כאן יש גם כלים כמו ROC Curve או Confusion matrix שבאמצעותם מגדירים את הסף הנדרשמה חשוב כאן יותר - דיוק או כיסוי?מכונה שלומדת “טוב יותר” מצריכה פחות פשרות - אבל תמיד יש דעיכה (deterioration) וככל שמתרחקים מקבוצת הלמידה יש סיכוי גבוה יותר לטעות.חוץ מאצל יוסי.וכמו את יוסי - גם את המכונה צריך להמשיך ללמד.אז מה לגבי Unsupervised Learning?כל מה שדיברנו עליו עד עכשיו מוגדר כ”למידה קונספטואלית”. על מנת להבין Unsupervised Learning, נלך שוב לדוגמא של לימוד ילדים - והפעם באמצעות התבוננות (Observation) ולמידה אינטואיטיבית, בלי שמישהו אחר יגדיר זאת עבורם מראש.אחד הדברים שנלמדים כך זה ההגדרה של “נורמטיבי” - ומהי אנומליה.דוגמא - דני בן ה-3, כבר “ראה עולם” (בכל זאת, בן 3) וגם כבר יודע להתנסח ולהסיק מסקנות. יום אחד הוא רואה בסופרמרקט בפעם הראשונה אדם בכסא גלגלים - ומצביע - “שונה”. למה שונה? “כי הוא הולך עם גלגלים במקום רגליים”.יש כאן שני דברים - (1) זיהוי של אנומליה ו (2) הסבר (Evidence, Forensics) - ב-ThetaRay זה מכונה Trigger Feature.לפי מה הילד החליט? ע”פ הנורמה ולפי מה שהוא נחשף אליו קודם (הידוע לו עד כה).המשך הדוגמא - באותו הסופרמרקט נמצאת גם גלית, שגרה באותה השכונה - ובמשפחה שלה יש דוד שנעזר בכסא גלגלים. גלית עוברת באותו מקום ולא מצביעה.כתלות בהגדרת המשימה - דני דייק (וזיהה) וגלית פיספסה (בהנחה שהמשימה היא למצוא אנומליה ולא לסווג לקבוצות חדשות). לגלית לא “הפריע” שום דבר.חשוב להבחין כאן בין Unsupervised ל-Ungoverned- גם גלית וגם דני נחשפו לעולם ע”י ההורים שלהם, והלמידה שלהם הייתה “ממושטרת” (Governed) - ההורים החליטו על חוגים, על טיולים, מקום מגורים, צפייה בטלוויזייה וכו’. גלית גדלה במשפחה שהשפיעה על יכולת שלה לזהות (למשל) ששימוש בכסא גלגלים הוא משהו שקורה באחוזים קטנים יחסית באוכלוסיה (שוב - תלוי בהגדרות של איזו אוכלוסיה ומתי ואיך).בתנאים הללו ותחת ההגדרות הללו - דני יצליח יותר מגלית (יש קשר בין האופן בו האלגוריתם לומד והגדרת המשימה).ברמה הפילוסופית יש כאן משהו מעניין - דני הצליח כי הוא לא ראה דוגמא כזו בעבר, וחגית נכשלה כי היא כן ראתה דוגמא כזו - שזה הפוך מהדוגמא הקודמת (יוסי נכשל כי לא ראה “סגול” לפני כן).בחזרה לענייני ההגדרות - אם ניקח אלגוריתם שמטרתו לקחת ערימה של נתונים (הצעות למכירת מוצרים למשל) ולסווג אותם (Clustering) - אופן הביצוע דומה: בכל פעם שנתקלים במשהו חדש יוצרים קבוצה חדשה.זו עוד דוגמא ל Unsupervised Learning, שנקראת Clustering  - היכולת למצוא באוכלוסיה קטיגוריות שאינן מוגדרות מראש (שזה באיזשהו מקום קצת “לחפש מתחת לפנס”).אם אנחנו יודעים להגדיר מהי “אוכלוסיה מייצגת” (שזו אומנות בפני עצמה - ד”ש לגילדת ה-Data Scientists), אפשר לקחת אלגוריתם Clustering (שהוא Unsupervised), שלא יודע כמה קטיגוריות יש בתוך האוכלוסיה (אז פסלנו את K-Means, שמניח מספר קטיגוריות מוגדר), ולהריץ על מנת “למצוא קבוצות דומות”, ע”פ ספים מוגדרים של שונות, או ע”י הגדרת סוג המימדים שמעניינים אותנו.דוגמא: ב-ThetaRay מזהים אנומליות - ומזהים פשעים, מתוך הנחה שהאזרחים באופן כללי שומרי חוק, ותוך הנחה שפשע הוא אנומליהזה לא תמיד נכון, ולכל מדינה יש את הספים שלה - דוגמא שבה לקוח פוטנציאלי אמר שיש לו מערכות במדינה כלשהי שבה 40% מהאוכלוסיה מעורבות בהונאות (בדרום אמריקה! לא כאן, מה פתאום?). יש כאן הפרה של הנחת הבסיס והמערכת כנראה לא  תיהיה יעילה (כי זה גם לא רוב מוחלט שמאפשר לזהות את הקבוצה המשלימה).מרגע שזיהינו אנומליות, השלב הבא הוא להפוך אותן למשהו שאפשר לעבוד איתו (Actionable). על מנת שאנליסט יוכל לחקור הלבנת הון למשל, צריך לתאר לו (פורמאלית) מה זה.אלו ה - Trigger Features שהזכרנו קודם - וזה משהו שצריך להיות מסוגלים להסביר (בסופו של דבר אלו תיאורים מתימטיים שהוגדרו בדר”כ ע”י Data Scientist)יש כאן אלמנט של Feature Engineering - התהליך בסופו של דבר מנוהל (Governed), וה - Data Scientist משמש כ”הורה” בעולם בו האלגוריתמים לומדים (ראיתם Person of Interest? אז Finch).התחלנו עם למה בכלל צריך Machine Learning, המשכנו להבדל בין למידה שהיא Supervised לעומת Unsupervised ואז ספציפית לתוך Governed Unsupervised Learning ע”י הכתבה של Features.האם מדובר בהגדרות ספציפיות (“זה הטקטסט שאנחנו מחפשים”) או בהגדרות כלליות של שפה וכלים?בפתרון אין heuristics או הגדרות של מה “נורמאלי” - ה-Features מוגדרים כמימדים בעולם, והאלגוריתם לומד אותם.המטרה היא לזהות פשעים ולא חצילים - צריך להנגיש את המידע הרלוונטי באופן שיאפשר לזהות אנומליות באופן מיטבי (ביחס לאובייקטים אחרים וביחס לעצמו).צריך גם להגדיר מהי טרנזאקציה כספית, מה האפשרויות וכל מידע אחר שאפשר להנגיש (מי האדם? מי השותפים האפשריים שלו? ועוד)בשלב הבא - Clustering ומציאת דימיון בין האנומליות ומציאת צורות התנהגות חדשות שלא חשבנו עליהן מראש.הסיווג הוא לשתי קבוצות

SuperDataScience
SDS 161: Using AI to Automate Communication

SuperDataScience

Play Episode Listen Later May 30, 2018 70:00


In this episode of the SuperDataScience Podcast, I chat with the Founder and Chief Technology Officer of Kylie.AI, Sinan Ozdemir. You will discuss Feature Engineering and why is it vital in interpreting and analyzing data models; you will also talk about Automated Customer Care Services and its importance in the future of enterprises, and get insights on why humans should ensure that AI is ethically responsible when serving humanity. If you enjoyed this episode, check out show notes, resources, and more at www.superdatascience.com/161

DatabaseCast
DatabaseCast 81: Feature engineering

DatabaseCast

Play Episode Listen Later Mar 7, 2018 75:36


Neste episódio do DatabaseCast Mauro Pichilian (@pichiliani) , Wagner Crivelini (@wcrivelini) e o convidado Gabriel Moreira (@gspmoreira) colocam o capacete de engenheiro para falar sobre feature engineering. Confira neste episódio quais são as técnicas de manipulação de dados que podem fazer diferença na acurácia do seu modelo, como descobrir quem vai clicar aonde, o que é uma feature suja e porquê a profissão de cientista de dados não tem esse glamour todo. Confira a caneca Datas SQL de volta à venda! https://www.zazzle.com.br/caneca_databasecast-168389553934905177 Livro do banco de dados MongoDB escrito pelo Mauro Pichiliani! Veja este livro na Amazon e no Clube de Autores pelos links abaixo: https://www.amazon.com.br/dp/B01L4PERBC https://www.clubedeautores.com.br/book/216555--Introducao_ao_MongoDB Não deixe de nos incentivar digitando o seu comentário no final deste artigo, mandando e-mail para databasecast@gmail.com, seguindo o nosso twitter @databasecast, vendo informações de bastidores no nosso Tumblr e curtindo a nossa página no Facebook e no Google+.

DatabaseCast
DatabaseCast 81: Feature engineering

DatabaseCast

Play Episode Listen Later Mar 7, 2018 75:36


Neste episódio do DatabaseCast Mauro Pichilian (@pichiliani) , Wagner Crivelini (@wcrivelini) e o convidado Gabriel Moreira (@gspmoreira) colocam o capacete de engenheiro para falar sobre feature engineering. Confira neste episódio quais são as técnicas de manipulação de dados que podem fazer diferença na acurácia do seu modelo, como descobrir quem vai clicar aonde, o que é uma feature suja e porquê a profissão de cientista de dados não tem esse glamour todo. Confira a caneca Datas SQL de volta à venda! https://www.zazzle.com.br/caneca_databasecast-168389553934905177 Livro do banco de dados MongoDB escrito pelo Mauro Pichiliani! Veja este livro na Amazon e no Clube de Autores pelos links abaixo: https://www.amazon.com.br/dp/B01L4PERBC https://www.clubedeautores.com.br/book/216555--Introducao_ao_MongoDB Não deixe de nos incentivar digitando o seu comentário no final deste artigo, mandando e-mail para databasecast@gmail.com, seguindo o nosso twitter @databasecast, vendo informações de bastidores no nosso Tumblr e curtindo a nossa página no Facebook e no Google+.

Herr Mies will's wissen
HMww17 – Machine Learning mit Dr. Shirin Glander

Herr Mies will's wissen

Play Episode Listen Later Jan 30, 2018 50:43


In der aktuellen Episode gibt Dr. Shirin Glander (Twitter, Homepage) uns ein paar Einblicke in das Thema Machine Learning. Wir klären zunächst, was Machine Learning ist und welche Möglichkeiten es bietet bevor wir etwas mehr in die Tiefe gehen. Wir beginnen mit Neuronalen Netzen und Entscheidungsbäumen und wie sich diese unterschieden. Hier kommen wir natürlich auch nicht an Supervised Learning, Unsupervised Learning und Reinforcement Learning vorbei. Wichtig bei der Arbeit mit Machine Learning sind die verwendeten Daten: Hier beginnt man mit Testdaten und Trainingsdaten, welche man mit Hilfe von Feature Engineering für die jeweilige Aufgabe optimieren kann. Shirin erzählt, wie sie mit Daten arbeitet und wie sie die richtigen Algorithmen findet. Eine wichtige Rolle spielen hier R und R Studio, welches sich besonders für statistische Analysen eignet. Gerade die Visualisierung der Daten ist hier hilfreich um selbige besser zu verstehen. Aber auch die Möglichkeiten Reports zu erzeugen und beispielsweise als PDF zu exportieren überzeugen. Wenn ihr R für Machine Learning einsetzen wollt, solltet ihr Euch auch caret ansehen. Shirin organisiert übrigens auch MünsteR, die R Users group in Münster. Wenn ihr Euch näher mit Machine Learning beschäftigen wollt, solltet ihr Euch Datacamp oder Coursera ansehen. Wenn ihr Euch für R interessiert schaut Euch die R Bloggers an Am Ende sprechen wir auch noch kurz über Deep Dreaming. Den passenden Generator hierfür, findet ihr unter deepdreamgenerator.com. Bücher zum Thema Praxiseinstieg Machine Learning mit Scikit-Learn und TensorFlow Einführung in Machine Learning mit Python

Google Cloud Platform Podcast
Dataprep with Eric Anderson

Google Cloud Platform Podcast

Play Episode Listen Later Nov 22, 2017 25:45


On this week's podcast, Eric Anderson shares how Dataprep helps summarize, transform, visualize and cleanup data on the Google Cloud Platform. When doing data analysis, typically data munging can take up most of the time and this serverless tool helps optimize the process. About Eric Anderson Eric is a Product Manager at Google working on Cloud Dataprep and recently Cloud Dataflow. Previously he was at Amazon Web Services, Harvard Business School, General Electric and University of Utah. He's from Salt Lake City, Utah and lives in Mountain View, California with and wife and three kids. Cool things of the week Intel Performance Libraries and Python Distribution enhance performance and scaling of Intel Xeon Scalable (‘Skylake') processors on GCP blog The hidden costs of cloud blog and Server Density podcast Monitor and manage your costs with Cloud Platform billing export to BigQuery blog and Public Datasets podcast Kaggle TensorFlow Speech Recognition Challenge site Interview Cloud Dataprep site docs Cloud Dataflow site docs 7 Steps to Mastering Data Preparation with Python blog Design Your Pipeline blog Apache Beam site Question of the week What is feature engineering? Intro to Feature Engineering with TensorFlow video Where can you find us next? Mark will be Montreal in December to speak at Montreal International Games Summit. Melanie will be at NIPS (Neural Information Processing Systems) in Long Beach in December

Data Skeptic
[MINI] Automated Feature Engineering

Data Skeptic

Play Episode Listen Later Feb 24, 2017 16:14


If a CEO wants to know the state of their business, they ask their highest ranking executives. These executives, in turn, should know the state of the business through reports from their subordinates. This structure is roughly analogous to a process observed in deep learning, where each layer of the business reports up different types of observations, KPIs, and reports to be interpreted by the next layer of the business. In deep learning, this process can be thought of as automated feature engineering. DNNs built to recognize objects in images may learn structures that behave like edge detectors in the first hidden layer. Proceeding layers learn to compose more abstract features from lower level outputs. This episode explore that analogy in the context of automated feature engineering. Linh Da and Kyle discuss a particular image in this episode. The image included below in the show notes is drawn from the work of Lee, Grosse, Ranganath, and Ng in their paper Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations.