Wang: 大家好,欢迎来到 FYI ARK 每周播客节目,我们节目是一档专门介绍创新和投资的节目,本周的嘉宾是来自 hhhypergrowth 的 Muji 先生。Muji 是一位技术专家,同时也是一位软件开发者和投资人士,他在帮助 IT 部门部署软件和新系统方面已有 20 多年的工作经验。鉴于本周正好是数据公司 Snowflake IPO 周,我认为我们可以很好地回顾下大数据的历史。 “大数据”一词我们已经听了十年之久,经过这么多年的发展,它已不再是字面意义那么简单。大数据最早开始于 80 年代简单的数据库,之后随着互联网的发展,又形成了具有新的规模的互联网大数据。Google 和 Yahoo 可以说是这项技术的引领者,同时也催生出了像 Hortonworks 和 Cloudera 这样的公司。 现在大数据已经从高阶解决方案转变为云计算解决方案,这种演变也诞生出了 Snowflake 这样的公司。Snowflake 可能并不是 2020 年软件类 IPO 公司中价格(估值)最高的公司,但它的增速十分明显。我认为这是一个我们能够深入讨论的很好机会。Muji 的文章涉及了 Snowflake 的技术、定位以及竞争对手的分析比较,我认为这是我在网上看到最好的一篇关于 Snowflake 深度分析文章,我大概花了半天的时间阅读了他的博客内容,信息量真的非常大。任何对大数据和技术现状感兴趣的人真的可以去看看。 本期节目我会和 Muji 讨论大数据是如何发展到这一步的,以及 Snowflake 有哪些特别的地方。例如,Snowflake 最早便是纯粹建立在公有云计算上的,而像 Hortonworks 和 Cloudera 这样的公司使用的是上一代的技术,是根据预先设置的内部环境所设计的,因此在发展上会有一定的上限和限制。Snowflake 搭建了一个数据湖和数据仓库相结合的系统,拥有十分庞大规模的数据。它提供了一个统一的信任框架,每个人都能够使用这个巨型数据库,而不像现在几十个不同的数据库遍布各个部门,这也是一些公司现在试图解决的问题。我们也会谈及这次 IPO 的竞争力。Snowflake 是一家很有影响力的公司,它的定位十分有趣,你所有的数据都可以存储在它云端中央库中,从那里分析和安全进行拓展应用,甚至在一些情况下,它还有其他的拓展空间。 我是 ARK 的分析师 James Wang。你可以在 Twitter 上通过三个 H 的 hhhypergrowth 找到 Muji。好!欢迎 Muji 来这个节目,我在 Twitter 上阅读了您很多的文章,相信和我这样做的人有很多。本周的大事件无疑是 Snowflake的 IPO,网上有很多关于 Snowflake 的分析,但这些文章的信息都十分零碎,直到我读到了您的文章,我花了一天的时间来阅读,我认为这应该是我很长一段时间以来读过的最好的一篇关于软件公司的文章。 Muji: 谢谢! Wang: 我想向大家声明一下 Muji 先生文章的图表也十分好看。您作为一名独立分析师,能够将您的研究论述免费分享给我们,我们十分感谢。我与很多深入研究软件行业的人士交流过,他们也一致认为您的那篇文章是他们在那周读到过的最好的一篇软件类文章。我认为我们可以利用 Snowflake 在本周上市的契机聊聊大数据是如何发展到现在这个阶段的。我们在 6 年前创办了 ARK Invest,当时大数据概念也十分火热,令人瞩目的公司有 Hortonworks 和 Splunk,但发展到现在,一些公司也发生了变化,对此您有什么看法吗?大数据发展到今天经历了哪些?未来又会怎样?因为您并不是金融出身,您是一名技术专家,我想您可以先向大家介绍下自己的背景。 Muji: 好的,谢谢您的褒奖。的确,我是一名技术专家,同时也是一名软件开发者和个人投资者,我对事物的发展方向非常感兴趣。我在数据领域围绕数据工作已有几十年,没有想到我在 30 年前选择数据的这条路竟然会在今天走在软件开发行业的最前沿。 数据在这段时间经历了十分有趣的发展,首先是关系型 SQL 数据库的兴起,之后又是 NoSQL,大数据这一概念就是在这些经历中诞生的。我认为我们现在还在开始阶段,未来还有很多的路要走。如今,我认为我们的挑战是收集数据,因为我们有太多不同的来源可以获得数据。我十分关注的一家公司叫 Okta,它是一家专门帮助用户做认证的网络安全公司,允许公司的员工和合作伙伴通过单个界面访问和使用所有其公司可能会使用的 SaaS 工具,Okta 允许用户通过这种方式来管理 SaaS 工具,这是一项很棒的服务。Okta 每年都会发布一份报告,我一直在 Twitter 上叮嘱他们的 CEO 可以提高发布报告的频率,因为现在的事情发展都太快了。他们每年都会出具一份名为《Business @ Work》的报告,并且他们还专门针对这次疫情做一份名为《Business @ Network from Home》的报告,对其平台内各应用的受欢迎程度进行了统计。 看到基于数据的服务兴起是很有趣的, 因为 Snowflake 是他们平台去年增长速度最快的应用 ,所以你能知道可能会有什么东西要出现了。数据行业的发展已经有了几十年的历史,不同的网络应用和不同的使用倾向会有不同的数据源,例如,你可能会使用 Square 进行支付管理、使用 Salesforce 跟踪客户关系、利用 Marketo 管理营销活动,我们今天的挑战是围绕这些不同来源的数据进行收集。围绕这些工具所建立的公司是我个人的投资方向,我认为它们是目前建立一个企业的基石。 假设你拥有所有这些不同的数据源,你只有把它们集中到一个地方才能够完成真正的企业愿景,这也正是 Snowflake 的作用。Snowflake 是数据仓库和数据湖的整合,它涵盖了所有这些不同的数据源。因此,你可以真正获得对自己企业的洞察力。对我而言,如果我需要所有数据的走向,那么我就需要将那这些数据都收集起来。因为并不是每一个数据都是有价值的,你必须识别出哪些数据是有价值的,一些没那么有价值的数据你可以丢弃或进行归档。只有这样,你才能够让你的公司专注于做那些更重要的事情,你收集到的数据哪些是可以提高企业洞察力的?哪些是作为利用企业的 AI 和机器学习来获得超越竞争对手优势的?哪些可以提高公司下一次销售? 这是一个有趣的时代,我并不倾向使用很多这些工具,我熟悉很多开源包,我倾向于使用弹性搜索和各式各样的数据库和分析数据库等东西来支撑数据科学。我是企业环境的局外人,我喜欢对我所认为的发展方向进行深入研究。我认为数据总是会增长的。 无论公司已经使用了哪些数据工具,总会有不同的数据不断冒出来。 他们也可能需要去购买数据。就像地理位置数据、IOT 的数据,这些数据也很快会过时。企业会在今天的这个时间点收集这些数据,下个月它会在同样的时间点收集数据,下个月、再下个月,如此反复。 公司希望对内部数据挖掘并运营,这就需要软件的帮助。随着数据的增加,不断增加SaaS 工具要比增加人手收益更高。每个公司都迟早会面临这个问题。 Wang: 的确是这样,您说得很有道理。假设我经营着一家财富 500 强企业,那么我就需要有一个统一的数据图表。但我想问的是,他们以前是如何做到的?Snowflake 的产品的确可以满足他们的需求,这很棒。但是在 90 年代、2000 年、2010 年时,这些企业用的又是什么工具?是不是这个需求一直都没有被满足?或者做得不尽如人意,所以才会诞生出像 Snowflake 这样的公司? Muji: 这个需求点肯定是被满足了的,但是是在一个非常受限的情况下实现的,它需要付出大量的劳动力和努力,企业需要有一个工程师团队帮助你从数据库中收集数据。你可能会有一个 MySQL 的销售数据库,你通过某个工具将这些数据进行导出,并从中提炼出你想要的东西,然后再把它们放到你的数据仓库中。90 年代至 2000 年是数据仓库的兴起时期,企业会尝试通过非常强大的硬件系统运行数据库软件,但单个企业的内存和和存储,它的计算量是有上限的。 但是当你需要摄取这些数据时,你需要以人工的方式进行手动处理。如果你需要的数据是来自多个不同地方的,那么你必须要有一个工程师团队帮助你收集所有的数据,根据你的业务目标,再对这些数据进行提炼,这需要一个过程(例如按区域、销售人员总结公司的销售情况),即你需要事先明确你的业务目标,再从数据中找到你想要的数据,把他们放进数据仓库中,接着,那将会有很多游戏伴随着他们,我称之为游戏。这些工程师就会建立索引,建立索引的游戏,也就是创建 Olap Cube(OLAP 多维数据集)。由于这些旧的软件包的计算量有一定的限制,你必须提前聚合一些数据,以最小化降低终端分析的计算量。所以这就是以前的数据操作流程。 Wang : 那么当年的这些软件是由哪些公司提供的呢 ? Muji: 像 Oracle、SAP 和 IMB 都是提供这些工具的大型企业,你也可以使用 Microsoft 的 SQL Server。那时还有很多的辅助包,但都需要进行冗长的流程,都是企业级的解决方案。你需要对软件进行部署和安装、对员工进行培训,指导你的数据工程师如何操作和提取数据,并将其导入到这些系统中。一旦这些都完成了,业务数据分析师才会根据你的运营指标从数据中提炼数据,并进一步完善数据,这是一个非常耗人力的过程。 Wang: 那这是不是很好笑?您看,这些企业一直深耕在行业里,对市场也了如指掌。企业往云计算计算转移的趋势十分明显,这些企业也都看到了并试图作出改变,但他们没有一个能够拿得出像 Snowflake 这样的产品。创立 Snowflake 的团队基本上都是 Oracle 一些非常资深的人士,仅仅从创业公司的性质和现有机制来看,这些人永远都不可能在 Oracle 打造出像 Snowflake 类似的产品。 Muji: 关于创始人的确是一个很有趣的话题。他们的确是从 Oracle 中出来的,他们之前是该公司的数据架构师。在我看来,Snowflake 的诞生路径和 Zoom 的几乎一模一样,因为 Zoom 的创始人来自 Webex。我认为 Webex 的公司结构可能存在一定误区,他们只想让现有客户满意,云计算计算能够做什么?如何能够拓展网络视频流媒体的功能?企业对这些并没有太多的愿景,所以 Yuan 才会选择离开 Webex,并成立了 Zoom。在这之后,我们又迎来了 Snowflake 的成功故事。显然,这些人并不能够在原有的公司获得任何关于他们愿景的推动力,又或者这些人本身就是创业者。因此他们选择离开 Webex 和 Oracle,做出了一个完全由云计算驱动的、更好的解决方案。云计算最重要的地方在于你在存储和计算方面几乎有着无限的拓展能力,这是云计算一开始就具有的优势,它们可以不停扩展,不受计算的限制,没有我说的那些 索引的 游戏,也不需要以某种方式进行数据处理,你可以导入数据,然后直接在数据库中进行操作,并以你想要的方式进行呈现,然后再根据你的需求进行提取。因此云计算真正意义上释放出了新一波的数据和分析工具,因此我超级感兴趣。 Wang: 在 2010 年左右,也有很多像连接廉价服务器一样操作跨集群大数据,Google 和 Yahoo 也推出了一些围绕 Hadopp 所建立的工具。之后又造就了像 Hortonworks 和 Cloudera 这样的公司,这两家公司最后又合并成了一家 Cloudera。我想问的是,这些公司应该都是在同一个市场,但为什么那个时代的公司,没有一家可以真正取惊艳的成绩呢? Muji: 是的,但这些公司都是开源类公司,和 Snowflake 的诞生路径其实仍略有不同。Mongobd 和 Elastic 都有着相同的心态,它们发布某个开源产品,并围绕该产品成立一家公司,支持它、不断增加,通过它提供额外服务(Mongobd 和 Elastic 有些类似,它们发布了某个开源产品,根据该开源产品,诞生出新的企业,新的企业会不断对开源产品进行强化,并提供额外服务)。 我认为 Hadoop 的问题关键在于它十分复杂。它是一个集群软件,有着所有的组件,一些核心组件你可以通过某些方式进行拓展,例如添加 SQL 功能、Hbase 和 Cassandra,那么它就会变得非常复杂,需要有一个工程师团队来运行数据。这只是数据部分,在计算部分,你还必须对所有的计算定制脚本。Hadoop 的模型很好,它把存储和计算分割开来,并把它进行了分布。因此,你便拥有了所谓的多重并行处理。你可以把你的计算分割成一个个微处理,这样我们只需要处理很小的数据子集,最后我们再把它们组合在一起,以获得总体的结果,使我们的分析能够规模化。 Hadoop 的核心是架构,它的架构极其出色,但是使用起来非常复杂,需要经过很多的培训才可以使用。我对 Cloudera 和 Horonworks 两家公司的印象并不深,对他们建立这些平台的策略并不了解,但我真的认为他们应该在一开始就把这作为一项服务来提供。 Wang: 难道 Cloudera 没有尝试过用更友好的方式来做这件事吗? Muji: 我想他们应该是尝试过的,虽然我并不知道他们最终想做成什么,但它并没有成功。需要有人能够将其进行包装,以更友好的方式运行它,这种情况最终也的确实现了,但随着 Apache Spark 的出现,Hadoop 逐渐被取代,用户只需在内存上便可完成之前所提到的流程,并不需要磁盘。对我而言,这也是 Spark 能够替代 hadoop 最成功的部分,之后便诞生了像 Databricks 这样以提供 Spark 为服务的公司,我认为这恰巧也是 Cloudera 和 Hortonworks 在一开始就应该考虑的地方。 Wang: 我想他们的另一个问题是,它们从根本上来说都是高阶解决方案,或者至少是作为高阶解决方案开始的。因此,它们即使解决了分析部分,例如在一个理想的数据中心进行了部署,可以完成所有的工作。但如果你的数据在不停地增长,你也只是有了一个固定的数据中心,并没有解决基础设施,而这同样是一个很棘手的问题。 Muji: 是的,并没有解决,而这也是问题所在。如果我们必须安装一个复杂的软件,那么我们还必须购买商品硬件,一旦在我们安装完成之后还想扩展集群,我们还必须维护越来越多的硬件。后来,又迎来了云计算解决方案,像 Amazon 推出的 EMR 基本上就是弹性的 Hadoop 服务,企业可以在云计算端运行 Hadoop,最后成为 Hadoop 即服务。如何通过编程超越它们,他们对所有的基础设施进行了处理,用户只需提交一个请求便可自动运行。对我而言,这也是 Cloudera 和 Hortonworks 衰落的原因,用户不再需要 高阶 的软件和硬件,他们在云计算端便可完成所有工作,因此 Cloudera 和 Hortonworks 就这样被淘汰了。 Wang: Snowflake 有趣的地方在于它并没有利用现有的开源技术。我认为任何现有形式的跨越都是一种老派的做法,只有开发出自己专有的解决方案,再进行大举推进才能够获得大规模的采用。这就像 90 年代或 2000 以前,创造新的商业模式并运营它。但无论怎样,他们还是面临如何开始的问题,当一个开发者都没有的时候,他们是如何开始的?而且为什么他们获客如此之快? Muji: 这个问题有点大。我们可以先从他们的架构开始,然后再谈谈他们的易用性。Snowflake 一开始就把自己的架构建立在云计算的优势上,他们一开始是在 AWS 运行上,之后又扩展到了 Azure 和 Google 云计算平台,目前,它很好地在这三个不同的平台上运行着,因此我认为 Snowflake 的优势之一是可以在各平台上运行。客户基本上都会根据需求使用不同的平台,就像传统上如果用 hadoop 的话,内部先需要把存储和计算分开,然后分布在不同的地方。利用云计算平台的优势,他们可以使用云原生的存储能力和计算能力,并在上面搭建所有服务。我喜欢将他们看作是一朵云,在那朵云里面可以建立云计算基础设施的云计算服务。这是一种与传统的解决方案完全不同的方式,他使云计算公司能够获得真正的扩展,并独立扩展客户。每个客户可以根据自己想要的价格来扩展自己,他们能够根据不同的需求来扩展自己的平台集群,我认为他们就像是在云计算中间的中间商。 至于您的第二个问题,我认为他们比我认为的真正竞争(即云计算平台本身)对手做得更好。我认为我们所提到的这些传统企业也都在这行业进行着竞争,它们的确有云计算平台,并且也都有针对数据仓库和数据湖的云解决方案。但是这里的竞争是指云服务商他们自身,直接使用AWS 或者是通过 Snowflake 作为第三方来解决一些复杂的事物。我认为这给客户在与 AWS 打交道时提供来很大的帮助,他们并不需要全身心投入到AWS 上,基本上他们可以把他们平台的那部分转移到 Azure 或 Google 上。所以,我想这给 Snowflake 的客户提供来很多与云提供商合作的筹码,是一个相当有吸引力的多云战略。但同时他又是一个一站式服务。虽然云服务商确实是以基础设施即服务的方式搭建了很多平台,但你还是需要让开发人员将这些东西捆绑在一起。Snowflake 提供的是一站式服务,没有任何按钮需要你操作,你只需将数据扔进去便可自动运行。事实上,除了管理角色和认真外,你需要的配置非常少。 Wang: Snowflake 是建立在公有云之上的,旨在利用公有云的特性,像 Amazon Redshift 大概是建立在 Amazon S3 和 EC2 上的。当然 Amzon 完全可以在自己的硬件和基础设施上做得更优化。然后第三方软件 Snowflake 出现了,它在与他们的竞争中战胜了 Amazon。 Muji: 我认为他们只是收购了Redshift,然后再从它的软件中进行扩展,所以一定程度上,局限在了一个范围里。当然,也有一些人看到了这个方向的错误。事实上,我对 Redshift 的内部结构并不了解,但我知道直到最近,他们都没有在软件中将存储和计算部分分开来。我播客中文章也得到了一些 Amazon 工程师的纠正,他们去年 12 月确实把这些分成了一个定价层,所以我想他们是有所动作的,但我还是觉得他们是因为收购了那个产品,因此可能会被局限在一个角落里,对其能力有一定限制。 此外,云供应商本身也不一定会做一站式软件,具体还是要看情况而定。例如,有一些软件非常易于操作,有一些软件需要大量的系统管理,这就很难了,因此还要看产品的情况,也取决于云供应商。我认为这也是 Snowflake 的真正优势,它们将产品做成了一站式解决方案,并且是在一个非常棒的架构上。我想对用户而言,它们产品的速度更快、性能更强,并且最终成本也更低。 Wang: 是的,这也是我经常听到的。他们也认为 Snowflake 使用起来 更方便 ,并且因为它 更便宜 ,很多人都将产品换成了 Snowflake,Snowflake 的价格甚至还比 Redshift 便宜。 Muji: 是的,这也是我所理解的。Snowflake 和 Redshift 的性能都很好,都采用了多重并行处理,但 Snowflake 为每个客户提供的计算层都是可拓展的,每个客户基本上都是在运行自己的小型云平台。他们所有的查询、分析和提取都是通过这种共享部分的平台所完成的,平台还会对存储进行一直追踪,每个客户都可以进行高度区分。正因为如此,每个客户都可以将计算的成本与他们想要的地方进行挂钩。如果他们不想支付太多费用,他们通常可以缩减计算层的规模,但这会意味着更多时间的查询等待、查询会更慢,并且并发量也更少。如果他们的用户数量变多了,想要更快的响应速度,那么他们可以扩大规模,支付更多的费用。这是 Snowflake 所示用的基础付费结构,客户可以进行控制, 这也是我认为其比较独特的一个功能 。 我知道 Google 他们正在试图掩盖这部分,他们提供的只是一个基本的定价层,用户只是扔给它们数据,它们再通过其工作反馈数据。我认为 Snowflake 不但在多云战略上给用户提供了相当广泛的授权,并且他们的定价方式也给了用户更多选择。 Wang: 我想客户的一些选择性放弃是否同时也降低了它们利用云计算的优势?一个多租户的架构意味着所有的客户都在一个底层硬件上进行共享。 Snowflake 是不是并没有这样做? Muji: Snowflake 的架构共有三层。你说的是他们的存储层,这也是每个云供应商拥有的本地存储能力,类似于 Amazon 的 S3,他们会将所有的数据分解成单个字段,并进行压缩与加密,并将这些字段存储在 S3 中。某种程度上,这是它们平台集群之间的共享。在此基础之上,每个客户都有扫描计算的最终控制权,基本上每个客户都可以在存储层上进行任何操作,如 SQL 和 Ingest。他们能够确切地控制它的大小和切割。这些上面还有一个共享服务层,类似于 Snowflake 的 API 层。这一层主要管理所有有关安全和内部协调的工作,如集群内部工作方式的协调。 Wang: 所以这听起来更像是跨共享计算,我想他们买了一堆计算。可能是提前,又或者是动态购买? Muji: 是的,这是完全可以想象得到的。在云基础设施中,他可能会比这更灵活些。他们为客户管理所有的这些,客户却完全看不到。客户可以更具自己的规模进行扩大或缩小。如果我们没有觉得性能不够,那么我们可以多付一点钱;如果我们有很多的容量,那么我们可以缩小一点规模,少付一点钱,完全取决于客户情况。这是一个很好地思考方式,我认为 Snowflake 可以算作是云计算中的云计算。他允许他们的客户在云基础设施的基础上对其自身的平台规模进行扩展和缩小。我们可以通过企业内部的杠杆降低成本,而 Snowflake 给自己和客户都带来了灵活性。 Wang: 是的,成本的确也是有一个很有趣的点。我在看 Snowflake 的公开招股说明书首先注意的便是其成本。你猜 Snowflake 作为一家数据公司其毛利率是多少?在以前我会猜是 80% ~ 90% 。但事实上, Snowflake 作为一家云计算原生提供商,因为他需要支付给 AWS 费用,因此他们的毛利率在 60% 左右,但它呈上升趋势,我想最终可能会达到 70% 或 70% 以上。有趣的是,这个时代的数据库公司的利润率都普遍比较低,就像 Snowflake 会向 Amazon 支付费用,因此 Amazon Redshift 虽然失去了很多市场份额,但同样获得了来自 Snowflake 的收入。 Muji: 我认为对于云供应商而言这是双赢的结果,无论用户选择 Redshift 平台或者 Snowflake,对于 Amazon 而言只是多少几个利润点。客户在注册 Snowflake 时,可以选择他们想要的供应商和地区,他们没有自己的数据库,因此 Amazon 一定会有收入。这也是今天经济的奇怪之处,任何时候都会有存在敌友关系。而且就如你了解的那样,这个行业不可能是一家独大的,就像 Snowflake 是 Amazon 的客户,他们需要支付给 Amazon 巨额费用,因此他们永远不会得到最高的利润,Snowflake 是建立在云基础设施上的,他们必须为此向供应商支付一定费用。 Wang: 这是一个十分美妙的生意。也许我们也可以放大一点看,看看整体的战略布局。我在今年早些时候发布了一份关于 SaaS 的白皮书,让我开始研究的原因是在于想知道有多少企业软件正在 IPO 或已经上市了。事实上数量有很多,但比起大部分媒体所报道的消费类互联网公司的数量而言,这个数字真的相形见绌。也许是人们个人偏好问题,我认为企业软件肯定没有得到大家足够的重视,对企业软件关注不足。但是从企业软件的综合表现来看,如果我们只看 IPO 的数量,企业软件的数量比消费类公司多 3 倍。 这听起来好像会有很多竞争,事实上,在 Snowflake 之后,已经有 6 家软件类公司相继 IPO。Jfog 和 Sumo Logic 是过去 2 周成功 IPO 的公司。 因为您也是一名投资者,如果让您在 100 家公司中挑选,您会挑哪家?会看重哪些优势和具体领域?比较看重什么的增长? Muji: 我的投资理念首先是公司一定要有执行力。现在有很多公司在 Twitter 上获得了很多关注和新闻,但在现在这个时间点上,这些都是空想。就好比电动汽车 Nikola,他在这个时间点上还只是一个产品。 Wang: 你在软件公司上看到有炒作的情况吗? Muji: 没有,因为这些公司都是有执行力的。所以在投资方面,我首先会看公司融资方面的执行力,然后我再深入观察平台本身。我认为这也是我个人的优势所在,即能够看清平台,知道平台在哪里可以随着客户规模的扩大而扩大,然后他们又可以从哪里转向哪里。就像我们在一开始聊到的那样,数据总是在不断增长的,因此我们需要对数据进行分析,我认为在云计算的模式下诞生新的解决方案的可能性很大。 我认为分析学应该是一下个会崛起的东西。 Snowflake 已经很好地解决了核心数据问题,很多云供应商都在尝试用数据仓库来解决这个问题,就像数据湖和分析性数据库,都是以前的产物。 人们正在尝试把所有不同来源的数据放在一个地方,然后根据组织的需要,通过 AI 和机器学习等方式对其分析并加以利用。目前,有很多解决方案正在做这些事情。我认为下一个崛起的是能够在这些平台上进行分析的企业,这也是目前我十分关注的点。我在研究 Snowflake 的时候,的确也看到了很多分析业务的创业公司,他们都可以在数据存储上进行工作,提供可以在未来提供自己的特殊数据来源,知道如何通过分析找到自己的利基市场。有一家叫 Segment的有趣的公司,他们帮助客户把数据放入类似 Snowflake 的终端,他们通过销售数据分析并帮助公司获得洞察,然后再反馈到公司 Salesforce 系统中的营销策略。 目前已经有一些获得小利基的企业出现,我也看到了同样的事情发生在了物联网上。你得到了这些物联网数据源的获取,围绕着充分利用这些数据,一些针对性服务的创业公司正在出现,公司可以对其进行分析,帮助客户获得洞察力,客户不再需要雇佣一整个数据科学家团队。 Wang: 如果说到分析,显然最著名的上市公司是 Alteryx,他们有着免费的开源软件,其竞争对手有 KNIME。这些解决方案在未来是否仍将占据主导地位?你有没有看到一些类似的新公司?或者你是否认为这些分析类初创公司会依赖于数据平台?或者 Snowflake 会自然吸引这些公司成为它的一类功能? Muji: 老实说,我无法回答您上面的提问。我认为 Snowflake 已经在其平台上展现了分析功能,任何客户都可以通过各种语言或 patchy Spark 编写自己的分析和分析脚本,并在 Snowflake 的计算层进行运行。能够直接在线利用 Snowflake 的所有分布式特性我认为是一个巨大的优势。你基本上可以把你的分析结果分割成一个个小小的数据盏,但所有的这些累积起来就会产生像我描述的 Hadoop一样的问题。因此我把 Snowflake 看作 Hadoop 即服务,但它并不是真正的 Hadoop,因为它的堆栈里并没有 Hadoop,它只是建立了一个用户可以对自己数据进行分布式分析的平台。 而 Alteryx 则是一家十分有趣的公司,因为他们有一个围绕公民数据科学家计划,我认为这也是他们的发展方向。如果你想进行很好的分析,那么你需要很高的学位,你必须完全理解统计学,并有一个数据科学家团队来提取有用的见解。目前,一些小的初创公司开始填补分析这一空白领域,他们可以为企业的运营提供帮助。如果你是以销售人员为导向的组织,那么你可以使用类似 Segment 的东西来提取数据。Alteryx 目前正让被他们称为公民数据科学家的数据分析师做更多的事情。Alteryx 正在试图教育人们,通过所谓的特殊工程使他们的平台更容易使用,通过机器学习的方式创建分析模型,确定什么模型是最适合自己数据的。这能够让执行分析的过程变得更容易,并帮助到那些没有高级数据科学家团队的公司。 Wang:我喜欢 Alteryx 那样替代数据科学家的计划,但我看你图表的时候注意到这些数据流程。从数据湖和数据仓库中提取运营数据,所以我猜, 底层是 S3 或者 Snowflake。在他们的 deck 中,他们自己贯穿了整个运营数据流程,包括提取数据和可视化。现在,他们更聚焦 ETL, 他们的整个策略看来有些偏移? Muji: 是的,ETL 只是 Alteryx 的一部分,是数据的准备部分。你还需要从不同的地方提取数据,并提炼出有价值的东西,以便你进行分析。这也是 Snowflake 与 Alteryx 合作的地方,因为你可以在 Alteryx 的平台上创建所有数据,然后将其作为数据库输送给 Snowflake。但是,在另一方面,Alteryx 也可以与任意 SQL 数据库一起工作,它可以在 Snowflake上设置并运行其模型。因此,至少在 ETL 方面,Alteryx 的确是 Snowflake 的实际合作伙伴。 我认为这也是他们需要注意改进的地方,他们可以通过与 Snowflake 的内部计算相结合,免去从 Snowflake 下载数据到 Alteryx 的步骤,创建一个能够直接在数据库上运行的数据副本步骤。Snowflake 在这个方向已经有了越来越多的合作,目前已经有好几家分析性的初创公司与他们紧密结合在一起,用户可以通过 Spark 或 Python 来完成。但是我也希望能够看到 Alteryx 往这个方向的发展,和 Snowflake 建立合作关系,更好地与这些平台相结合,而并不只是把它复制出来放到自己的平台上,然后在上面跑模型。我认为这种架构在未来可能会被抛弃,或者说随着云计算的兴起而受到负面影响。就好比你从 Redshift 或 Snowflake 下载数据到上面进行分析,只是多了一个数据和一份步骤,云计算平台正在消除这些,这也正是数据湖的全部意义,用户不再需要复制数据。 Wang: 事实上,Alteryx 是一个高阶的解决方案。每次我都会提到今天的分析并不是在云端完成的,客户的数据是在自己的数据中心。我们对云端进行分析的需求是零,这恰恰与现在的其他事物完全相反,这是让我感到十分奇怪的地方。 Muji: 我不是说反对高阶的解决方案,但是如果你是自己管理的话,你完全可以把 Alteryx 部署在云端上。我对 Alteryx 最大的诟病是他们并没有围绕这一点建立云服务,现有由于疫情的影响,Alteryx 开始向云计算转移,并发布了 APA 平台,我认为这也是他们未来一年所要做的。 所以,如果你是 Alteryx 的股东,那么你真的需要仔细观察公司未来一年的变化。但我也并不满意他们在此次疫情中的表现,因为他们的增长趋势开始停滞不前。他们的风险在于只定位于以 Windows 为基础的软件、云或浏览器服务。 Wang: 他们在这个方向上投入了很多,还特意把 Alteryx 部署在浏览器中。这真是上个世纪的思路,他们自己还没意识到。 Muji: 是的,但我认为这种转变并不是突然的,我认为他们应该已经考虑了一段时间。我认为他们在疫情到来之前,75% 的事情都做得很好,我认为他们并不想太过浪费精力。直到出现了疫情,我认为正是这次疫情暴露了它们策略上的错误,我希望他们能够在未来追求更多的云计算、云原生的战略。 Wang: 如果我们观察 Snowflake,我们会发现他们的核心业务正在以迅雷不及掩耳之势逐年翻番。从战略上讲,每家软件公司都在往拓展功能的方向发展, 哪些是你认为值得拓展的邻近领域?为什么? Muji: 我认为正如我们刚才的讨论。他们已经把数据部分给解决了,Snowflake 的两个配置囊括了数据的提取和引用,已经涵盖了所有内容,我并不认为他们有必要在这里继续扩展他们的数据服务,当然可能在未来存储的速度可以更快。我认为他们可以继续改进他们的压缩算法,或者知道如何改进存储部分,而这些都取决于分析。 现在他们有着惊人的增长,有很多新的顾客涌入,新客户付费金额也在不断提高。他们的天花板是他们的扩张是否取得巨大成功,Zoom的估值是他们的两倍,那就太贵了。我认为他们会在未来取得很大的成功,他们绝对会往分析领域发展或在分析领域扩展更多的合作关系。我十分期待 Snowflake 能够和 Alteryx 进行合作,因为如果 Alteryx 有办法在 Snowflake 中运行分析计算,那么他就可以代替数据科学家的作用,使数据分析师能够像数据科学家一样,帮助更多用户通过 Snowflake 的数据获得更多洞察力, 同时,期间也会有一些提供分析服务方面的创业公司成立,因此 Snowflake 的首要任务可以是和这些公司展开合作关系,Snowflake 目前也的确有可能已经这样做了。我之前提到的 Databricks 是一家基于 Spark 即服务的公司,也是 Hadoop 即服务,他们已经从 Spark 中删除了程序,他们提供了一个无代码的环境,用户可以将 Spark Pipelines 整合在一起进行数据操作。这些数据的一部分可以通过低代码的方式进行分析。我认为 Snowflake 和 Databricks 都会朝这个方向发展。 Wang: 是的,我想鉴于 Snowflake 目前拥有 700 亿美金的市值,他们的股票也是他们一个强大的武器。无论是 Databricks 还是 Alteryx,他都可以与这些已经做得很好的数据公司在分析领域展开竞争。 Muji: 我十分同意,我认为这两家公司在不同方面都有各自的优势,我认为这也是他们的发展方向,他们能够让分析变得更容易,让普通的商户更有操作意识,知道自己需要寻求什么,知道以哪种方式查看自己的数据,让这些用户能够利用分析去做更多的事情,我觉得这是这些企业最重要的价值。 Wang: 这同时也能帮助他们进一步扩大利润, 推动他们进一步提升利润率。 Muji: 是的,一定会这样。通过计算,这些企业的客户的确是可拓展的,并且随着客户的需求越来越多,我认为他们还可以提供额外服务,并且进行收费。 Wang: 谈到软件投资时,我们不可能不谈估值。在当前环境下,这些软件公司的估值基本处于历史高位,你所选择的估值倍数与其销售额有关,更像是未来 12 个月收入的 16 倍,显然这些都是需要投资者考虑的。你之前在 Twitter 上开玩笑说,Snowflake 并没有在 IPO 那天达到你的心里预期,虽然那天很多人都认为这价格已经足够了。那么你是怎么想的?你是如何认为 Snowflake 应该比这个价格更高,你认为在什么样的情况下,为这种优质的公司付出溢价是合理的? Muji: 我想这并不是我擅长的领域,事实上,估值通常是我最后才考虑的。因为我是一个技术专家,我在观察平台时更多的是关注他们在哪里可以更好地使用他们自己的杠杆效应。我认为相较于更偏重估值的传统投资者,我的确有更多的洞察力。 因为他们通常并没有考虑客户的增长速度、每年的付费用户有多少、平台的粘性如何、客户为什么会离开、是否有大多数客户真的通过使用该平台节约了成本。他们的估值方法通常并不会包含这些。 Wang: 您提到的这些数据在销售端通常会很关心。他们会观察净利润的增长速度,客户的增长情况,这通常是他们的评判标准。 Muji: 是的,我也会考量那些现有的评估标准,例如盈利、价格和销售等。但我也同样喜欢观察平台本身,观察它是在哪里发生逆转的。就像 Cloudera 那样的公司,能够利用现有平台以新的方式进一步扩大 TAM。我认为我的优势就是在于涉及比较广泛,这些也都是传统估值指标无法覆盖到的。Snowflake 无疑是一家很成功的公司,每个人都想拥有他, 但他的价格高于我想要的价格。 Wang: 所以即使是一个技术专家,如果估值不合理你也不会参与。 Muji: 这确实有很大的风险。云服务商类似它的朋友,他们可能正在拓展他们的产品,也可能正在向 Snowflake 靠拢,并且和 Snowflake 一站式服务的易用性和价格都很接近。这是人们竞争的方式。我认为只有真正的玩家才可以获得多重云战略的真正价值,例如对你所使用的云服务商保持中立。的确也出现了几家公司,但他们并没有掀起多大波澜,在这里并没有对这些公司有任何不敬的意思,因为这的确是一家很困难的事情,因此我不得不承认,Snowflake 是一家令人十分激动的公司。 Wang: 的确,我们有着最令人激动地公司。我想人们一直期待着它的出现,人们一直注视着市场,看到了机会直到 Snowflake 的出现。 Muji: 在数据分析领域,Jfrog也很有吸引力。Asana 从表面上来看也不错,但我还需要深入研究下。现在肯定有部分公司受疫情的影响,其收入获得了 50%~70% 的增长。这些公司已经无法用一年前使用的评估方法了,在当前的市场环境下,那些我认为能力较差或增长水平不如其竞争对手的公司却得到了相同的估值,您能想象那些增长率为 25% 的公司和增长率为 60% 的公司有着相同的估值吗?这不是一个健康的市场! Wang: 所以你开通了 hhhygrowth的播客?不知道你的计划是什么?这个播客只是娱乐性质,只是为了分享你的想法吗?这里我也再次感谢你在这个领域为投资者提供了很多独到的见解。你未来的长期计划是什么? 播客只是你的一个副业吗?还是你有可能会以某种形式开通订阅? Muji: 我目前对此还没有任何计划。对我来说开通播客是一个双赢的选择。我喜欢研究公司,我的内心是一名工程师,是一名记录员,我喜欢深入研究事物。我认为对公司进行深入研究,能够提高我的洞察力。我也愿意分享我的观点,帮助那些对技术没有深入研究的普通投资者更好地理解这些平台,以及这些平台的特殊之处。 Wang: 这真的很棒,我很欣赏这一点。我相信不管是散户还是非专业人士都能够从中获得很多有价值的信息。观众如果想要阅读您的文章,只需登录 hhhypergrowth.com。好的,很高兴与您进行了这次愉快的谈话。我很喜欢深入了解各种数据主体,我认为未来的软件行业会有大量的机会涌现,仅仅是 SaaS 市场,其估值就有望增长到 8000 亿美元。希望我们未来很快就有机会能够再次交谈,也希望市场能够在给我带来更多机会的同时,能够有更合理的估值。 Muji: 是的,肯定会的,这也是我能确定的事情,只是可能发展并不稳定,可能会有其他有趣的事情出现。如果 Snowflake 没有现在这么高的价格,我可能会购买他。在我的投资组合中一定还会有其他东西,我也会继续像现在这样写文章。 Wang: 太棒了!期待您以后的文章,我们有机会下次再聊。 Muji: 感谢!我也很喜欢你们 ARK 现在所做的事情,我认为你们是未来的急先锋,你们谈论的东西总是十分有趣,希望能够在未来有机会参与。 我们是以第一性原理研究为基础的专业机构,欢迎关注和留言。 微信号: Alexqjl
State of AI: 2024 人工智能报告 以下文章来源于In ... brick3月 5, 2025 斯坦福李飞飞教授 《AI Agent:多模态交互前沿调查》 以下文章来源于AI产... brick2月 17, 2025 【Cloud500.ai】2024 年 11 月 AI 领域投融资月报 AI 行业企业融资数... brick2月 6, 2025
斯坦福李飞飞教授 《AI Agent:多模态交互前沿调查》 以下文章来源于AI产... brick2月 17, 2025 【Cloud500.ai】2024 年 11 月 AI 领域投融资月报 AI 行业企业融资数... brick2月 6, 2025