最前线 | 开源数据编排服务商「Alluxio」获5000万美元C轮融资,高瓴创投领投

文 | 咏仪

编辑 | 苏建勋

36氪获悉,Alluxio宣布完成5000万美元C轮融资,该轮融资由高瓴创投领投,战略投资方和原股东a16z, Seven Seas Partners,火山石投资跟投。

本轮融资将用于继续加大产品研发力量,在全球扩大目标市场规模和研发运营覆盖范围,推动公司业务快速增长。

与此同时,Alluxio也宣布将大力拓展国内市场业务,将北京设立为中国区总部,并成立本地化的研发团队,以快速响应并满足众多国内企业的个性化需求。

Alluxio是一家开源云原生数据编排软件开发商,成立于——年。Alluxio的主要产品为分布式超大规模数据编排系统,其前身为开源项目Tachyon,孵化于加州伯克利大学Amp实验室。创始人兼CEO李浩源

从云计算的架构来看,最底层的是物理资源层,再到存储层、计算层、应用层等。Alluxio所做的事情,是在计算框架和现有的存储系统之间建立了一个虚拟层,这能极大地加速数据调度的效率。

Alluxio的数据团队能够将计算与存储分离,同时让数据更接近计算,用于跨云、跨集群和跨区域的分析和人工智能/机器学习工作负载。简单来说,就是把在不同存储中的所有的数据给虚拟化和抽象化。抽象起来之后进行编排,为上层的数据应用,如Spark、Presto、TensorFlow、Pytorch等等,能够达到几倍乃至几十倍性能的提升。体现在一线业务人员处,工作效率提升可以达到2-6倍,原来一年需要做的工作量,同样的人花费两个月或四个月就能完成。

伴随着本轮融资,Alluxio也正式发布了数据编排平台2.7版本。2.7版本通过并行数据加载、数据预处理和训练工作流,可将机器学习(ML)训练的I/O效率提高5倍,从而显著降低成本。新版本还提供了更强的性能分析,并能更好地支持Apache Hudi和Iceberg等开放表格格式,使得对数据湖的访问更易于扩展,从而实现了Presto和Spark的分析提速。

CEO李浩源在发布会中表示,当前社会和行业都更加数字化,导致数据本身越来越多,而基于数据的存储产品以及数据分析、机器学习等各种各样的数据产品都在增加,数据世界是割裂的,各种复杂的数据平台直接导致了数据使用的低效。

“从方法论的角度来讲,著名的计算机专家David Wheeler就提到过:在计算机领域所有的问题,没有任何一个问题不能通过添加一层抽象来解决,我们也是遵循了这个方法论。Alluxio在整个技术栈中提出了新的抽象的一层,也就是统一了数据入口,可插拔所有的大数据、AI机器学习的软件栈,打通全域数据,这是我们所做的工作。”他表示。

目前,全球十大互联网公司中已有包括Facebook、Airbnb、Uber、阿里巴巴、腾讯和字节跳动在内的八家企业部署了Alluxio。Alluxio的主要客户集中在科技、金融、电信、基因制药等行业,有不少大型企业都在生产环节中使用Alluxio的产品,单一用户单一集群已经做到了三四千台服务器以上规模。当前公司商业化进展不断提速,今年年初第一季度已取得正向现金流。

开源是近期的创投热点,开源与商业化的关系是最受关注的话题之一。Alluxio如何能够在全球各个行业中建立标杆,并且做好商业化?

李浩源对36氪表示,十多年前,开源软件的商业化还是处于比较原始的状态,一般是做支持服务从而实现商业化,但从2010年开始,新的商业化模型就越来越成熟,Alluxio的商业化模型其实是基于开源上,添加商业化功能,以企业版输出。当前,Alluxio绝大部分客户都是单一来源,而且90%的客户都是全球500强,已经得到很好的市场验证。

对于未来规划,李浩源也以Alluxio新版本为例,介绍了以后的产品和技术方向,第一是加强对大规模数据分析的支持;第二是加强加深了对人工智能技术的支持,第三是让平台的用户使用更容易,增强跟k8s的整合。

目前,Alluxio已经实现了在全球范围内的开源,已经有超过300多个组织机构和超过1100位贡献者参与开发,包括目前国内头部的计算机领域的高校、实验室、科技公司、电信公司和金融公司等。

相关阅读

以数据编排技术提高数据提取效率,「Alluxio」已收获全球五大云厂商用户

像虚拟机一样虚拟数据,开源项目Alluxio要发力中国市场