关于国产项目Apache Kylin 发展历程及背后的那些事

108次阅读

共计 2081 个字符，预计需要花费 6 分钟才能阅读完成。

导读	2015 年 12 月 8 日，Apache 基金会宣布 Apache Kylin 从 Apache 孵化器项目毕业，正式升级为顶级项目。从最初开源到成为 Apache 顶级项目，Apache Kylin 只花了 13 个月，而且它也是第一个由中国团队完整贡献到 Apache 的顶级项目。

Apache Kylin 现状如何? 背后有怎样的技术团队? 接下来又会有什么规划和动作? 本期，来自 Kyligence 的联合创始人兼 CTO、Apache Kylin 联合创建者李扬，跟大家分享 Apache Kylin 的开源历程、发展方向以及背后团队的故事。

关于国产项目 Apache Kylin 发展历程及背后的那些事

李扬，Kyligence 联合创始人兼 CTO，Apache Kylin 联合创建者及项目管理委员会成员 (PMC), 主创团队架构师和技术负责人。专注于大数据分析、并行计算、数据索引、关系数学、近似算法、压缩算法等前沿技术。曾任 eBay 全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights 的技术负责人。

【访谈实录】

1)Kylin 的发展迅速的关键点

答：其实我觉得开源与否并不重要，一个项目成长快、使用度广的关键之处，是在于能不能解决实际问题。Kylin 解决了一个很重要的问题就是：大数据怎么能够高速、高并发的查询，这才是关键所在。Kylin 对这个问题的解决，打开了很多可能。比如传统的一些数据应用，原本无法对接大数据，因为大数据一查询可能需要 5 分钟、10 分钟甚至更久，用户等不及都走了。有 Kylin 以后则打开了一大块新的领域，这是一种突破，也是 Kylin 的价值，是它能够很快发展的原因。

2)Kylin 发展现状如何?

答：我觉得现在发展挺不错的，国内外的开源产品应用很多，而且都是大型企业在使用，像百度、京东、网易等。现在还看到一个新趋势，它正在往传统企业逐渐渗透。互联网公司本身技术比较强，用得早也是应该的。传统企业技术不是那么强的，对这种易用的大数据技术，也渐渐应用起来，像移动、电信、金融、银行等等，都有看到渗透，这是很好的现象。

Kyligence 作为一家商业公司来说，目前在国外的市场推广还处于初期阶段，我们对国外的扶持和贡献还不是很多。国外有一些集成商以及一些技术比较好的企业，会自己拿着 Kylin 使用，也常常会来 Kylin 社区做一些交流。

3) 对流式处理进行了讲解是 Kylin 的新特性吗?

答：应该算是新特性，kylin streaming 流式处理其实是大家一直以来呼吁 kylin 支持的特性。在之前 1.5 的版本里面有个实验性的实现，相当于是个半成品，还没做到最好。现在介绍的是在 1.6 版本里面会正式推出的流式处理功能，我们有做一些大规模的测试，验证了它是一个比较可靠的功能后才推出来。

4)Kylin 目前的版本更新周期是怎么样的?

答：这个很难保证，因为开源软件，都是看志愿者贡献，我们一般努力做到 1 - 2 个月发一次版本。其实现在回过头去看，之前也差不多就是这个时间间隔。

5) 能简单说下 Kylin 目前的技术团队构成吗?

答：Kylin 的技术团队最开始只有 4、5 个人，经过逐渐壮大，目前的主力主要是来自 Kyligence，大概有 10 来个，此外还有来自京东、美团、网易和一些国外的贡献者。

6)Kylin 团队的氛围和文化如何?

答：我们的团队其实是非常轻松的。有些开源社区在开发流程方面可能会比较严谨，比如说代码不能随便提交，需要先提一个 pacth，然后有好几个 review，全部通过以后才可以提交。Kylin 社区是比较松散的，我们鼓励把更多的自由和创造力交给开发人员。当你有一个 pacth 提交上来，只要你有权限就可以直接合并，并放入代码库。等到事后有时间的话，可能会再来抽验一些进行 review。这个步骤和别人是反过来的。

这样难免会出现一些错误，但这就是一种文化，没有说好或者不好。至于是鼓励大家主动性多一些，还是管理更重要一些，还是得看各自的情况。

7) Kylin 接下来的发展方向如何?

答：其实还挺多的，主要有两个。一个是近实时的大数据分析我们基本上已经完成，在 1.6 版本里的 streaming 大概能做到分钟级别，也就是说 2 - 5 分钟的延迟，就能看到最新的数据。但在这个基础上面，其实还能做到更好，把延迟缩短到秒级别，实现真正的实时，这是我们往后的一个方向。

还有一个是支持数据模型的拓展。以前 Kylin 支持的数据模型叫做星型模型，是比较受限的模型，能解决大概 70% 的问题。但是在和实际用户的讨论当中发现，很多实际问题他们会需要更复杂的模型，也就是雪花模型。所以我们接下来会做对雪花模型的支持。这个实现之后，Kylin 基本上可以和传统的数据仓库的级别来进行对比，不管关系模型有多复杂，Kylin 都可以将它拿进来，提供快速、高并发的查询能力。

8) 目前 Kylin 开发者社区的活跃度如何?

答：我们一直说评估一个开发者社区是不是活跃，在 Apache 社区就看它的邮件列表里面的活跃度。Kylin 社区的邮件列表活跃度和 Spark 差不多，其实是挺活跃的。