阿里云雁杨:人类计算永不眠

来源:财经网  作者:史中    刚刚 0
分享到:
导语

阿里云ECS(弹性计算)的老大雁杨,坐在我面前。保证这些云服务器在无数互联网狂欢中持续输出稳定的性能,他责无旁贷。

“老铁们,走一波666!”主播一声喝号,满屏的弹幕从全国各地汇聚而来;

反之,你在群聊里发送一条消息,这条消息会被瞬间散播到1000个人的手机上。

如果电流也有色彩,在空中俯瞰,它们会在版图上形成无数绚丽的烟花。

这里有两个事实:

1、这些自由而广袤的交流,最底层的引擎是一台台服务器,而这些服务器中,有很大一部分是“云计算”服务器。

2、这些我们看来再平常不过的互联网场景,对于云计算来说并不是毫无压力,恰恰相反,每一波空前凶猛的网络狂欢,都在挑战着技术的极限。

阿里云ECS(弹性计算)的老大雁杨,坐在我面前。保证这些云服务器在无数互联网狂欢中持续输出稳定的性能,他责无旁贷。

【雁杨】

雁杨两手摊开,就像是打开了云计算的大脑。

一、速率:人的“狂欢”,云的“压力”

每一次众人在互联网上史无前例的大规模聚集,都是云主机的一次“劫难”。

1、网络速率——你的“666”还好吗?

打个比方。我们的大脑,注意力只能集中在有限的几件事上;同样的道理,云主机每秒只能处理一定数量的数据包。

一台云主机每秒可以处理多少“包”,叫做“PPS”(Package per Second 每秒发包数),是性能的一个重要指标。

以直播的场景为例,每一个“666”弹幕都是一个数据包。而你知道,大家往往是在同一个时间发666,有的人还连续发好几条666。

这就要求云主机可以同时处理那么多来自四面发放的请求,并且保持稳定的 PPS 性能指标。

在云计算发展历史上,这个指标并不尽如人意。

举个例子,2012年开始,阿里云第一代云主机(使用的是千兆网卡)的PPS是20-30万每秒,而直接用物理机千兆网卡发包的话,速率能达到120万每秒。

之所以性能损失如此巨大,是因为在虚拟化的过程中,虚拟机要通过物理机联系网络,中间隔着一道高墙,相当于每次微小的数据交换,数据都要来回翻越这堵墙,自然性能损耗非常严重。

不幸的是,现在流行的弹幕、秒杀、游戏等等,往往都是大量用户的操作集中在一个瞬间爆发,云主机在这个瞬间往往“有心无力”。很长一段时间,这个事实让雁杨这样的云计算的信徒抬不起头。

2、“450万/秒”:一个梦幻数字

2015年,通过硬件和软件的两个进步,让雁杨信心倍增。

凭借这两个进步,雁杨和同事们把万兆网卡上的 PPS 从上一代的30万每秒提高到了120万每秒。而技术的进步,一发不可收拾。

又经过了两年,2017年,雁杨和团队把这个数据提高到了450万每秒(450 PPS)。

而目前,阿里云的一个友商,云计算世界份额最大的公司的云主机的发包速率,在同等配置下的数据是 150万每秒。

我们曾经用互联网,把信息传输的速率从口耳相传的时代提高了亿万倍,而450万这个数字意味着,雁杨和同事在云计算的领域里,又把人类信息交互的速率推升了三倍。

人们好奇两个问题:这是真的吗?他们是如何做到的?

根据雁杨的介绍,他们主要做了如下的改进:

正常的虚拟机处理网络请求流程,是虚拟机通过宿主机(也就是物理机)内核访问网卡发送信息,接收信息也要通过网卡回到宿主机内核,然后经过虚拟化过程进入虚拟机。

而阿里云的方法是,直接把网络上的信息绕开内核,用户态直通虚拟机,绕过了物理机的内核“跳板”,这就为每一次信息传输节省了大量的时间,

雁杨说,这种通过用户态直通,绕过内核零拷贝包处理提高极致网络和存储虚拟化性能的技术理念,并不是阿里云的独创,关键还是在阿里云对核心组件自研的坚持,这种核心技术把控力让阿里云在这次复杂的技术演进中能够游刃有余,加上在每一个步骤的工程都做到优化的极致,就达到了450万PPS 的“梦幻数字”。

二、从一种锤子到N种锤子

“从本质上来说,云计算技术是一个工具。它和我们曾经创造的伟大发明一样。例如蒸汽机,例如太空飞船。它承载的是我们对这个世界的理解和好奇。雁杨说。

云计算的工具属性,凸显了它对于人类的哲学意义。既然是工具,那么我们可以作如下类比:

一把锤子,可以根据不同的应用场景进行分化定制:需要拔钉子时用羊角锤、敲打易碎品时用橡胶锤,坚硬物品破碎时用电锤。

雁杨的判断是:云计算发展到今天,已经到了需要对各种场景高度定制化的阶段。

所以,阿里云的 ECS 根据不同场景搞出了 17 种企业级应用。他举了几个例子。

本地SSD型:

举个例子。某个电商网站,会有一项“刚需”,那就是用户的交易数据、账户余额信息不能有丝毫的错误。一旦用户账户数据错乱,对电商来说就是真金白银的损失。

所以,这种情况下用户的数据不可以存在内存里,积攒一段时间再统一写进硬盘。而每一笔交易都写进硬盘,在业务高峰期,又会遇到“吞吐”和“时延”问题。

这种情况下,雁杨和团队做出了一种“妥协”方案,那就是在云主机的本地部署几块速度超快的 SSD 作为数据存储盘,这样系统就不需要每次都经过网络去寻找巨大的存储池里属于自己的那一块虚拟硬盘,在最新的I2实例规格族达到了单实例最大200万每秒读写次数,比当前云盘最高的单实例18万读写次数提高了10倍,同样的,这里的核心技术,和网络的性能加速类似,对本地SSD盘的io也是通过用户态直通,减少内存拷贝,大幅度提高了虚拟化对本地ssd的读写性能。

异构计算:

举个例子。有人想在云主机上做人工智能、深度学习。

而深度学习,如果用普通的 CPU 来跑,效率非常低下。而如果使用 GPU、FPGA 等专用的芯片,就会提高千百倍的速度。

人工智能,显然已经成为全世界最被看好的技术之一,在云计算上的爆发几乎已经成为定局。雁杨自然也不想让阿里云错过这个千载难逢的机会。

所以搭载 GPU 和 FPGA 的异构计算云主机,也是一类重要的企业级主机。

三、人类计算永不眠

这里有两个很重要的事实:

1、刚刚提到的一切云计算技术的飞跃,几乎都在最近一年内才完成。

2、而同样是在这半年,阿里云采用的硬件密集地进行了升级。以 CPU 为例,短短几个月,经历了从 Haswell 到 Broadwell 再到 Skylake 的两代跨越。其他硬件例如 25GE 网卡也是如此。

根据以上事实,可以得出一个肯定的结论:

人类的云计算能力,此时此刻正在进行着超越想象的飞跃。这次云计算飞跃的影响,很可能甚至超越了很多人的想象空间。

雁杨说,以目前硬件采购的速度来看,阿里云的计算集群正在以巨大的速率增加。这种增加的背后,是互联网对于公共云计算能力的极度渴求。

目前为止,我看不到任何这种增长停滞的迹象。人们未来对云上计算力的利用,可能会更加疯狂。这将是一个史诗级的进程。雁杨描绘了一个有趣的模型:如果站在云端俯瞰,你会发现云计算的算力随着地球的转动而波涛汹涌:

每天中午,饿了么对算力的需求会狂飙;而到了晚上,映客直播对于计算力的需求又会狂飙;即使到了深夜,各大公司也会对一天的数据进行整理、报表,利用业务空闲时间让计算机进行数据挖掘。

在一天的时间内,云计算用户对算力的需求构成波峰和波谷。而无数用户对极致的追求汇集在一起,就会在时间的循环里形成永无止境的计算浪潮,直至汇聚成波涛汹涌的计算海洋。

至此,雁杨终于说出了那句话:

人类的计算永不眠。

阿里云 雁杨
分享到:

财经网微评论0人参与)

查看更多>>
匿名评论
  • 全部评论(0条)
查看更多>>
  • 热门排行
  • 大家喜欢
  • 站在资本风口,如何飞得更高是每个公司的梦想。在当下的政策寒流中,如何走得更远是每个互联网中介公司面临的新课题。

  • 生鲜电商领域最早的试水者沱沱工社换帅一事再一次搅动生鲜电商一池春水。这片深不见底的池水下面,是创业者对它又爱又恨的复杂情绪。在这个被视为下一个千亿级的电商市场中,不断传出的倒闭消息时刻拷问着每一位从业者:怎样才能玩转生鲜电商?

  • 不少苹果用户最近几周在苹果官网论坛和各大社交网站投诉称,他们在iPhone上安装了最新iOS升级后,手机耗电速度明显比平时快了。

  • 2017年12月14日,以“决策·进化”为主题的中国首个行业AI决策系统发布会在北京召开。百分点集团正式发布了行业AI决策系统Deep Matrix及覆盖五大行业的决策系统产品,致力于推动企业组织跨越智能鸿沟、向智能决策方向迈进。

  • 2017年12月15日,北京,主题为“三十年峥嵘不忘初心,新时代使命砥砺前行”的中关村民营科技企业家协会--"成立30周年庆祝大会暨高峰论坛" 在北京世纪金源大饭店盛大召开。