微软发布的超级计算机无疑成为一把利器 居于世界超算 Top5 之列

2020-05-22 11:00:23
来源: 新浪

  【摘要】 昨晚,微软 Build 2020 大会发布的超级计算机则无疑成为了 Azure 在 AI 方面的一把利器,拥有超过 285000 个 CPU 内核、10000 个 GPU

昨晚,微软 Build 2020 大会发布的超级计算机则无疑成为了 Azure 在 AI 方面的一把利器,拥有超过 285000 个 CPU 内核、10000 个 GPU 和 400Gbps 的网络连接,居于世界超算 Top5 之列。

云计算厂商之所以需要大刀阔斧地建立超算中心,其原因在于通过云化的形式和高效的软件服务,云计算厂商可以将超大规模的计算力共享给客户,重复利用,灵活调度,以获得最大的经济效益。

目前,微软的超级计算机主要用于训练超大规模 AI 模型(这同时也是 OpenAI 的强项),与上一代 AI 模型相比,超大型 AI 模型是对现有 AI 模型的升级,它具有自我监督的优势,这意味着它们可以通过暴露数据各部分之间的关系来从数据生成标签,这被认为对实现人类智能至关重要。

受新冠疫情的影响,门票原本为 2395 美元的微软 Build 2020 完全在线上举行。

虽然变为线上举行,但微软对于 Build 2020 依旧充满了诚意,纳德拉这样说道:这是另一种以新方式交付的 Microsoft Build。举办数字活动为开发人员社区提供了难得的机会,他们可以聚在一起以获得真正的全球体验。而由此 Build 2020 也比以往更加注重开发人员。

比肩全球 Top 5 的 AI 超级计算机、Windows 应用生态 UI 和 API 大统一、Edge 浏览器多项功能更新、Microsoft Teams 大升级、诸多基于 Azure 云计算的功能更新……一连串的产品发布、升级,也让 Build 2020 有了颇多看点。

一 联手 OpenAI,自研超算中心

毫无疑问的是,在这场硬核的开发者大会上,微软与 OpenAI 共同构建的 AI 超级计算机吸引了最多的眼球,被微软称之为可跻身全球前五。

2019 年 7 月 22 日,微软宣布将向 OpenAI 投资 10 亿美元,以共同开发用于 Microsoft Azure 云平台的新技术,作为交换,OpenAI 同意将其部分知识产权许可给 Microsoft,然后该公司将其商业化并出售给合作伙伴,并在 OpenAI 致力于开发下一代计算硬件时在 Azure 上训练和运行 AI 模型。

OpenAI LP CEO、原 YC 总裁 Sam Altman 与微软公司 CEO 萨提亚·纳德拉(Satya Nadella)

在微软的 Build 2020 开发者大会上,合作伙伴关系的第一个成果以一台新型超级计算机的形式得以展示。

该计算机专为训练 OpenAI 的 AI 模型而设计,是单个系统,算力十分强大,它拥有超过 285000 个 CPU 内核、10000 个 GPU 和 400Gbps 的网络连接。

根据「TOP 500」组织编制的全球超级计算机 500 强榜单显示,算力排名前五的计算怪兽分别包括:

1)美国橡树岭国家实验室的Summit系统(148.6 petaflops);

2)Lawrence Livermore国家实验室的Sierra(94.6 petaflops);

3)由中国国家并行计算机工程与技术研究中心(NRCPC)开发的“神威-太湖之光”超级计算机(93.0 petaflops)

4)由中国国防科技大学(NUDT)开发的天河2A(61.4 petaflops)

5)戴尔制造的Frontera Dell C6420(23.5 petaflops)。

微软表示,与世界 TOP500 超级计算机相比可比肩 Top 5,则意味着它在中国国家超级计算机中心的天河 2A 后面,在德克萨斯高级计算机中心的 Frontera 之前,其算力峰值每秒可以执行 23.5 到 61.4 个万亿浮点运算。

从性能上来说,得益于在 Azure 上托管,这台超级计算机拥有现代云计算基础设施的各种优点,包括快速部署、可持续发展的数据中心、并可以访问所有 Azure 服务。

超高性能将用来训练更高级别的超大规模人工智能模型,并为机构和开发人员提供了超大型 AI 模型和训练这一模型所需的架构。

通过培训优化工具和超级计算资源,数据科学家和商业客户便可以轻松利用 Scale AI 功能。深入了解语言语法,识别概念中的差别,完成复杂任务。

所谓超大型人工智能模型是针对小型模型而言的,小型人工智能模型使用许多带有标签的示例来学习单个任务,例如在语言之间进行翻译,识别对象等。

而超大型模型可以通过检查数十亿页的公开文本来学习。这种类型的模型可以如此深入地吸收语言,语法,知识,概念和上下文的细微差别,以至于可以胜任多项任务:总结冗长的讲话,调节实时游戏聊天中的内容,在成千上万个法律文件中甚至找到相关段落从搜寻 GitHub 生成代码。

超大型 AI 模型以新的方式来学习文本 Craighton Berman 的艺术

「这些模型令人兴奋的是它们将实现的功能的广度。」,潜在的好处远远超出了一种 AI 模型的微小进步。微软首席技术官凯文·斯科特(Kevin Scott)说。「这是关于能够一次在自然语言处理中完成一百项令人兴奋的事情,以及在计算机视觉中完成一百项令人兴奋的事情,当您开始看到这些感知领域的组合时,您将拥有很难的新应用程序甚至现在都无法想象。」

另外,从技术角度来看,超大型模型具有「自我监督」的优势,优于大型模型。在所谓的「自我监督」学习中,这些 AI 模型可以通过检查 Internet 上数十亿页的公共文档(维基百科条目,自出版的书籍,说明手册,历史课程,人力资源指南)来学习语言。

这些改进有点像从基础阅读水平跳到对语言的更复杂和细微的理解。

此外,自我监督也意味着它们可以通过暴露数据各部分之间的关系来从数据生成标签,这被认为对实现人类智能至关重要。

二 开源全球最大语言模型

毫无疑问的是,用于设计超级计算机的软件工具都可能为 Microsoft 带来新的市场机会。通过规模化 AI 计划,这家科技巨头正在提供资源,以优化的方式在 Azure AI 加速器和网络上训练大型模型。

Microsoft 一直有自己的大型 AI 模型家族,今年早些时候,它还向研究人员开源了世界上最大的公开可用的 AI 语言模型,即用于自然语言生成 的 Microsoft Turing 模型。该模型已用于改善 Bing,Office,Dynamics 和其他生产力产品的许多不同的语言理解任务。

这些模型家族只需使用大量数据和超级计算资源对其进行一次培训,公司便可以采用「经过预训练」的模型,并可以使用更小的数据集和资源对不同的任务进行微调。

例如,过去一年中,基于自然语言理解的「微软图灵模型(Microsoft Turing)」用于改善各种生产力产品。它在 Bing 中 具有显着先进的字幕生成和问答功能,在某些市场中将搜索问题的答案提高了多达 125%。

在 Office 中,同一模型推动了智能查找功能的发展 ,从而使在 Word 中的搜索更加轻松,Key Insights 功能可提取重要的句子以快速定位 Word 中的关键点,而 Outlook 的「建议的答复」功能会自动生成对电子邮件的可能答复。Dynamics 365 Sales Insights 还使用它根据与客户的互动向卖方建议操作。

对于希望训练超大型 AI 模型但又不需要专用超级计算机的客户,微软还提供了以分布式和优化方式在这些集群上训练大型 AI 模型的工具。通过一组同样为超级计算机提供动力的 AI 加速器和网络提供了对强大计算的访问 。

在 Build 会议上,Microsoft 宣布它将很快开始开放其 Microsoft Turing 模型以及在 Azure 机器学习中对其进行培训的原材料的开源。

微软首席项目经理 Phil Waymouth 说:「我们希望能够构建这些非常先进的 AI 技术,使人们最终可以轻松地使用它们来帮助他们完成工作并更快地实现目标。」

云计算厂商之所以需要大刀阔斧地建立超算中心,其原因在于通过云化的形式和高效的软件服务,云计算厂商可以将超大规模的计算力共享给客户,重复利用,灵活调度,以获得最大的经济效益。

比如部署在国家超算广州中心的天河二号,研究人员根据应用的需求以及实际的硬件环境,对开源的 OpenStack 进行大量的定制和优化,并结合容器技术,打造企业级解决方案 KylinCloud 云平台,为政府部门和企事业单位的信息化建设和大数据处理提供资源支撑。

事实上,从部署规模的维度来看,云计算的底层也是一种超级计算机——通过数据中心级操作系统,把不同地域的超大规模的物理服务器,聚合成一台超级计算机,统一调度和使用。所以,现在云计算和超算更像是不同维度的概念,前者侧重信息技术的交付模式,后者侧重体现系统的构建。

三 抢下云计算 AI 第一把交椅?

全世界的科技巨头在云端的战火不断升级,而云计算对于微软和纳德拉来说,其意义更为重要。

在鲍尔默宣布要退休的时候,微软 CEO 这个职位没被当作一个美差。彭博社甚至还发表了一篇标题为「为什么你不想成为微软的首席执行官」的文章。而纳德拉就在这样的危机存亡时刻,接手微软,此时的微软市值缩减到 3000 多亿美元,不及 1999 年微软辉煌时刻的一半。

在纳德拉接手微软之后,云计算成为微软的「重头戏」,微软的股价也在纳德拉的努力之下,不仅达到了 1999 年巅峰的 6000 亿美元市值,更是不断上涨直到现在的 1.39 万亿美元。

在全球云市场,微软目前市场占有率第二,占有 17.9% 的市场份额,仅次于巨头亚马逊。在竞争激烈的云市场中,AI 算力或许会成为巨头们的下一法宝。

众所周知,在当今 AI 技术研发和产业落地过程中,所需「算力」逐年递增。根据 OpenAI 发布的 AI 计算量报告,自 2012 年以来,AI 计算量每年增长 10 倍,而从 AlexNet 到 AlphaGo Zero,最先进 AI 模型对计算量的需求已经增长了 30 万倍。

在云计算 Top5 公司中,据 CCS Insight 调查报告显示,拥有 AlphaGo 的谷歌在 AI 领域一直处于领先的地位,领先于微软等其他科技巨头。

对于微软来说,在 Azure 推出 AI 超算平台,提升了 Azure AI 服务,并通过 GitHub 提供其大型 AI 模型,通过可以为客户提供差异化的服务,提升了微软在 AI 领域的服务能力,吸引更多开发者使用 Azure。而谷歌在 AI 领域的优势或将不复存在。

微软首席技术官凯文·斯科特(Kevin Scott)表示:「通过开发用于训练大型 AI 模型的领先基础架构,我们使所有 Azure 变得更好。」「我们正在建造更好的计算机,更好的分布式系统,更好的网络,更好的数据中心。所有这些使整个 Azure 云的性能,成本和灵活性更好。」