【摘要】 AMD是目前唯一一家同时拥有x86处理器和独立显卡的供应商,至少在英特尔的Xe图形发布之前,这使Red Team的互连技术具有一定的灵活性。
AMD是目前唯一一家同时拥有x86处理器和独立显卡的供应商,至少在英特尔的Xe图形发布之前,这使Red Team的互连技术具有一定的灵活性。这项技术在高性能计算(HPC)领域特别有用,AMD在昨天的Rice Oil and Gas HPC会议上的演示就证明了这一点。
AMD最初在2018年的Next Horizon活动中宣布,它将在数据中心MI60 Radeon Instinct GPU之间扩展Infinity Fabric,以实现GPU之间的100 Gbps链接,就像Nvidia的NVLink一样。但是,随着5月份Frontier超级计算机的发布,AMD透露将扩展该方法以实现CPU和GPU之间的内存一致性。AMD的图表突出显示了各种计算解决方案(例如半定制SoC和FPGA,GPGPU和通用x86计算内核)的能效之间的差异,并强调了相对于功耗和交付该组件所需的硅面积的FLOPS性能。性能。如我们所见,通用CPU落后了,但是使用专用SIMD路径的矢量化代码的优化可以提高两个指标的性能。但是,GPU在功率效率和消耗面积方面仍然占据主导地位。
就像公司使用RyzenAPU一样,利用缓存一致性,可以实现两全其美,并且根据幻灯片显示,可以统一数据并为所有代码提供简单的CPU + GPU入口。
AMD还提供了使用不带统一内存的GPU所需的一些代码示例,同时适应统一内存架构实际上减轻了许多编码负担。
AMD著名地采用了异构系统架构(HSA-在此进行深入研究)将Carrizo的固定功能模块结合在一起,并在其营销材料中宣传这一功能。与在CPU和GPU之间扩展Infinity Fabric链接的方法非常相似,HSA提供了一个缓存一致性共享虚拟内存池,该池消除了组件之间的数据传输,从而减少了延迟并提高了性能。
例如,当CPU完成数据处理任务时,数据可能仍需要在GPU中进行处理。这要求CPU将数据从其内存空间传递到GPU内存,然后GPU随后会处理数据并将其返回给CPU。这个复杂的过程增加了延迟,并导致性能下降,但是共享内存使GPU可以访问CPU正在使用的相同内存,从而减少并简化了软件堆栈。
数据传输通常比实际计算本身消耗更多的功率,因此消除这些传输可提高性能和效率,并且通过在离散的GPU和CPU之间共享内存将这些好处扩展到系统级,从而使AMD在HPC领域比其竞争对手具有明显优势。 。
尽管AMD似乎仍然是HSA基金会的成员,但它不再积极促进HSA与媒体的交流。无论哪种情况,很明显,开放式体系结构的核心原则仍然存在于AMD的新专有实现中,这很可能主要依靠其开放的ROCm软件生态系统,该系统现在正享受DOE赞助的成果。
AMD在这方面开辟了一条道路,并为百亿级别的系统赢得了重大胜利,但是英特尔也在开发其Ponte Vecchio架构,该架构将为美国能源部(DOE)的Argonne国家实验室的Aurora超级计算机提供动力。英特尔的方法在很大程度上依靠其OneAPI编程模型,并且还旨在将CPU和GPU(被称为Rambo Cache)之间的共享内存池捆绑在一起。随着更多信息的流传,更多地了解这两种方法之间的差异将很有趣。