【摘要】 昨日,寒武纪发布第三代云端AI芯片思元370、基于思元370的两款加速卡MLU370-S4和MLU370-X4、全新升级的Cambricon Neuware软件栈。
昨日,寒武纪发布第三代云端AI芯片思元370、基于思元370的两款加速卡MLU370-S4和MLU370-X4、全新升级的Cambricon Neuware软件栈。
基于7nm制程工艺,思元370是寒武纪首款采用chiplet(芯粒)技术的AI芯片,集成了390亿个晶体管,最大算力高达256TOPS(INT8),是寒武纪第二代产品思元270算力的2倍。凭借寒武纪最新智能芯片架构MLUarch03,相较于峰值算力的提升,思元370实测性能表现更为优秀:以ResNet-50为例,MLU370-S4加速卡(半高半长)实测性能为同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全长)实测性能与同尺寸主流GPU相当,能效则大幅领先。
思元370也是国内第一颗支持LPDDR5内存的云端AI芯片,内存带宽是上一代产品的3倍,访存能效达GDDR6的1。5倍。
同时,寒武纪全新升级了Cambricon Neuware软件栈,新增推理加速引擎MagicMind,实现训推一体,显著提升了开发部署的效率,降低用户的学习成本、开发成本和运营成本。
新一代智能处理器架构MLUarch03
寒武纪智能处理器架构MLUarch03,拥有新一代张量运算单元,内置Supercharger模块大幅提升各类卷积效率;采用全新的多算子硬件融合技术,在软件融合的基础上大幅减少算子执行时间;片上通讯带宽是上一代MLUarch02的2倍、片上共享缓存容量最高是MLUarch02的2。75倍;推出全新MLUv03指令集,更完备,更高效且向前兼容。
有7nm先进工艺和全新MLUarch03架构的加持,思元370芯片算力最高可达256TOPS(INT8),是上一代产品思元270算力的2倍。相较于峰值算力的提升,思元370在实测性能和能效方面的表现更为优秀:以ResNet-50为例,MLU370-S4加速卡(半高半长)实测性能为同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全长)实测性能与同尺寸主流GPU相当,能效则大幅领先。