龙芯LA664性能(néng)追平AMD Zen3

 信创资讯     |      2022-06-07 15:45:33    |      中芯教育

日前,龙芯发布了龙芯3C5000服務(wù)器处理(lǐ)器,并联合生态伙伴共同发布新(xīn)一代國(guó)产服務(wù)器基础软硬件平台。这次发布会有(yǒu)两个亮点,一是3C5000处理(lǐ)器,二是3A6000仿真成绩。

图片

龙芯3C5000弥补服務(wù)器不足

过去,龙芯一直致力于提升单核性能(néng),没有(yǒu)盲目去堆核心数量。这种稳扎稳打的做法使龙芯在过去10年中IPC提升了3-4倍,在桌面CPU上成效立竿见影。

图片

但在服務(wù)CPU上,由于國(guó)内ARM CPU往往采用(yòng)“堆核战术”,也就是用(yòng)64核、128核堆出一款服務(wù)器CPU,这导致龙芯的四核CPU虽然在单核性能(néng)上更好,但在多(duō)核性能(néng)上不如ARM CPU。这使龙芯在服務(wù)器CPU市场竞争中处于不利地位。

3C5000是龙芯第一款16CPU,采用(yòng)完全自主的LoongArch指令架构,16核心单芯片unixbench分(fēn)值9500以上,双精度计算能(néng)力达560GFlops16核处理(lǐ)器峰值性能(néng)与典型ARM 64核处理(lǐ)器的峰值性能(néng)相当,并支持最高16路互连,搭配新(xīn)一代龙芯7A2000桥片,PCIe吞吐带宽比上一代提升400%以上。就SPEC2006测试来看,单核定点浮点Base分(fēn)均大于10/G,单芯片分(fēn)值超过200。可(kě)满足通用(yòng)计算、大型数据中心、云计算中心的计算需求。该处理(lǐ)器通过芯片级安全机制可(kě)為(wèi)等保2.0、可(kě)信计算、國(guó)密算法替代、网络安全漏洞防护等提供CPU级内生支持。

3C5000最大特点是单核性能(néng)强,特别是unixbench这种看重单核核内存性能(néng),多(duō)核加速比很(hěn)低的测试,龙芯只用(yòng)16核就能(néng)跑到9500,某ARM CPU即便有(yǒu)64核也跑不到这个成绩。从公开的数据来看,3C5000的性能(néng)在信创市场足够用(yòng)了,而且16核的核心是使其部署比较灵活。另外,龙芯还会有(yǒu)3D5000,也就是把两个3C5000封装到一起的胶水32核芯片,主要针对一些对性能(néng)有(yǒu)更高要求的场景。

图片

图片

图片

图片

图片

图片

龙芯3A6000 IPC追平Zen3

相对于3C5000,铁流认為(wèi)3A6000更加值得关注。相对于一些技术引进CPU在引进海外技术后CPU IPC增長(cháng)缓慢,性能(néng)提高基本依靠購(gòu)买更好的EDA工具和买台积電(diàn)更好的工艺。龙芯一直致力于提升CPU微结构设计水平来提升CPU的性能(néng)。CPUIPC在过去10年中提升了3-4倍,这使龙芯可(kě)以在制造工艺上落后技术引进的某ARM CPU一代的情况下,依然可(kě)以依靠CPU微结构设计水平做到性能(néng)持平或略优于技术引进的某ARM CPU。当龙芯与引进的某ARM CPU采用(yòng)相同工艺时,龙芯可(kě)以凭借其IPC上的优势在性能(néng)上领先某ARM CPU

图片

图片


3A6000和3A5000采用(yòng)相同制造工艺,龙芯依靠其设计能(néng)力把CPU性能(néng)大幅提升。从仿真成绩看,定点相对于3A5000提升30%,浮点相对于3A5000提升60%这种提升是非常骇人的——如果仿真成绩与最终成绩相当,那么,3A6000 SPEC06单核定点Base分(fēn)大于13/G,浮点Base分(fēn)大于16/G如果3A5000為(wèi)2.5G2.8G,那么,3A6000的 SPEC06单核定点Base分(fēn)大于35,浮点将大于45这个性能(néng)对于信创和日常使用(yòng)而言都已经明显过剩了。

图片

(gcc,1165G7测试过程的频率大约是 4.2GHz,换算IPC 13.3/G。下图5600G的编译参数和1165G7基本是一样的。感謝(xiè)guee帮忙测试)

图片

gcc,int_base 48.6。测试过程中频率基本保持在 4GHz,也就是说 IPC 為(wèi)12/G,由于测试还有(yǒu)调优空间,及5600G的缓存要比5600X少一半,可(kě)以认為(wèi)调优后的Zen3可(kě)以达到13/G


作為(wèi)参照,11代酷睿的IPC大约是定点13+/G12代酷睿IPC大约是定点15+/GZen3IPC大约是定点13/G,龙芯LA664能(néng)够达到定点13/G,浮点16/G,这已经追平或接近Zen311代酷睿。

当下,在同频性能(néng)上追平11代酷睿和Zen3已经很(hěn)不错了,唯一的问题就在于主频了。当龙芯把7000系列把工艺换成5/7nm就可(kě)以把主频做到3G以上,可(kě)以实现 SPEC06单核定点Base分(fēn)大于40,浮点Base分(fēn)大于50这种性能(néng)已经达到英特尔、AMD市场主流水平,即便龙芯平台移植了3A大型游戏,龙芯7000系列CPU也足以应对。

结语

经过20多(duō)年的磨砺,龙芯终于把LA664提升到11代酷睿和Zen3的水平。LA664不仅超越了现有(yǒu)技术引进的ARM CPU,还超越了某些ARM CPU厂商(shāng)PPT上的下一代CPU核。即便是当下國(guó)内首屈一指的海光,如果不把CPU IPC提升30%以上,面对LA664也要败下阵来。

回溯历史,在10年前,龙芯的IPC是不如技术引进CPU的,某技术引进ARM CPUIPC是当时龙芯的2倍左右。然后,技术引进是存在代价和陷阱的,往往是知其然不知其所以然,进而导致发展后劲不足。

相比之下,自主研发虽然在起步阶段慢一些,苦一些,累一些,无法像技术引进CPU那要快速拿(ná)出产品,但自主研发发展后劲更足,这一点从龙芯过去10年的发展就能(néng)看出来。

龙芯的性能(néng)已经不再是应用(yòng)的障碍,唯一的障碍是软件生态。期待龙芯能(néng)以应用(yòng)為(wèi)阶梯,在合作伙伴的帮助下循序渐进构建可(kě)以与Wintel、AA體(tǐ)系相媲美的自主技术體(tǐ)系。



分(fēn)享上面的二维码给朋友,即可(kě)直达此页!