做大模型时代的“卖铲人”：腾讯发布超强算力集群国内首发搭载英伟达H100

　　该集群采用腾讯云星星海自研服务器，国内首发搭载英伟达最新代次H800 GPU，服务器之间采用业界最高的3.2T超高互联带宽，为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。

　　当下，大模型训练如火如荼，且参数量级已进入万亿时代，单体服务器算力有限，随着算力需求的增长，因此需要将大量服务器通过高性能网络相连，打造大规模算力集群。

　　集群的算力要求，意味着用于采购硬件的资金投入是指数级增长，这给不少企业带来了巨大的现金流压力。自己采购GPU，面临着成本和供应链问题，且峰谷问题较为明显。

　　例如，本地的物理CPU/GPU资源配比是固定绑定在一起的，扩展性比较差。有时CPU跑满、GPU空闲(或相反)。造成效率低下和资源浪费。在云上，这些资源可以池化随取随用，按需按量取用。

　　面对业务架构多样、用量无法准确预估、模型及环境部署难度大等问题，腾讯认为，云上算力能帮助企业完成随机突发的算力需求。

　　目前大热的人工智能大模型，其训练需要海量数据和强大的算力来支撑训练和推理过程，其中数据主要由服务器和光模块存储、运输，算力支撑则依赖各类芯片。

　　算力需求陡增，业界普遍认为，高性能芯片的短缺是限制国内大模型行业发展的重要因素。

　　但在腾讯看来，用上了先进芯片并不代表就拥有了先进算力，原因在于高性能计算存在“木桶效应”，一旦计算、存储、网络任一环节出现瓶颈，就会导致运算速度严重下降。

　　以算力对网络的要求为例：目前，GPU并行是大模型训练的必备技术，不同于传统并行以加快计算速度为目的，大模型的并行计算往往还要考虑怎样将庞大的参数有机地分布到多张GPU卡中，并保持不同GPU卡之间有效的通信，整体配合完成大模型的训练部署。

　　即使是目前业界已有的GPU分布式训练方案，也严重受制于服务器之间的通信、拓扑、模型并行、流水并行等底层问题。如果只有分布式训练框架，甚至都无法正常启动训练过程。这也是为什么当时GPT-3已经发布一年，却只有少数企业可以复现GPT-3。

　　换句话而言，先进算力的背后，是先进芯片、先进网络、先进存储等一系列的支撑，缺一不可。

　　腾讯新一代HCC集群搭载了英伟达最新代的H800芯片，这是H800在国内首发。不过，腾讯暂未透露采购了多少H800。

　　H800是英伟达新代次处理器，基于Hopper架构，对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生等任务的效率提升显著。

　　网络层面，腾讯自研的星脉网络，为新一代集群带来了3.2T的超高通信带宽。实测结果显示，搭载同样的GPU卡，3.2T星脉网络相较前代网络，能让集群整体算力提升20%，使得超大算力集群仍然能保持优秀的通信开销比和吞吐性能。并提供单集群高达十万卡级别的组网规模，支持更大规模的大模型训练及推理。

　　存储层面，腾讯云自研的文件存储、对象存储架构，具备TB级吞吐能力和千万级IOPS，充分满足大模型训练的大数据量存储要求。

　　在自研芯片方面，腾讯已经量产了用于AI推理加速的紫霄芯片，并已在语音转写、OCR等业务场景使用，用于视频转码的沧海芯片，已经在云游戏、直点播等场景中规模落地。