大模型时代下的技术变革部署效率安全都 - 编程语言应用

TUhjnbcbe - 2024/9/15 16:44:00

北京白癜风能治么 http://www.zherpaint.com/ylbj/jkwh/m/2160.html

随着互联网的快速发展，AI大模型算的上是当前行业里最“炽手可热”的技术，大模型是AI领域的重要发展趋势。大模型需要大量的数据和计算资源，同时也需要强大的应用场景支持，对各行各业都有深远的影响，各厂商开始了“千模大战”。

当前，在AI大模型的研发和应用方面，产业界和学术界在很多方面都有深入的合作和探索。产业界和学术界都有各自的优势——产业界在数据采集、计算资源、应用需求理解等方面有独特的优势，学术界则在理论创新、方法研究、前沿技术探索等方面有显著的优势。

然而，在这个大模型时代，算力资源、数据质量和规模都对模型的性能有着至关重要的影响，包括数据安全也是当前亟需解决的问题。所以，在产业界和学术届深度融合探索下的AI大模型技术都有了哪些进展和变化？在这个过程中，是否释放出了新机遇？这两个问题的答案似乎在英特尔及其伙伴的实践中找到了。

一、大模型的训练与负载：算力与成本之间需要寻找一个平衡

随着人工智能和深度学习的发展，模型训练所需的数据量和处理能力在不断增加。多家研究报告显示，当前大型模型的训练数据量通常都达到了数百万甚至数千万级别。这些大型模型在进行训练时，需要处理的参数量相当庞大，例如GPT-3在训练时使用了28.5万CPU核心，总算力为17.5亿亿次，消耗了大约万美元的GPU算力。大模型对大规模数据和计算资源的需求，对算力相关的硬件和软件都提出了更高要求。

为了提高模型的效果，往往需要采用更复杂的模型结构和训练策略，这也进一步增加了算力需求。同时，由于模型训练需要大量的时间和资源，训练时间也成了制约大模型发展的一个重要因素。对于一般企业而言，拥有如此强大的计算资源并不现实，因此企业都在积极寻找可以迭代优化模型训练和推理的基础设施。

然而算力与成本之间存在着明显的矛盾。首先，大模型训练需要大量的算力资源，而这些资源通常需要花费高昂的成本来获取。其次，数据传输和处理也会产生大量的成本，因为需要将大量数据从存储设备传输到计算设备进行处理。此外，硬件维护和软件开发也需要投入大量的人力物力。因此，在提高大模型训练效果的同时，厂商需要考虑如何平衡算力与成本之间的关系。

从整个模型的生态来看，其对于整个生态的部署要求肯定是“效率越来越高、成本越来越低”越好。英特尔院士、大数据技术全球CTO戴金权对此也表示：“从计算的角度来看，大模型需要很多的预训练，把模型预训练出一些比较好的基数。训练之后如何去用它、部署它，包括推理效率、微调效率，包括大模型其实是嵌入在一个端到端的一个工作流里面去后还能保持工作负载平衡。从这种计算角度来说，除预训练外，还需要做更多计算场景的策略和优化。”

戴金权的观点也显示出了英特尔的技术探索路径。为了保证负载平衡，英特尔提出了Habana?Gaudi?2的解决方案，其专注于深度学习的高性能解决方案，可满足大规模、高复杂性生成式AI和大型语言模型(LLM)训练工作负载的需求。

Gaudi2采用经过验证的高性能深度学习AI训练处理器架构，利用Habana完全可编程的TPC和GEMM引擎，支持面向AI的高级数据类型，如FP8、BF16、FP16、TF32和FP32等，是一款性能更高的计算架构。值得一提的是，TPC是一款VLIWSIMD矢量处理器，其指令集和邮件经过定制，不仅支持深度学习训练和推理工作负载，还可高效处理工作负载。

除了计算能力突出，Gaudi2的内存带宽和容量也十分突出，其采用先进的HBM内存技术，内存容量高达96GB，内存带宽高达2.4TB/s。Gaudi先进的HBM控制器已针对随机访问和线性访问进行了优化，在各种访问模式下均可提供高内存带宽。

Gaudi2的能力其实就是帮助企业通过优化训练流程来降低成本——通过提高训练效率来减少训练时间，同时优化模型结构，减少参数量，从而降低算力和成本。除了这两种方式，企业其实还可以采用更加经济的算法和硬件资源来实现“算力与成本之间的平衡”，例如使用GPU代替CPU进行计算，目前很多硬件厂商也都在此方向上进行发力。

比如英特尔?DataCenterGPUMax系列则是专为应对最严苛的高性能计算(HPC)和AI工作负载而设计。英特尔?XeLink高速、一致的统一架构可灵活运行任何外形规格，实现纵向扩展和横向扩展。其利用“基于独立SRAM技术”的高达MB的L2高速缓存(Rambo)、64MB的L1高速缓存，以及高达GB的高带宽内存，确保高容量和高带宽。同时还利用每个英特尔?Max系列GPU上高达个光线追踪单元，加速了科学可视化和动画过程；利用搭载深度脉动阵列的英特尔?XeMatrixExtensions(XMX)，在单个设备上加速了AI工作负载，并启用矢量和矩阵功能，极好地帮助企业找到了算力与成本之间的平衡。

二、大模型的部署：除了解决多场景，更重要的是提高效率

戴金权对于“未来AI大模型技术创新及发展潜力”有许多值得行业从业者咂摸的观点：“大模型给了我们一个启示，大模型技术的前提不只是计算，而是训练本身，比如三阶段的训练，举个例子——很多大模型“诗写的好”，但是“写代码”不行，然后你就会发现它一般都会再发一个相应的“code大模型”；而“什么都行”的大模型可能写代码就没有“code大模型”写的好。其实本质上它是一个多任务或多目标的学习，所以是不是有办法来提升通用大模型的单项能力，这是一个很有意思的探索方向。但不管算力也好、成本也好、效率也好，怎么样利用是需要大家共同去探索的问题。比如大模型有很多不同的部署的场景，预训练、微调、推理、嵌入到工作流里去等等。如何通过硬件的XPU不同计算平台、软件上的各种技术能力来提高它的部署效率，这是另一个需要各厂商要去探索的问题。”

从戴金权的观点出发，并基于笔者对于行业的观察，我们基本上是可以总结出大模型当前的部署现状的：

模型部署难度较高：随着模型规模的不断扩大，需要消耗的计算资源、存储资源、网络资源等也越来越多，部署难度逐渐增大。

对硬件资源需求大：大模型需要大量的GPU内存来进行计算，需要高性能的服务器来存储和传输数据，对硬件资源的需求非常大。

需要支持并发处理：为了提高模型推理速度和效率，需要支持并发处理，这对服务器的并发处理能力提出了更高的要求。

从部署问题上，英特尔的合作伙伴腾讯云的解决方案就非常值得借鉴，在易用性方面，腾讯云训练集群的开启涉及复杂的系统设计，如HCC集群和分布式计算网络互通，并在实例设计时呈现给AI开发者一键部署功能，实现工程化效率提升；此外在供训练过程中，HCC还具有高稳性能和故障自愈能力。从成本方面，腾讯云通过资源调度（如潮汐算力）实现集群效率最高。例如，在训练过程中，可能不会对加速芯片本身进行调度，而是将数据预处理或DLC业务与逻辑计算单元混部，以提高算力集群利用率。在部署效率方面，AI开发者常遇到驱动版本不一致、兼容性等问题。腾讯云致力于在云原生环境中为大家提供更多一键部署和开发工具链，以缩短开发时间并提高效率。”

当然了，为了解决大模型的部署问题，英特尔确实没有少做努力。比如专为大模型时代发展而生的Gaudi?2在第一代基础上做了许多升级，第二代GaudiAI深度学习夹层卡HL-B专为数据中心实现大规模横向扩展而设计。其AI处理器基于第一代Gaudi的高效架构打造而成，目前采用7纳米制程工艺，在性能、可扩展性和能效方面均实现了飞跃，是一个“名副其实”的用于生成式AI和LLM训练的功能强大且经济高效的深度学习解决方案。

尤其值得说的是，在扩展性方面，Gaudi2处理器具备出色的2.1Tbps网络容量可扩展性，原生集成21个GbpsRoCEv2RDMA端口，可通过直接路由实现Guadi处理器间通信。Gaudi2处理器集成了专用媒体处理器，用于图像和视频解码及预处理。此外，Gaudi2深度学习夹层卡还符合OCPOAM1.1（开放计算平台之开放加速器模块）等多种规范，可以为企业业务带来系统设计的灵活性。

在英特尔On技术创新峰会上，英特尔介绍的一台大型AI超级计算机，便是完全采用了英特尔至强处理器和个英特尔Gaudi2加速器打造的，据说它将跻身全球TOP15超算，目前热门AIGC应用StableDiffusion的开发商StabilityAI已经在全面使用它。同时英特尔首席执行官帕特·基辛格在本次峰会上还向大家透露了Gaudi3的推出进程，“采用5nm制程的Gaudi3将于明年推出，其算力是Gaudi2的两倍，网络带宽、HBM容量是Gaudi2的1.5倍。”这意味着，大模型的部署效率问题可能在明年将实现一个飞跃式发展。

事实上，除了Gaudi2，为了更好地完成大模型的部署，英特尔?至强?可扩展处理器也一直在升级迭代，其无处不在的计算解决方案，配备英特尔?AMX和其他集成式AI加速器，可在数据中心或边缘应用运行实时、中等吞吐量、低延迟的模型及应用。像阿里云通义千问大模型便是内置AI加速器的第四代英特尔至强可扩展处理器用于其生成式AI和大语言模型，英特尔技术大幅缩短了该模型的响应时间，平均加速可达3倍。

基辛格表示，第五代英特尔?至强?可扩展处理器未来将在同样功耗下，将有效提升数据中心的性能和存储速度，相比于第四代，该处理器在AI方面的性能将提升2-3倍。据悉，该处理器将于12月14日发布，非常值得大家密切