当前位置：首页 > 未命名 > 正文

谁能打破大模型与英伟达的“MN组合”

nihdff
未命名
2023-07-21
83

　　作者：彭海斌

　　[ 国际数据公司IDC此前披露的报告显示，2021年的全球人工智能服务器市场上浪潮信息以20.8%的占有率位居全球之首。 ]

　　英特尔的一款人工智能芯片，楔入了英伟达（Nvdia）炙手可热产品的中间地带。

　　国际和国内企业推出的人工智能芯片不少，但英伟达的GPU及其软件生态居于先导地位。在大模型领域同样如此，引领潮流的Chat GPT使用英伟达芯片用于训练和推理，中国本土推出的近百款大模型绝大多数都能和英伟达芯片适配。英特尔最近在中国推出Gaudi2芯片，这款产品强过英伟达的A100，却又弱于英伟达的H100。

　　大模型（Model）和英伟达的芯片，形成一种紧密的耦合，我们姑且称之为“MN组合”。这个组合从性能上看，目前最有效率，也最昂贵。英特尔、AMD、华为等企业奋起直追。芯片竞争者们希望在人工智能赛道占据更有利的地形，大模型企业们则希望有更多元、价格更适宜的选项。它们都希望打破这种组合。

　　美国对先进芯片的出口限制，令国内人工智能的算力短缺加剧。这给国内芯片企业创造了特殊机遇。开发大模型的企业“当前更关注第二选择”，华为昇腾计算业务总裁张迪煊对第一财经表示：“过去更多是我们在找企业，现在很多企业找过来了。”

　　“MN组合”

　　浪潮信息是芯片短缺的最新受害者。

　　据浪潮信息7月11日披露的业绩预告，该公司上半年营业收入出现接近三成的同比下滑，扣除非经常性损益的利润下滑超过八成。

　　浪潮信息是全球最大的AI服务器厂商，连续6年中国AI服务器市场份额第一。国际数据公司IDC此前披露的报告显示，2021年的全球人工智能服务器市场上浪潮信息以20.8%的占有率位居全球之首。从更广泛的服务器市场来看，浪潮信息长期保持全球第二、中国第一的市场份额。

　　浪潮信息行业巨人的形象，在芯片短缺时期变得暗淡。浪潮信息将2023年上半年的业绩暴跌归结于“全球GPU及相关专用芯片供应紧张等因素”。

　　GPU是主要用于图形处理的芯片，它有别于普通消费者手机或者电脑中使用的CPU。现在全球GPU市场的主导者是英伟达，它早期开发这类芯片用于游戏市场，因游戏产品对于图形处理的要求更高。随着人工智能技术的发展，GPU暴力计算的能力在新战场风头无两。英伟达一度是浪潮信息最重要的芯片提供方之一。

　　浪潮信息既是AI服务器的提供方，为其客户提供基础算力，同时它也在开发自己的人工智能大模型，这意味着它自身也需要耗费不少的算力。浪潮信息的AI团队发布的中文语言模型“源1.0”，它的参数量达2457亿，超过GPT-3的1750亿。

　　大模型是人工智能目前最热的研发方向。Open AI开发的大模型Chat GPT发布后成为一个现象级的产品，比尔·盖茨将之视为可以比肩Windows图形界面的革新性技术，而英伟达的创始人黄仁勋则称现在已经到了AI的“iPhone时刻”。

　　Chat GPT是与英伟达紧密相连的。微软在其云计算平台Azure上构建了超级计算集群，并提供给Open AI用于Chat GPT的训练和推理，其中动用了大量英伟达GPU。随着大模型的火爆，美国和中国都聚集了大量科技巨头跟进，其中包括了国内的华为、百度、阿里以及腾讯等，还有美国的谷歌、Meta等。

　　英伟达芯片占据先发优势，成为国内国外大模型项目的首选方案。

　　大模型遍地开花，推升算力需求，加之美国对高性能芯片出口中国的限制，令有需求的国内企业加大了囤积力度。这样的背景下，英伟达的GPU一卡难求。算力的饥渴蔓延到了每一个角落。

　　“肯定都是英伟达”，在谈到人工智能相关企业囤积的AI芯片种类时，某人工智能公司技术负责人对第一财经记者这样表示。

　　该公司从去年至今，囤了几百张英伟达的A800板卡，主要帮助企业在通用大模型的基础上，构建满足垂直场景需求的领域大模型。

　　英特尔和AMD等企业也有AI芯片，不过与英伟达的产品相比还有差距。考虑到大模型动辄百亿级的参数量，芯片性能影响到大模型的训练和推理速度。“其实都能用，不过看企业能接受的训练时长是多少。比如用慢点的卡可能需要一个月的训练时间，那么快点的卡可能只需要一两天。这是训练速度的问题。”该负责人表示。

　　在日进千里的技术浪潮里，很少企业愿意等待。如果仅仅从效率维度来看，大模型与英伟达的“MN组合”还是被企业视作当下最优解。

　　第二选择

　　英特尔用一款人工智能芯片，楔入了英伟达的产品组合中间地带。

　　“在AI推理工作负载中，与英伟达A100相比，至强的推理性能可超5倍；与AMD的64核EPYC CPU相比，至强的推理性能可超2倍。就AMD EPYC而言，英特尔可以更少的内核，提供更高的AI性能。”英特尔公司执行副总裁Sandra Rivera表示，“在AI训练工作负载中，与英伟达A100相比，至强拥有近3倍的性能提升。”

　　英特尔最近在中国推出了其Gaudi2产品，它搭配至强可扩展处理器，为大语言模型提供算力解决方案。

　　相对英伟达的A100芯片，英特尔Gaudi2性能更强；相对英伟达的H100芯片，英特尔的Gaudi2则性能偏弱。

　　“对于包含整个GPT-3语料库的代表性切片的GPT-3训练评估，Gaudi2在384个加速器上训练GPT-3的时间为311分钟，英伟达在512个H100 GPU上的训练时间则为64分钟。这意味着，基于GPT-3模型，每个H100的性能领先于Gaudi2 3.6倍。”英特尔Habana Labs首席运营官Eitan Medina表示。

　　英特尔靠性价比拉近与英伟达的距离。

　　人工智能算力越来越贵，企业采购芯片的时候不得不考虑成本问题。“性价比是影响H100和Gaudi2相对价值的一个重要考量因素。Gaudi2服务器的成本要比H100低得多。Gaudi2的价格优势大大缩小了与H100的性价比差距。“Eitan Medina说。

　　能耗也是英伟达、英特尔等芯片公司比拼的焦点。

　　大模型的训练周期，少则半个月，多则三个月。在一个完整的训练周期，系统运行所耗费的电费账单是“特别让人感到惊叹的一个数字”。

　　近年大规模的兴建数据中心，更是对能耗的严峻挑战。据江森自控中国区总经理杨光观察，三年前数据中心的构建者主要还是BAT以及万国数据等公司，最近几年的趋势则是“国家队进场”，尤其是移动、电信数据中心的“大量的进场”。加之一些关键的行业，金融、电网等开始建自己的数据中心。“对算力的要求特别大、能耗特别大”，杨光对第一财经记者表示。

　　对于浪潮信息来说，它现在能找到的，对英伟达芯片的最好替代者可能就是英特尔了。

　　在最近的半年，浪潮信息在协助它的AI客户规划、设计、交付、服务AI算力的集群。“在这个过程当中，既作为大模型的开发团队，又作为大模型算力方案的支撑团队，我们深刻体会到了在大模型这场AI技术的创新当中，客户的痛点和需求。”浪潮信息AI&HPC产品线总经理刘军说。英特尔的Gaudi2在国内会首先用于浪潮信息的服务器。英特尔也长期为百度提供芯片，其Gaudi2也可能用于百度大模型项目。

　　百度自身也参与了人工智能芯片的研发，2016年其昆仑芯业务团队独立，并拿到了IDG、君联等机构的投资。百度方面此前透露昆仑芯2代已经量产，百度执行副总裁沈抖则在去年表示，昆仑芯3代将于2024年初量产。但昆仑芯方面未对今年的最新进展予以回应。

　　昇腾芯片也是国内企业的一个备选方案。

　　昇腾是国内唯一一个完成千卡千亿参数训练并商用的系统。昇腾AI在2019年发布了Atlas900集群，在2020年向深圳鹏城实验室交付了4000张卡组成的集群，在今年6月份又把集群的规模提高到了8000张卡。“我们也在努力到年底达到16000张卡。目的是什么？就是让大模型训练越来越快。”张迪煊对第一财经表示。

　　一个1750亿参数的大模型，按照昇腾千卡集群，训练阶段需要两三个月的时间；如果部署到16000张卡的大集群，同样的大模型训练时间可以缩短到半天。张迪煊表示：“这样就像写代码一样，我敲一个键盘，这些文件出来了。这是我们想要的效果，这样能快速推进人工智能发展。”

　　科大讯飞此前发布了星火大模型，该公司也在使用昇腾910芯片构建算力基础。“昇腾搭建基础的算力平台，讯飞在这个基础平台上，把大模型的算法从训练端到推理端的性能优化好。这样大家形成一个联合的创新体。”科大讯飞总裁吴晓如对记者解释说。谈到国外芯片供应，吴晓如表示：“问题是现在不可控，你也搞不清他哪天不给你用。”

　　“我跟很多企业沟通中发现，他们首先会关注成本，希望有新的替代能降成本。第二，当前企业更多关注‘第二选择’。”张迪煊对第一财经表示，“现在国内对人工智能算力需求非常旺盛。国内算力的供需比是不足的，可能大厂拿到算力，有些小厂拿不到算力。这一波（大模型）来了以后给昇腾很大的机会。过去更多是我们在找企业，现在是很多企业找过来了。”

　　用进废退

　　大模型也在分层。

　　部分走在最前沿的、有丰沛资本加持的公司开发参数动辄千亿级别的通用大模型，这是一条“大算力、大数据、大模型”的路径。中间层的企业，将会在通用大模型基础上构建起面向垂直行业的大模型；此外还会有面向具体应用场景的大模型产品，帮助企业构建起交互体系。跬智信息的联合创始人兼CEO韩卿认为，现在大模型是“大力出奇迹”，相比算法，大算力和大数据更加重要。跬智信息是在大模型的基础上，帮助企业打造专属的指标体系，建立私有化的指标知识库，它的客户集中于金融、制造业、医疗等领域。

　　对于一些敏感型的国内产业比如金融，数据的保护极其重要。“MN组合”并不是稳妥的选择，因为海外的大模型如Chat GPT相较国内大模型更难获得信任，而英伟达高端芯片因美国限令而缺乏稳定供应能力。“今天Open AI（的Chat GPT模型）没有办法给到我们大金融客户。”韩卿接受第一财经记者采访时表示。但与此同时，相对已经获得广泛认可的Chat GPT来说，“国产化的模型成熟度对我们来说是一个挑战。”

　　当下的算力短缺，可能演变成长期的难题。

　　“现在大模型，商业变现会越来越近，（算力）需求会快速增长。我们预测，2030年AI的算力相对2020年增长500倍，通用算力2030年相比2020年增长10倍。为什么？因为数据结构发生变化，现在都是大量的非结构数据，都是图片、视频、语音，CPU处理能力很弱的数据。”张迪煊接受第一财经在内媒体采访时表示。

　　英特尔高管也观察到算力需求的迅猛增长，该公司在一季度的时候表示，各类人工智能技术带来的芯片需求，比上年同期“至少翻了两倍”。

　　总的来说，在中国市场上，大模型的技术成熟度，算力的供给能力，都还有相当大的改进空间。“中国的现状是一流的应用、二流的模型、三流的算力。”在跬智信息用户大会上，中金公司研究部计算机行业首席分析师于钟海这样评价。

　　“大家都知道，现在国内人工智能的产品需求是非常大的，产品是完全不够的，在这种情况下不用特别设什么份额的目标，反正就是把最好的产品带出来，满足市场的需求。”英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立表示。

　　在算力短缺的市场里，大模型企业更有动力迁移到昇腾或者英特尔的算力体系上。一家企业将其大模型从一套底层算力体系切换到另外一套的时候，既需要付出时间和精力，更需要研发成本。如果算力既没有短缺，更没有断供之虞，企业则完全没有动力做切换。现在的情况正好相反。

　　“我觉得一方面给我们带来机会，第二方面确实加快我们的发展速度和成熟速度。所有产品只有被使用之后才能证明好与不好，所有产品只有使用以后才能把问题暴露出来，才能打磨得更好。”张迪煊表示。

英伟达英特尔 Gaudi2

[免责声明]本文来源于网络，不代表本站立场，如转载内容涉及版权等问题，请联系邮箱:83115484@qq.com，我们会予以删除相关文章，保证您的权利。转载请注明出处：http://www.ukzlpcl.cn/post/12664.html

上一篇
上半年广义财政支出同比下降3.6% 下一步财政发力并无悬念

下一篇
西安成立调查组核查回流生报名资格