英伟达在AI PC领域感受到压力
现如今,英伟达的主要收入依旧来自于个人电脑市场,特别是游戏和专业图形处理领域。
根据英伟达2024财年第三季度的业绩,游戏业务的营收高达285.6亿美元,同比增长超过80%。随着游戏行业不断壮大和虚拟现实技术逐步提升,个人电脑市场的增长空间仍然庞大。
更为关键的是,英伟达拥有丰富的GPU产品线,能在PC市场上长期保持竞争优势。
这些新产品对生成式AI进行了大量优化,为GPU在未来的AIPC领域发力创造了条件。
虽然PC端GPU在AI的帮助下有很大的发展机会,但在AIPC的大趋势中,竞争也比高端GPU更残酷。
自去年底以来,各大市场参与者对端侧AI充满期待,众多市场玩家试图在端侧AI市场占据一席之地。
例如,英特尔在其新一代面向PC的Meteor Lake处理器中纳入了专门的NPU加速单元;
AMD Ryzen处理器设有Ryzen AI品牌以作宣传;
联发科的天玑9300手机芯片内部的AI单元集成了所谓的[生成式AI加速引擎]。
相应地,众多OEM厂商纷纷响应,微软也期望在此领域发挥标准制定者的作用。
现在,英伟达不仅要面对AMD和Intel的竞争,还要应对苹果M系列芯片的挑战。
目前,很多AI大模型开发者开始尝试使用苹果电脑来训练大语言模型。
最新款的Mac Studio顶配版已经可以训练拥有700亿参数的LLaMA2模型。
显然,强调端侧或本地AI推理的原因在于:
一方面,优良技术与热点不应仅由英伟达独占;另一方面,本地AI推理具有云计算无法比拟的优势。
这些优势已广为人知,包括数据安全与隐私、延迟需求以及无法确保实时云连接等。
然而,对于AI而言,诸如ChatGPT、Midjourney等面向大众的云AI相较于本地部署AI模型存在一个巨大劣势,即无法根据个体需求进行定制。
若将视野拓宽至消费市场以外,边缘AI成为必然选择。企业至少需要边缘AI来提升生产力,这也是我们预测今年生成式AI发展模式的方向。
对个人用户而言,无论是开展科学研究还是提高具体生产力,端侧本地AI具有可定制和更灵活的优势。
例如,使用Stable Diffusion等复合式模型满足个性化需求时,云服务或许会受限。
最新AI PC消费级GPU发布
在2024年CES特别活动中,英伟达正式发布了备受玩家期待的RTX40 Super系列产品。
相较于英特尔和AMD的新一代芯片,RTX40 Super系列将在多个方面实现[数量级]的提升。
①GeForce RTX4080 SUPER:支持4K全景光线追踪游戏,在图形密集度较高的游戏中,性能相较于不支持DLSS帧生成技术的RTX3080 Ti提升了1.4倍。
凭借836 AI TOPS,DLSS帧生成技术为用户带来额外性能提升,使得RTX4080 SUPER的性能达到RTX3080 Ti的两倍。
②GeForce RTX4070 Ti SUPER:拥有更多核心,显存容量扩大至16GB,显存位宽为256 bits。相较于RTX3070 Ti,性能提升1.6倍。
③GeForce RTX4070 SUPER:核心数量比RTX4070增加20%,使得其仅需RTX3090一小部分功耗即可实现超越RTX3090的性能。借助DLSS3的性能优势,领先幅度将进一步扩大至1.5倍。
据悉,包括华硕、MSI、联想、惠普、三星等在内的OEM终端厂商将提供基于RTX4080 SUPER的AI PC设备。
英伟达在端侧已提前着手储备
从Turing架构开始,英伟达在GeForce RTX GPU中加入了Tensor Core,这是专为加速AI运算而设计的硬件单元。
在PC端领域,与数据中心显卡相同,均采用Ampere或Ada Lovelace架构,基于英伟达构建的软件栈。
因此,运用GeForce RTX显卡进行AI推理显得顺理成章。
英伟达在AI PC实现方面具备坚实基础,其生态、软件栈布局以及社区创新玩法相对较早。
相较之下,英特尔在今年初才开始推广AI PC概念,实际上已晚于英伟达。
他们计划在未来几年推出的H200、B100和X100 GPU,以及每年更新AI GPU的策略。
因为竞争对手如谷歌、亚马逊、微软、AMD和英特尔的压力,英伟达加快了B100和X100的研发。
为了加速研发,AMD甚至可能取消了他们的MI350X计划。
英伟达的目标可不只是超越英特尔和AMD这些传统对手,他们还想和谷歌、微软、亚马逊、Meta和苹果这些科技巨头并驾齐驱。
他们充分利用了HGX板或服务器所需的众多下游组件,如定时器、DSP、光学器件等。
对于犹豫是否要供应英伟达的供应商,英伟达会采取又哄又压的策略。
一方面,供应商能从英伟达那接到大单;另一方面,他们也可能面临被英伟达从现有供应链中踢出的风险。
结尾:CUDA生态将在AIPC释放更大能量
如今,全球有超过1亿台搭载英伟达RTX GPU的Windows PC和工作站。
作为AI大模型时代核心玩家,英伟达通过全栈生态赋能,让这些[RTX PC]的AI性能实现翻倍增长。
英伟达创始人黄仁勋认为,通过发明CUDA这种新编程工具和GPU处理器,推动加速计算。
英伟达在技术生态,特别是25年CUDA领域耕耘,为其在AI时代占据核心地位奠定基础,这种生态布局在PC产业中释放的能量日益显现。
今年四季度,英伟达发布TensorRT-LLM引擎优化编译器,旨在提升大语言模型AI推理性能。
据官方数据,TensorRT-LLM助力下,Lambda2大语言模型在H200上的推理能力达到H100的2倍,成本降低,且H200在GPT-3模型上的推理性能比H100提升18倍。
TensorRT-LLM for Windows的推出,使AI大模型在端侧RTX PC中应用更佳,满足用户各类AIGC需求,提升AI PC体验。