GPU之后，NPU再成标配，手机、PC如何承载AI大模型？

陈晨 • 2024年3月12日 10:21:11 • 产经

摘要：AI产品开发者需要先行一步，早一些让用户体验自己的产品，和用户建立连接，培养粘性，从而在竞争中占得先机。

　　2024注定是AI行业热闹非凡的一年。虽然刚刚进入3月份，但是关于AI的新闻已经多次占据了头条。就在上个月，OpenAI发布了文字生成视频的大模型Sora，其逼真的效果直接清空了在这个细分赛道苦苦耕耘的创业者。几天后，英伟达市值站上2万亿美元，成为了历史上最快实现从1万亿到2万亿美元市值的企业。正所谓“当你发现金矿，最好的生意不是挖矿而是卖铲子”，英伟达成为了AI时代“军备竞赛”的最大赢家。

　　就在大家感叹“世界上只有两种AI，一种叫OpenAI，一种叫其他AI”的时候，沉寂了许久的Anthropic放出王炸，这家由OpenAI前研究副总裁创立的公司，发布了最新的Claude3模型，各项指标已经全面超越了GPT4。

　　AI行业的风起云涌，也昭示了这个行业还处在一个初级阶段。技术迭代太快，暂时领先的企业可能在一夜之间就被新技术颠覆。一些眼花缭乱的新技术，虽然已经问世，但迟迟不公开或者没有部署。比如上文提到的Sora，截至发文，还没有正式向公众开放。

　　生成式AI的研发和本地部署之间存在鸿沟。目前，大众使用的生成式AI产品往往是部署在云端而在本地访问(比如ChatGPT网页)，但这无法满足所有需求，并且会产生一些隐患。

　　首先，随着大模型越来越复杂，云端和本地之间的传输在有限带宽下变得捉襟见肘，比如一架波音787飞机每秒钟产生5G的数据，如果上传到云端、计算、输出结果再返回，飞机可能已经飞出去几公里了(按照800公里/小时估算)。如果在飞机上使用AI功能但是在云端部署，这样的传输速度是无法满足要求的。

　　此外，一些用户敏感数据、隐私数据，是否一定要上云?显然放在本地比云端更让用户放心。

　　不论生成式AI多么强大，如何部署到本地始终是一个无法绕开的问题。这是行业发展的趋势，虽然目前面临一些困难。

　　困难在于，如何把“大模型”装入“小设备”。注意，这里的“大小”是相对而言的。云端计算的背后可能是一个占地几万平方米的计算中心，而本地部署却要让生成式AI在你的手机上跑起来。手机没有液氮冷却，也没有无穷无尽的电力，该如何部署AI呢?

　　异构计算，一种可能的解决方案?

　　高通的异构计算AI引擎(以下皆称作高通AI引擎)为行业提供了一种可行的解决方案。即通过CPU、GPU、NPU以及高通传感器中枢和内存子系统的协作，实现了AI部署和大幅度提升AI体验的目的。

图：专门的工业设计让不同计算单元更紧凑来源：高通

　　不同类型的处理器所擅长的工作不同，异构计算的原理就是让“专业的人做专业的事”。CPU擅长顺序控制，适用于需要低延时的应用场景，同时，一些较小的传统模型如卷积神经网络模型(CNN)，或一些特定的大语言模型(LLM)，CPU处理起来也能得心应手。而GPU更擅长面向高精度格式的并行处理，比如对画质要求非常高的视频、游戏。

　　CPU和GPU出镜率很高，大众已经相当熟悉，而NPU相对而言更像一种新技术。NPU即神经网络处理器，专门为实现低功耗、加速AI推理而打造。当我们在持续使用AI时，需要以低功耗稳定输出高峰值性能，NPU就可以发挥最大优势。

　　举个例子，当用户在玩一款重负载的游戏，此时GPU会被完全占用，或者用户在浏览多个网页，CPU又被完全占用。此时，NPU作为真正的AI专用引擎就会负担起和AI有关的计算，保证用户的AI体验流畅。

　　总结起来说就是，CPU和GPU是通用处理器，为灵活性而设计，易于编程，本职工作是负责操作系统、游戏和其他应用。NPU则为AI而生，AI是它的本职工作，通过牺牲部分易编程特性而实现了更高的峰值性能和能效，一路为用户的AI体验护航。

　　当我们把 CPU、GPU、NPU 以及高通传感器中枢和内存子系统集成在一起，就是异构计算架构。

图：高通AI引擎包括Hexagon NPU、Adreno GPU、高通Oryon或 Kryo CPU、高通传感器中枢和内存子系统来源：高通

　　高通AI引擎整合了高通 Oryon 或 Kryo CPU、 Adreno GPU 、 Hexagon NPU 以及高通传感器中枢和内存子系统。Hexagon NPU作为其中的核心组件，经过多年的升级迭代，目前已达到业界领先的AI处理水平。以手机平台为例，集成高通 AI 引擎的第三代骁龙 8 支持行业领先的LPDDR5x内存，频率高达4.8GHz，使其能够以非常高速的芯片内存读取速度运行大型语言模型，如百川、Llama 2等，从而实现非常快的token生成速率，为用户带来全新的体验。

图：NPU随着不断变化的AI用例和模型持续演进，实现高性能低功耗来源：高通

　　高通对NPU的研究，并不是近几年才开始的。如果要追溯Hexagon NPU的起源，要回到2007年，也就是生成式AI走入公众视野的15年前。高通发布的首款Hexagon DSP在骁龙平台上亮相，DSP控制和标量架构成为了高通未来多代NPU的基础。

　　8年后，也就是2015年，骁龙820处理器集成了首个高通AI引擎;

　　2018年，高通在骁龙855中为Hexagon NPU增加了张量加速器;

　　2019年，高通在骁龙865上扩展了终端侧AI用例，包括AI成像、AI视频、AI语音等功能;

　　2020年，Hexagon NPU迎来变革型架构更新。标量、向量、张量加速器融合，这为高通未来的NPU架构奠定了基础;

　　2022年，第二代骁龙8中的Hexagon NPU引入了一系列重大技术提升。微切片技术提升了内存效率，功耗降低继续降低并且实现了4.35倍的AI性能提升。

　　2023年10月25日，高通正式发布第三代骁龙8。作为高通技术公司首个专为生成式AI而精心打造的移动平台，其集成的Hexagon NPU是目前高通面向生成式AI最新、也是最好的设计。

　　由于高通为AI开发者和下游厂商提供的是全套解决方案(这部分内容会在第三部分详细叙述)，并非单独提供芯片或者某个软件应用。这意味着在硬件设计上和优化上，高通可以通盘考虑，找出目前AI开发的瓶颈，做有针对性地提升。

　　比如，为何要特别在意内存带宽这个技术点?当我们把视角从芯片上升到AI大模型开发，就会发现内存带宽是大语言模型token生成的瓶颈。第三代骁龙8的NPU架构之所以能帮助加速开发AI大模型，原因之一便在于专门提升了内存带宽的效率。

　　这种效率的提升主要受益于两项技术的应用。

　　第一是微切片推理。通过将神经网络分割成多个独立执行的微切片，消除了高达10余层的内存占用，此举最大化利用了Hexagon NPU中的标量、向量和张量加速器并降低功耗。第二是本地4位整数(INT4)运算。它能将INT4层和神经网络和张量加速吞吐量提高一倍，同时提升了内存带宽效率。

图：第三代骁龙8的Hexagon NPU以低功耗实现更佳的AI性能

　　2月26日，世界移动通信大会(MWC 2024)在巴塞罗那拉开帷幕。基于骁龙X Elite，高通向全世界展示了全球首个在终端侧运行的超过70亿参数的大型多模态语言模型(LMM)。该模型可接收文本和音频输入(如音乐、交通环境音频等)，并基于音频内容生成多轮对话。

　　所以，在集成了Hexagon NPU的移动终端上，会有怎样的AI体验?以及它是如何做到的?高通详细拆解了一个案例。

　　借助移动终端的AI旅行助手，用户可以直接对模型提出规划旅游行程的需求。AI助手可以立刻给到航班行程建议，并且通过语音对话调整输出结果，最后通过Skyscanner插件创建完整航班日程。

　　这种一步到位的体验是如何实现的?

　　第一步，用户的语音通过自动语音识别(ASR)模型Whisper转化成文本。该模型有2.4亿个参数，主要在高通传感器中枢上运行;

　　第二步，利用Llama 2或百川大语言模型基于文本内容生成文本回复，这一模型在Hexagon NPU上运行;

　　第三步，通过在CPU上运行的开源TTS(Text to Speech)模型将文本转化为语音;

　　最后一步，通过调制解调器技术进行网络连接，使用Skyscanner插件完成订票操作。

　　行业井喷前夕，开发者需要抢占先机

　　使用不同的工具测试骁龙和高通平台的AI性能表现，可以发现其得分比同类竞品高出几倍。从鲁大师AIMark V4.3基准测试结果来看，第三代骁龙8的总分相较竞品B高出5.7倍，而相较竞品C高出7.9倍。

　　在安兔兔AITuTu基准测试中，第三代骁龙8的总分比竞品B高出6.3倍。针对MLCommon MLPerf推理的不同子项，包括图像分类、语言理解以及超级分辨率等，也进行了详尽的比较。

　　进一步对比骁龙X Elite与其他X86架构竞品，在ResNet-50、DeeplabV3等测试中，骁龙X Elite表现出明显的领先地位，其基准测试总分分别是X86架构竞品A的3.4倍和竞品B的8.6倍。因此，在PC端，无论是运行Microsoft Copilot，还是进行文档摘要、文档撰写等生成式AI应用，体验都十分流畅。

　　领先的AI性能不全是高通AI引擎的功劳，确切的说，高通对AI厂商的赋能是全方位的。

　　首先是高通AI引擎。它包括Hexagon NPU、Adreno GPU、高通Oryon CPU(PC平台)、高通传感器中枢和内存子系统。专门的工业设计、不同部件之间良好的协同，这款异构计算架构为终端侧产品提供了低功耗、高能效的开发平台。

　　基于先进的硬件，高通又推出了AI软件栈(高通AI Stack)。这款产品的诞生是为了解决AI开发中的顽疾——同一个功能，针对不同平台要多次开发，重复劳动。AI Stack支持目前所有的主流AI框架，OEM厂商和开发者可以在平台上创建、优化和部署AI应用，并且能实现“一次开发，全平台部署”，大大减少了研发人员的重复劳动。

图：高通AI软件栈帮助开发者“一次开发，全平台部署” 来源：高通

　　此外，还有高通在MWC2024上刚刚发布的AI Hub。AI Hub是一个包含了近80个AI模型的模型库，其中既有生成式AI模型，也有传统AI模型，还包括图像识别或面部识别模型，百川、Stable Diffusion、Whisper等模型。开发者可以从AI Hub中选取想要使用的模型生成二进制插件，做到AI 开发的“即插即用”。

　　综合来说，如果纵向看深度，高通在硬件(AI引擎)、软件(AI Stack)和素材库(AI Hub)三个维度全面加速厂商的AI开发进度。横向看覆盖广度，高通的产品已经覆盖了几乎所有的终端侧设备(第三代骁龙8支持手机等终端，X Elite赋能AI PC产品)。

　　AI应用处于井喷前的酝酿期。

　　在教育领域，AI能针对学生的学习能力和进度制定个性化的教学方案;在医学领域， AI可以用来发掘全新的抗生素类型;在养老方面，未来在一些社会老龄化问题比较严重的地区，可以利用AI终端收集老年人家中的所有个人数据，从而帮助预防紧急医疗事故。

　　之所以叫“井喷前”，正是因为还没有大规模部署。另一方面，AI应用，作为最容易让用户产生粘性的产品之一，具有很强的先发优势效应。

　　AI产品开发者需要先行一步，早一些让用户体验自己的产品，和用户建立连接，培养粘性，从而在竞争中占得先机。

　　(文章转载自DeepTech深科技)

原创文章，作者：陈晨，如若转载，请注明出处：https://www.kejixun.com/article/636233.html

陈晨管理团队

0 0

产经

购机更有丰厚好礼三星Galaxy S24+打造无短板均衡旗舰

智能手机不仅仅是通讯工具，更是人们生活、工作和娱乐的重要伙伴。尤其是随着生成式AI技术的引入，智能手机可以完成更多超乎想象的任务。如果你正在考虑换机，在众多参考因素之外，AI特性也…

陈晨
2024年4月24日
0
产经

华为发布乾崑新品牌开启智驾规模商用元年

【中国，北京，2024年4月24日】2024（第十八届）北京国际汽车展览会召开前夕，华为智能汽车解决方案发布会隆重召开，现场发布了智能驾驶为核心的全新智能汽车解决方案品牌——华为乾…

陈晨
2024年4月24日
0
产经

孙中亮：北斗三十周年，看北斗芯片高质量发展历程和方向

1994年1月10日，北斗一号建设正式启动，党中央决策建设独立自主的北斗卫星导航系统。2020年7月31日，北斗三号全球卫星导航系统正式开通，标志着北斗系统进入全球化发展新阶段。随…

陈晨
2024年4月24日
0
五一跨境游正热三星Galaxy Buds开启轻松出游新体验

随着「五一」将近，旅游市场持续升温，得益于更长的假期，跨境出游成为不少消费者的优先选择。但对于国内游客来说，跨境出游仍面临着不少门槛，尤其是语言、文化不同所带来的交流障碍，成为出国…

陈晨
产经 2024年4月24日
0
AI时代新物种三星Galaxy S24系列打造AI手机旗舰模板

伴随着席卷全球的AI技术浪潮，生成式AI成为2024年智能手机的创新重点。年初，三星推出新一代高端旗舰Galaxy S24系列，带来由Galaxy AI赋能的一系列创新应用，AI手…

陈晨
产经 2024年4月24日
0
产经

华为云昇腾AI云服务助力香港打造国际科创中心

当前，大模型推动了新一轮的AI发展浪潮，持续重构各个国家和地区的发展战略及行业应用变革，算力也正成为AI产业发展的核心要素。今年，华为云在香港开始提供昇腾AI云服务，旨在为大模型训…

陈晨
2024年4月24日
0
产经

荣耀AI PC 开启AI高性能静音体验！荣耀MagicBook Pro 16正式推送全新版本

4月24日起，荣耀首款AI PC——荣耀MagicBook Pro 16HUNTER版迎来重磅功能升级：其全新“静音性能”模式开始陆续进行推送，在兼顾性能、续航、便携的基础上，又在…

陈晨
2024年4月24日
0
T1成都粉丝见面会即将举行，来和“真玩家”一起“玩真的”！

王者归位，致竞巅峰，4月28日，韩国T1战队粉丝见面会即将于成都市龙湖滨江天街举行，粉丝招募盛大开启！三星电子作为T1游戏显示设备官方合作伙伴，为电竞发烧友们奉上重磅福利。即刻起，…

陈晨
产经 2024年4月24日
0
产经

华为云昇腾AI云服务落地香港，澎湃算力打造企业出海加速度

近日，华为云在香港提供昇腾AI云服务，这是继贵安、芜湖、乌兰察布之后，昇腾AI云服务的又一重要节点。华为云昇腾AI云服务持续赋能政企、科研、高校、电商、金融、游戏、制造等千行万业智…

陈晨
2024年4月24日
0
产经

抖音发布水军治理公告重点打击售卖账号、好评卡及恶意控评三类行为

4月23日，抖音发布网络水军治理公告，公布2024以来针对违规售卖“高等级账号”、“售卖电子好评卡”、“恶意控评”这三大类水军行为的打击情况。抖音表示，2024年1月以来已下架此类…

陈晨
2024年4月24日
0
华为云黄瑾：以AI驱动五大关键创新，加快软件产业跨越式发展

随着大模型技术的飞速发展，人工智能领域正经历着前所未有的技术突破和应用创新。在中国软件行业迎来40周年庆典之际，全行业正积极拥抱这一AI大模型的浪潮，探索其中蕴藏的无限可能和新机遇…

陈晨
产经 2024年4月24日
0
整合生成式AI优势体验三星Galaxy S24系列开启手机AI新格局

AI已经为很多行业带来改变，借助生成式AI技术强大的学习和创作能力，人们可以更加高效地完成基础工作，用节约下来的时间去进行更有价值的创造。今年年初，三星正式将生成式AI的创新成果引…

陈晨
产经 2024年4月24日
0
产经

浪潮KaiwuDB 再获AIoT行业重要认可，入选“2023物联之星”双榜单

4月23日，中国智联网生态大会暨“2023物联之星”年度榜单颁奖典礼于上海盛大举行。作为国内物联网行业最具影响力的评选活动之一，本届“物联之星”吸引到近500家企业携优秀成绩、创新…

陈晨
2024年4月24日
0
科技一声 “春雷响”，拒绝“冬眠”的技术人才们作对了什么？

“金三银四”的求职黄金季转眼已过了大半，当我们试图给现今的科技互联网行业定调时，发现去年年终岁末口口相传的“行业寒冬”似乎并没那么冷。以文生视频大模型Sora为代表，各种AI新技术…

陈晨
产经 2024年4月24日
0
产经

丹拿新品预告：专为理想L系打造的HiFi无损升级新体验即将亮相2024北京车展

在即将到来的2024北京车展上，丹拿将发布其全新产品——Surpax Li，这款理想L系专属音响升级系统，有望成为理想车主的新选择。丹拿，始于1977年的丹麦，一直是音响领域的头…

若安丶
2024年4月24日
0
产经

中兴巡天BE5100路由器：性能拉满的价格屠夫，开售仅需229元！

随着家里连接WI-FI的设备不断增加,越来越多的数码产品都需要高速、稳定的路由给予支持,路由器的选择就显得格外重要了。中兴的巡天系列路由器就凭借其优秀的产品力和质价比赢得了众多用户…

陈晨
2024年4月24日
0
Check Point 再次革新电子邮件安全防护：获得专利的统一管理功能可帮助提高效率和生产力

带有高级威胁防护功能的创新型单界面电子邮件管理解决方案现已推出 2024 年 4 月，领先的云端 AI 网络安全平台提供商 Check Point 软件技术有限公司（纳…

陈晨
产经 2024年4月24日
0
产经

加速香港智能跃迁，华为云香港峰会在港成功召开

4月23日，华为云香港峰会在港隆重举办，本次峰会以“加速智能跃迁”为主题，汇聚了政府领导、行业专家, 企业领袖、合作伙伴等超过500位代表参加，共同探讨技术创新、深耕行业、繁荣生态…

陈晨
2024年4月24日
0
产经

蛋仔派对积极落实反诈行动，守护玩家充值安全

现阶段，随着网络游戏的蓬勃发展，游戏已成为一种全民化的娱乐形式，移动游戏更是成为移动互联网时代的主流，其普及程度上至老人下至小孩，深度融入民众的日常生活。然而随着游戏的普及越发广泛…

陈晨
2024年4月24日
0
问界新M5惊喜上市，全系标配HUAWEI ADS 2.0，引领行业革新

随着科技的日新月异，汽车行业正步入一个充满创新与变革的新时代。在这个时代里，每一款新车的发布都代表着技术的飞跃和行业的进步。4月23日，问界新M5惊喜上市，无疑为这场变革注入了新的…

陈晨
产经 2024年4月24日
0

发表回复

登录后才能评论

GPU之后，NPU再成标配，手机、PC如何承载AI大模型？

相关推荐

发表回复