🎣
🥪

gVnWAO0Qgpr">

    • 🌂
      🌳🏖
      📻
      😓
    • 🙊
    • 👄💸
      😕
      🕓
      🤶🐜
      🍶
    • 🥓

      电子行业专题报告:AI大模型需要什么样的硬件?

      发布时间:2024-08-16 00:24  浏览量:46

      (报告出品方:华泰证券)

      大模型应用#1:从 Chatbot 到 AI Agent,个人助理重塑手机应用生态

      AI 大模型的能力进步推动 Chatbot 在 C 端广泛“出圈”。Chatbot(聊天机器人)通过自动 化方式来处理和回复用户输入,可以模拟人类对话,通过文字或语音与用户进行实时交互。 2010 年代,随着 NLP 等技术的发展,Chatbot 已经在客服、营销、企业信息服务等领域得 到了广泛应用。然而,由于语言理解及生成能力有限,因此 Chatbot 的落地范围局限在 B 端特定服务型场景,并未诞生具有广泛影响力的 C 端产品。2022 年 12 月,ChatGPT 在文 本生成、代码生成与修改、多轮对话等领域展现了大幅超越过去 AI 问答系统的能力,标志 着 Chatbot 行业进入 AI 大模型时代。此后,Chatbot 作为 C 端用户体验大模型门槛最低的 产品,成为大模型厂商的“标配”,谷歌 Bard、百度文心一言、阿里通义千问等产品在 2023 年纷纷推出。

      在文字对话功能之外,Chatbot 功能随着 AI 大模型能力的发展而迅速丰富。过去一年,我 们看到,各大模型厂商的 Chatbot 产品普遍新增了图像理解、文生图功能,并且新增应用 插件商店以拓展 Chatbot 功能。以 ChatGPT 为例,2023 年 9 月,OpenAI 将 DALL-E 3 整 合到ChatGPT中,从而支持文生图功能。2024年1月,OpenAI正式上线应用商店GPT Store, 当时用户已经创建超过 300 万个 GPTs,主要的 GPTs 涵盖图像生成、写作、科研、编程/ 软件开发、教育、生产力工具和生活七大类别。GPT Store 取代了此前的插件商店(2024 年 3 月关闭),用户不仅可以在平台上分享自己创建的 GPTs,还可以从其他人那里获取各 种 GPTs,形成丰富的 GPTs 生态系统。GPT Store 定制版本可以针对特定任务或行业进行 优化,允许用户与外部数据(如数据库和电子邮件)进行简洁的交互。2024 年 5 月,随着 OpenAI 更新 GPT-4o 模型,ChatGPT 能够识别用户语音的感情,并输出语音,实现如同 与真人对话一般的沉浸式体验。

      Chatbot 逐渐向 AI Agent 演进。AI Agent 是指大模型赋能的,具备规划、记忆、工具、行 动能力的智能体。我们认为 Chatbot 的演进方向是智能化和自动化程度逐渐提升,需要人 类参与的程度逐渐下降,逐渐过渡到人与 AI 协作的 Copilot,最终形态是 AI Agent,Agent 只需要人类的起始指令和结果的反馈,具有自主记忆、推理、规划和执行的全自动能力, 执行任务的过程中并不需要人的介入。 从 Chatbot 向 AI Agent 的演进过程中,手机应用生态或将发生改变。我们认为手机或是 向 AI Agent 演进率先落地的硬件载体,发挥 AI 个人助理的作用。AI 个人助理可以记住生活 和工作中的各种信息,如下周的晚餐计划或工作会议的内容,并自动整理和索引这些信息; 可以帮助用户完成例如安排约会、预订旅行、点餐、播放音乐、回答问题等各种任务。落 地过程中,手机应用生态或将从目前以应用商店+APP 的模式转变为 Agent Store+Agent 的模式,手机厂商可能都会发布自己的 Agent Store。

      AI 手机:AI 大模型驱动软硬件升级

      手机是人们日常生活较高的交互终端,具有普及率高、使用频率高的特点,考虑终端算力、 存力以及客户应用需求等因素,手机已经成为 AI 大模型在 C 端落地的重要设备。去年底至 今,随着三星 Galaxy S24、Google Pixel 8 等重要产品上市,以及苹果 WWDC推出Apple Intelligence,手机 AI 的功能逐渐清晰。目前语音助手、修图、写作助手等功能成为主流。 以三星今年 1 月发布的 Galaxy S24 为例,该机型搭载自研大模型 Samsung Gauss,具备 实时翻译/圈选搜图/生成式编辑/笔记助手等功能。软件方面,基于 OneUI 6.1 系统,强化虚 拟助手 Bixby,为用户提供丰富多样的应用服务。据 Techweb,Google 有望在 10 月推出 Pixel9 系列,预计将搭载基于最新 Gemini 模型的 AI 助手,执行复杂的多模态任务。芯片 方面,下半年将发布的骁龙 8Gen4 较上一代产品有望进一步支持 AI 应用。

      2024 年 6 月举行的苹果 WWDC 2024 大会推出全新个人化智能系统 Apple Intelligence, 由苹果端侧大模型、云端大模型、ChatGPT 共同组成,算力足够下依赖终端,复杂场景则 使用私密云计算或 ChatGPT,能够 1)增强 Siri 理解能力,配备多轮对话、总结信息、屏 幕内容感知、应用智能交互等能力,2)提供邮件智能回复、通知整理,备忘录和通话录音 /撰写/摘要等功能,3)支持图像生成/智能修图等功能,4)ChatGPT4o 将融入 siri 和 writing tools,作为云端备选模型。我们看到 Apple Intelligence 核心能力包括文生文、文生图、跨 App 交互与个人情境理解,并需要以 OpenAI ChatGPT4o 作为云端备选模型,配备上了目 前已有的大部分 AI 功能。苹果通过 Siri,把 AI 当作手机不同 App 之间联系的工具,而不是 像此前三星和谷歌的 AI 应用更侧重于让 AI 去完成单一特定任务。苹果让 Siri 在未来成为应 用分发入口和流量入口,以超过 13 亿台用户基数生态去提供好的产品解决方案。

      IDC 认为,新一代 AI智能手机需拥有至少 30 TOPS性能的 NPU,能够在手机上运行 LLMs, 符合标准的 SoC 包括 Apple A17 Pro、MediaTek Dimensity 9300、Qualcomm Snapdragon 8 Gen 3 等。此类手机在 2023 年下半年开始进入市场。 硬件方面,我们看到:1)SoC:AI 引擎升级、NPU 算力提升,SoC 进一步升级确定性强; 2)存储:手机 RAM 升级至 24GB LPDDR5X,相较当前主流的 8GB LPDDR4X,成本提 升 300%;3)电源:电池/电源管理芯片升级,但弹性相对较小;4)光学:AI 推动屏下摄 像头应用取得突破。软件方面,新一代 AI 智能手机在系统架构和应用方面更加匹配个性化、 场景化服务需求。 软件方面,与功能机和前代智能机相比,新一代 AI 智能手机更加注重场景化服务能力。前 代智能机在功能机的基础上增加了手机 OS 和内嵌语音助手,并针对用户不同需求推出独 立 APP 进行响应。新一代 AI 手机在大模型和原生化服务组件库的基础上,提供用户可定 义的智能体开发平台和专属智能体,实现 AI 文本/AI 图像/Al 语音/Al 视频等功能,满足用户 健康管理/生活服务/角色扮演/高效办公/游戏助手等场景化需求。

      据 IDC,全球 AI 手机 2024 年出货量有望同比增长 233%至 1.7 亿台。中国 AI 手机所占份 额自 2024 年以后会迅速增长,预计 2024 年中国市场 AI 手机出货量为 0.4 亿台,2027 年 将达到 1.5 亿台,且 AI 手机渗透率有望在 2027 年超过 50%。我们认为,AI 手机以其智能 化、个性化的特点,有望吸引更多用户进行换机升级,从而引领新一轮的换机潮。

      根据 2024 年 4 月 7 日发布的《4 月手机观察:华为份额继续提升,关注 P70 等新机发布》, 根据 IDC 数字,苹果 2023 年销量 2.34 亿台,华泰预测苹果 2024 年销量下降 8.2%到 2.15 亿台。根据 BankMyCell 数字,2024 年苹果手机活跃用户 14.6 亿人,对应目前换机周期 6.23 年,如果 Apple Intelligence 能够缩短换机周期 3 个月,可以带动约 1000 万台新机销 售。利好苹果产业链公司业绩增长(立讯、鹏鼎、环旭、水晶光电、蓝思、东山精密、比 电、鸿腾、瑞声、长电等)。

      AR/VR:AI 大模型交互能力,看好智能眼镜等轻量级 AR 发展机遇

      AI 大模型有望提升 AR/VR 交互能力,加速其进入主流市场。据 IDC,2023 年,AR/VR 产 品全球出货量 675 万台,同比-23%。随着苹果 VisionPro 发布,AR/VR/MR 出货量在 2024 年有望温和复苏。AI 大模型的出现驱动语音助手、物体识别和生活助理等功能赋能 AR/VR 设备,提升了用户与虚拟环境的互动质量,据 VR 陀螺(2024/6/5),Meta 雷朋智能眼镜出 货量已超百万副,AI 大模型的出现有望加速 AR/VR技术进入主流市场的步伐。 语音助手、物体识别、生活助理等 AI 功能已在 AR/VR 产品中广泛出现。语音助手功能让 AR 眼镜能够通过上下文语义理解与用户进行更自然的交流,如李未可 Meta Lens S3 通过 大型语言模型 AI 系统提供闲聊和建议。物体识别技术使 AR 眼镜能够识别现实世界中的物 体,例如 Meta 雷朋智能眼镜引入建筑识别和菜单翻译功能。此外,生活助理功能与用户的 社交生活深度绑定,提供聊天回复、邮件整理、购物建议等个性化服务。这些 AI 功能的融 合不仅提升了用户体验,还预示着 AR/VR 产品将更加智能化,为用户提供更便捷和个性化 的服务。随着技术的不断进步,预计未来 AR/VR 设备将实现更复杂的多模态 AI 应用,进 一步增强其作为下一代计算平台的潜力。

      大模型应用#2:生产力工具的 AI 化有望推动新一轮 PC 换机周期

      生产力工具、沟通工具及协作工具经历了 PC 时代、移动互联网时代的演进,正在进入 AI 时代。微软、谷歌与金山办公等公司以 AI 大模型对原有的生产力工具应用进行升级,通常 提供文档理解、文字生成、图片生成、数据分析与处理等等功能,提升用户生产力。

      办公:微软、谷歌引领产品矩阵全面 AI 化

      微软是全球生产力工具的领导企业,围绕企业业务与管理流程,已经形成了布局完整的产 品矩阵,目前正主导生产力工具的 AI 化。微软的产品矩阵覆盖企业办公、客户关系管理、 资源管理、员工管理、低代码开发等业务环节,微软已经围绕这些业务环节,推出相应的 Copilot 产品,对原有产品进行 AI 大模型赋能。从 Copilot 时点来看,微软首先在主力产品 Office 套件上线 Copilot,然后逐步在企业业务与管理流程的 Dynamics 套件、开发相关的 Power Platform 条件、员工管理的 Viva 套件上线 Copilot。我们认为 Copilot 正以“通用助 手”为切入点,重塑微软生产力工具矩阵,向数据协同、功能联动的方向发展。目前办 公场景 Office、企业业务流程场景 Dynamics 下的 Copilot 已明确单品收费标准。微软的 Copilot 产品分为和家庭两大场景。 工作场景方面:1)面向企业办公场景推出 Copilot for Microsoft 365,根据微软 FY3Q24(对 应日历季度 1Q24)业绩会,近 60%的财富 100 强企业正在使用。2)面向企业流程中的财 务、销售和客服场景,分别推出 Copilot for Finance/Sales/Service;3)面向云运营和管理 场景,推出 Copilot for Azure;4)面向 IT 安全场景,推出 Copilot for Security;5)此外, 微软推出 Copilot Studio 支持用户自定义 Copilot,根据 1Q24 业绩会,已有 3 万名用户使 用。 家庭应用方面:1)面向 C 端用户办公场景推出 Copilot Pro;2)面向 Win 11 和部分 Win 10 推出 Copilot for Windows,支持通过任务栏上或键盘上的 Copilot 按钮进行快速访问;3) 在 Bing 搜索、Edge 浏览器推出 Copilot。

      谷歌将 Gemini 大模型内置在其 2B 云端办公套件 Workspace 中。谷歌将 Gemini for Workspace 的功能定义为:1)写作,例如生成项目计划、提案、简报等、以及优化文本; 2)整理,例如通过简单描述创建项目跟踪表格;3)创建图像;4)联系,例如在视频通话 中创建自定义背景,提高声音和视频质量;5)无代码创建应用。 金山办公 WPS 已陆续在主要产品上线 WPS AI 服务。WPS AI 已经覆盖文字、演示、PDF、 表格、智能文档、智能表格、智能表单等产品,涵盖了金山办公的主要产品。此外,金山 办公发布了 WPS AI 企业版,推出 AI Hub(智能基座)、AI Docs(智能文档库)、Copilot Pro (企业智慧助理)三大功能。

      编程:AI 协助编程开发,提高开发效率与质量

      AI 编程工具在功能上具有高度相似性,主要包括自动代码生成、代码分析与错误检测、实时编程建议。AI 工具的应用极大地提高了开发效率,自动完成编写样板代码、设置环境和 调试等重复性任务,使得开发者能腾出时间进行创造性开发;实时语法与错误检查功能有 助于提升代码质量,减少代码调试时间,加快开发过程。根据微软官网调查数据,使用 AI 工具辅助编程后,74%的开发人员反映能够专注于更令人满意的工作,88%的使用者感觉 工作效率更高,96%的开发人员在处理重复性任务时速度更快。

      GitHub Copilot 是 AI 编程领域最具代表性的 AI 工具,由 OpenAI 与 Microsoft 合作开发。 Copilot 具备强大的网络搜索和推理决策能力,能回答开发过程中的问题。比如通过自然语 言描述需求,Copilot 可以自动生成代码,并提供部署建议。据微软 FY3Q24(对应日历季 度 1Q24)业绩会,GitHub Copilot 付费用户数已达到 180 万,环比增速 35%以上,收入同 比增长超过 45%。2024 年 5 月微软 Build 大会进一步升级 GitHub Copilot,包括 1)更新 Extensions,提升开发者的效率。开发者在编写代码之外花费了 75%的时间用于追踪工作 流和撰写文档。Extensions 将所有流程整合在一起,可从 Neovim、JetBrains IDE、Visual Studio 和 Visual Studio Code 等多种编辑器实时工作,减少上下文切换,开发者只需专注 于核心代码。2)推出 Copilot Workspace,提高团队使用 GitHub 管理项目的效率,提供清 晰的代码变动可视化界面,增强项目掌控感。3)推出 Copilot connectors,便于开发者用 第三方数据和应用定制 Copilot,提升开发效率。例如,开发者可以用西班牙语语音要求 Copilot 用 Java 编写代码,或询问 Azure 资源的可用性。

      PC:AI PC 24 年下半年渗透率有望持续提升

      AI PC = 边缘算力+内置大模型。 目前 AI PC 定义众多,芯片厂商、PC 品牌厂商、第三方 机构均各自有自己的定义。我们认为广义来说,处理器具有 NPU 提供的边缘算力能力,以 及具有内置大模型,就可以称之为一款 AI PC。以联想 4/18 推出的 AI PC 系列产品看,目 前 AI PC 主流功能可以分为 8 类,PPT 智能创作、文生图、文档总结、智能问答、AI 识图、 会议纪要、智会分身、设备调优,我们认为这是公司在 AI PC 的初期尝试,预计 24 年底全 新一代 AI PC 随着处理器升级而推出后,全球 AI PC 渗透率有望更快提升。 IDC 预计全球 PC 出货总量稳定增长,AI PC 渗透率持续提升,2027 年或达 60%。根据 IDC 数据,2023 年全球 PC 出货量约 2.5 亿台,AI-capable PC 出货量 0.25 亿台,市占率约为 10%;2024 年全球 PC 出货量 2.75 亿台,AI-capable PC 市占率约 19%;预计到 2027 年, 全球 PC 出货量为 2.93 亿台,届时 AI-capable PC 市占率有望达到 60%。

      AI PC 下 NPU 与独立 GPU 方案或将长期共存。AI 应用落地将对 PC 算力提出更高要求, 高通、英特尔、AMD 等芯片厂商纷纷展开布局,陆续推出针对 AI PC 场景优化的芯片产品。 在 PC 侧,使用独立 GPU 运行 AI 运载,具备高性能、高吞吐量等优势,但功耗高;NPU 方案更具高能效、低功耗等特点,但对高性能要求 AI 负载支持能力有限。考虑 AI 任务需求 以及用户偏好不同,我们认为 AI PC 市场使用 1)CPU+NPU+GPU 处理器(英特尔 Meteor Lake/AMD 8040 等);2)CPU+独立 GPU;3)CPU+NPU+GPU 处理器+独立 GPU 等组 合作为处理 AI 负载主力的算力架构方案或将长期共存。2022 年,据 IDC 数据,ARM 架构 CPU 在 PC 市场的市占率约 11%,主要布局厂商为苹果。2023 年 10 月,高通推出的基于 ARM 架构 X Elite 芯片具备突出的 AI 性能表现,符合 AI PC 发展趋势,有望带来 ARM CPU 在 PC 市场取得进一步突破。2024 年 6 月举行的 COMPUTEX 2024 上,ARM CEO Rene Haas 表示称,Arm 预计将在五年内拿下 Windows PC 市场 50%以上的份额。

      AI PC 推动存储规格升级,DRAM 最低 16GB、LPDDR 占比或逐渐提高。1)阿里通义千 问7B模型的原始大小是14.4GB,在联想的Lenovo AI now中运行的模型则压缩到了4GB。 由此,AI大模型+电脑本身的缓存,大概只要5-6G内存能运行起来,而OS本身需占用5-6GB, 故未来运存最低也需要 16GB 才能保证 PC 稳定运行。2)根据 Trendforce,Qualcomm Snapdragon X Elite、AMD Strix Point 及英特尔 Lunar Lake,三款 CPU 的均采用 LPDDR5x, 而非现在主流的 DDR SO-DIMM 模组,主要考量在于传输速度的提升;DDR5 目前速度为 4800-5600Mbps,而 LPDDR5x 则落于 7500-8533Mbps,对于需要接受更多语言指令,及 缩短反应速度的 AI PC 将有所帮助。今年 LPDDR 占 PC DRAM 需求约 30~35%,未来将 受到 AI PC 的 CPU 厂商的规格支援,从而拉高 LPDDR 导入比重再提升。 硬件级的安全芯片确保隐私安全。根据联想和 IDC 联合发布的《AI PC 产业(中国)白皮书》, AI PC 需要设备级的个人数据和隐私安全保护,除了个性化本地知识库提供本地化的个人数 据安全域以及本地闭环完成隐私问题的推理之外,还可能引入硬件级的安全芯片在硬件层 面确保只有经过授权的程序和操作才能读取、处理隐私数据。此外联想等厂商也同样在自 研 AI 芯片(如联想拯救者 Y7000P、Y9000P、Y9000X、Y9000K 四款新品笔记本搭载的 搭联想自研 AI 芯片——LA 系列芯片),实现智能的整机功耗分配。

      大模型应用#3:AI 大模型推动具身智能技术加速迭代

      具身智能(Embodied AI)属于人工智能领域的分支,典型应用为自动驾驶和机器人。具 身智能是泛指具有物理身体可以与外界环境进行自主交互的 AI 智能载体。类似于人的自主 性,即通过五官(感知)、大脑(规划决策)、小脑(运动控制)完成一系列的行为,具身 智能的行动一般也基于:(1)感知并理解与物理世界交互获得的信息、(2)实现自主推理 决策、(3)采取相应行动进行交互。目前典型的具有较大落地场景的具身智能应用包括自 动驾驶和机器人,最具代表性产品如特斯拉的 FSD 自动驾驶系统和 Optimus 人形机器人等。 过去一年,AI 大模型助力具身智能的感知、决策等技术进展。如上所述,具身智能算法一 般可以按环节拆解为感知模型(感知识别环境信息并预测环境变化)、规划/决策模型(根据 感知结果做出任务决策)、控制/执行模型(将决策转换指令转换为行动方式)。我们以行业 领军企业特斯拉的发展为例子,观测过去一年 AI 大模型的运用对具身智能技术带来的促进:

      自动驾驶:受益于 AI 大模型发展,感知和决策层快速迭代。(1)感知层:过去传统的自动 驾驶感知技术主要系“2D 直视图+CNN”,核心是识别周遭的障碍物是什么及其大小和速 度,效率和精度低。特斯拉 2022 年 10 月公布的 Occupancy Network 大模型(基于 BEV+Transformer 的延申),通过计算物体的空间体积占用来构建具有空间、时序的 4D“实 时地图”,获得更加连续、稳定的感知结果。有利于解决障碍物无法识别从而消失问题;同 时地图以自车为中心坐标系构建,更好的统一了感知和预测的框架。(2)决策层:过去的 决策算法基于一条条事先设定的 rule-based 的规则,在不同场景下触发行为准则,因此难 以解决长尾瓶颈问题。特斯拉决策算法采用交互搜索模型,机器可以自主预测周围环境个 体的交互轨迹,并对每一种交互带来的风险进行评估,最终分步决定采取何种策略,让车 辆实现更快、更灵活、更拟人的决策行为。(3)控制层:由于汽车的自由度较低,自动驾 驶的控制算法主要依据决策模型输出指令,控制线控底盘等部件进行转向、刹车,从而操 控汽车驾驶。目前特斯拉 FSD V12 全面转向端到端架构(一个大模型实现从感知到控制), 开始推进商业落地,代码仅 2000 多行,全面摒弃 V11 版本超过 30 万行由工程师编写 C++ 代码。

      人形机器人:技术难度远高于自动驾驶,运动控制算法或是关键之一。(1)感知层:人形 机器人的外部感知(获取外部环境信息)主要包括视/听/触觉,内部感知(获取自身状 态信息)主要是对身体的状态和姿态控制。特斯拉 FSD 的视觉感知 Occupancy Network, 可以复用在机器人上,有利于加速机器人多模态感知的发展。(2)决策层: LLM/ VLM/ VLA 等通用大模型的不断发展和扩大运用,有望帮助提升机器人的语义和视觉理解能力、问题 和任务拆解和推理能力。(3)控制层:机器人,特别是人形机器人的自由度较高,让灵巧 手/机械臂完成一系列复杂的任务以及控制直立行走/跑跳等动作需要具备较强的逻辑推理 能力,然而大部分运控算法仍处于发展初期,指令生成速度慢且简单,这也是机器人发展 亟待突破的关键之一。我们看到特斯拉的人形机器人在 2022 年 10 月时只能实现缓慢行走 与挥手,2023 年 12 月已经可以流畅的行走与抓取鸡蛋等物品,显示出运控能力的迭代加 快。

      英伟达构建三大计算机平台推动具身智能发展。英伟达创始人兼首席执行官黄仁勋在 2024 年 GTC 大会上表示,“机器人时代已经加快到来,所有移动的东西有朝一日都会是自主的, 我们正在努力推进英伟达机器人相关产品,加速实现生成式实体人工智能”。英伟达同时升 级了 Issac 机器人平台,从训练、仿真、推理三方面赋能机器人行业发展。在自动驾驶方面, 英伟达同样也推出了 Drive 平台。 1) 训练平台:用于训练机器人的基础模型。包含英伟达推出的“Project GR00T”人形机 器人通用模型、以及其他主流的 VLM/LLM 等生成式 AI 通用基础模型,可以在此基础 上进行感知、决策、规控等方面训练和强化学习。 2) 仿真平台:在 Omniverse 基础上打造了机器人仿真平台 Isaac SIM。在数字孪生环境中, 实现和真实环境一样的开发和测试效果,如获取真实环境中难以得到的数据,可以加快 开发流程和减少开发成本。 3) 端侧平台。机器人本体的部分做了低功耗高性能的嵌入式计算平台,以及感知、决策规 划等的 AI 算法增强的应用部署。如英伟达推出的 Jetson Thor SoC 片上系统开发硬件, 内置了下一代 Blackwell GPU(此前英伟达也推出过针对汽车的 DRIVE Thor 套件), 带宽达到 100GB/s,AI 计算性能达到 800TFLOPs。

      优必选持续迭代推出 Walker X,加速国内人形机器人商业化落地。优必选是国内最早开始 研究人形机器人的企业之一。1)2016 年开始研发人形机器人,推出能够全向行走的 Walker 原型机;2)2017-2018 年,推出第一代大型双足仿人服务机器人 Walker1,实现上下楼梯、 跟球踢球、感知避障、拟人舞蹈、人机交互等功能;3)2019-2021 年,推出第二代 Walker, 并登上 2019 年春晚进行表演;4)2021 年,推出 Walker X,该机器人身高 1.30m,体重 63kg,拥有 41 个自由度,行走速度提升至 3km/h,拥有复杂地形自适应、动态足腿控制手 眼协调操作、柔顺物理交互、U-SLAM 视觉导航、智能家居控制、多模态情感交互及仿人 共情表达环境和人体感知等特性。5)2022 以来,Walker X 重点发展导览/前台/接待/家庭 陪伴等场景,持续推进商业化进程。

      自动驾驶和人形机器人是具身智能最具代表性、也最具热度和应用前景的应用。展望未来, 高阶自动驾驶有望逐渐开始规模落地,但人形机器人受制于成本和算法成熟度落地尚需等 待。自动驾驶:特斯拉于2024年3月已推出FSD V12.3版本,正式更名为FSD Supervised, 采用业内首个端到端大模型,并在北美大范围推送免费试用服务。国内随着大模型技术进 步、传感器成本的下降,2024 年小鹏、华为、理想等在全国多城市开始推送城市 NOA 高 阶智驾,小米、比亚迪、蔚来等也积极布局高阶智能驾驶,行业迎来快速发展。机器人方 面,垂直类场景机器人如无人运送机、扫地机器人、工厂机械臂等在加速渗透,但通用型 人形机器人由于其多模态感知、高精准运控、以及对泛化和涌现能力等要求高,受限于软 件难度和硬件高成本压力,或尚难以在短期内实现快速降本及大规模应用。特斯拉研发的 Optimus 人形机器人作为行业内关注度极高的机器人产品,我们预计将首先量产应用于工 厂和仓库,从事较为清晰可控的拣选搬运工作,未来才会逐渐迭代扩大应用场景。

      大模型应用#4:大模型是推动云计算发展的 “锚”

      我们认为 AI 大模型是云计算业务的“锚”,云厂商以大模型为重要底座,推动云计算业务 向 MaaS 转型。MaaS 是大模型厂商重要的商业模式,提供包括算力、模型、数据工具、 开发工具等多种服务。目前已有多家科技巨头将大模型能力部署在云端,或以私有化部署 方式提供给企业用户,以模型 API 调用费、模型托管服务费、按项目收费的定制化解决方 案等形式获得收入。海外,微软推出了 Azure OpenAI,谷歌推出了 Vertex AI,英伟达推出 了 AI Foundations;国内,阿里、百度、字节跳动、腾讯等公司均推出了基于自有云服务 的 MaaS 模式,商汤等公司也推出了基于自有 AIDC 和大模型能力的 MaaS 服务。其中, 大模型的来源包括厂商自身训练的闭源模型和开源模型,以及第三方开源模型。以微软 Azure 为例,用户可选择 OpenAI 的闭源模型,微软自己的开源模型 Phi 系列,以及 Llama 等第三方开源模型。

      AI 开始拉动云计算收入增长。以微软为例,从 2Q23 到 1Q24 的四个季度,AI 分别贡献 Azure 及其他云服务收入增速的 1%/3%/6%/7%。谷歌在 4Q23、1Q24 业绩会上表示,AI 对谷歌 云的贡献不断提升,对垂直整合的 AI 产品组合的需求强劲,这为谷歌云在每个产品领域创 造新的机会。亚马逊在 1Q24 业绩会上表示,基础设施建设与 AWS AI 功能正在重新加速 AWS的增长率。生成式 AI 和模型训练需求驱动,AI 收入占百度 AI 智能云收入在 4Q23/1Q24 分别达到 4.8%/6.9%,其中大部分收入来自模型训练,但来自模型推理的收入快速增长。

      大模型降价吸引客户上云。2024 年 5 月,字节、阿里云、百度、科大讯飞和腾讯相继宣布 降价策略,调低面向 B 端市场的大模型 API 调用费用。我们认为大模型 API 降价得益于算 力芯片性能的提升与推理部署的优化,其目的在于吸引客户使用公有云,购买云厂商的计 算、存储、网络和安全等基础产品。

      大模型应用#5:大模型赋能搜索和广告等互联网传统业务

      搜索、广告是互联网厂商的代表性传统业务,AI 大模型赋能业务效果提升。我们看到 AI 从 算法优化广告推送机制、广告内容生成 2 方面助力互联网公司广告业务。微软推出 Copilot in Bing,Google 发布生成式搜索体验(SearchGenerative Experience,SGE),提供更精准、 更个性、更智能的搜索结果。其中,微软 Bing 借力 GPT 模型能力,市场份额有所提升。

      广告:AI 算法优化推送机制,生成式 AI 实现自动化广告制作

      AI 技术通过算法优化推送机制,提高用户流量与广告转化率。根据 Meta Ads 公司官网数 据,推出 Reels 短视频后,得益于人工智能驱动的发现引擎,推送内容与用户偏好更加贴 合,Instagram 用户的平均使用时间增加了 24%,超过 40%的广告主选择投递 Reels 形式 的广告。Google应用 AI技术改进 Lens视觉搜索以及图片文本跨模态多重搜索,Lens 21-23 年用户增长四倍,月使用数达到 120 亿次。 机器学习算法匹配广告和最相关受众,提高广告转化率。Meta Ads 引入类似受众和细分定 位功能,计算最佳受众群体扩大方式来优化转化量和改善广告表现。类似受众功能通过一 系列指标,如过去购买过同类商品、访问过广告主的网站等来挑选最有可能转化的潜在用 户进行广告推送。根据 Meta 官网数据,该工具令单次增量转化费用中值降低 37%。Google 使用 AI 驱动的竞价系统,通过排序最大点击次数出价在整个营销漏斗中进行优化,以推动 用户对目标网站的访问等购买意向性行为,并统计广告转化数据,生成归因报告,向广告 主推荐值得出价的高效指标。

      生成式 AI 实现自动化广告制作,提高广告创意表现与营销效果。 1)Meta Ads 推出内置免费 AI 广告创作工具 Advantage+ Creative,实现广告简化生成与 标准美化,助力提高广告创意表现与营销效果。Advantage+ Creative 细分功能包含文本衍 生、背景生成、智能扩图、风格化制作等,广告主只需提供广告创意和业务受众,AI 即可 创建多个版本的广告,并挑选出最有可能得到目标受众响应的版本。它也可对广告进行细 微改进——比如调整亮度、宽高比和文本布局。Advantage+ Creative 有效地降低广告主投 入的时间与成本,并提升广告表现。根据 Meta 官网调查数据,采用 Advantage+ Creative 的广告主所获得的广告支出回报率(ROAS)提高了 32%,其中 77%的广告主表示每周得 以节约数小时的时间。 2)Google 利用人工智能,根据查询上下文即时优化搜索广告,并通过机器学习算法增强 广告视觉呈现效果。借助生成式 AI 技术,Performance Max 可以大幅简化广告主的广告制 作流程,根据广告主提供的产品网址自动填充广告文本与生成广告图片。此外,当目标受 众使用搜索引擎时,Google 利用自动创建素材技术优化搜索广告(ACA),重组现有广告 生成更贴合查询内容的新标题与图文。广告系列 Demand Gen 亦能通过机器学习算法将最 佳视频和图片素材资源集成到视觉效果最强的接触点中,避免遮挡,帮助广告主在最具沉 浸感的视觉界面上吸引更多消费者。根据 Google 2022 年中期报数据,采用 Performance Max 使得广告主获得转化客户的成本下降,单次操作费用(CPA)中值减少 17.3%;在支 付同等费用情况下,广告转化次数增长了 18%。

      搜索:引入大模型后,Bing 份额提升

      谷歌:从理解式 AI 到生成式 AI,搜索引擎巨头广泛应用人工智能技术。谷歌享有搜索市场 大部分份额,早期对人工智能技术的应用主要以理解式 AI 为主。根据 StatCounter 统计结 果,2015 年至今谷歌在 PC 与移动端综合搜索量的市占率均超过 90%。机器学习在谷歌产 品中的第一个应用是 2001 年的拼写纠正系统,帮助忽略人们搜索内容的拼写错误而得到正 确结果。随后谷歌于 2019 年使用 BERT 进行检索句子整体拼读以优化搜索排名系统,并开 发能力优于 BERT 1000 倍的多模态、多线程统一大语言模型 MUM,以理解和组织网页内 容。 随着搜索总量的增加和用户需求的多元化,有效率、高质量的多模态交互搜索成为发展趋 势。谷歌于 2023 年开始启动搜索生成式体验(SGE)实验,以生成式 AI 大模型 Gemini 为基础,自动生成搜索内容摘要并进行垂类推荐等算法优化。AI Overviews 是 SGE 的升级 版,在 5 月的 2024 GoogleI/O 开发者大会上作为“25 年间最大更新”发布,与谷歌核心 网络排名系统集成,旨在保证搜索准确性,仅显示由高质量网页信息支持的结果。AI Overviews 继承了 SGE 的内容摘要生成能力,支持视频搜索,具有一次搜索解决系列问题 的多步骤推理功能和集成谷歌文档邮箱的规划功能。该产品推出两周后受到广泛质疑,谷 歌实行改进,但据企业 SEO 平台 BrightEdge 于同年 6 月的调查数据,谷歌淡化了这一功 能,AI overviews 在搜索中的出现频率已于初始的 84%降至约 15%。

      微软 Bing 引入 GPT 模型能力开启生成式 Web 搜索新体验,市场份额提升。2023 年 2 月, 微软为旗下搜索引擎 Bing 配置 AI 增强型 Web 搜索体验助手 New Bing,根据 3 月必应博 客文章,预览版助手推出 4 周时间内日活用户即超过 1 亿,其中约 1/3 用户是第一次使用 微软的搜索引擎。同年 11 月,微软将 New Bing 更名为 Copilot。Copilot 基于 GPT-4 和 DALL-E,通过汇总 Web 搜索结果形成摘要和链接列表,并提供聊天体验来支持用户,优 势包括:1)具备自然语言理解能力与多模态搜索和生成能力;2)以连续提问模式替代多 次独立搜索;3)内置于微软浏览器网页边栏,同步化搜索与网页浏览过程;4)开发多平 台延展,连接 Web 搜索和不同终端,如 Skype、office365、GroupMe 等。Copilot 带来的 搜索引擎流量增长数据亮眼,微软 FY2Q24(4Q23)业绩会上表示,Bing 的市场份额超过 雅虎搜索,升至 3.4%,由 Copilot 支持的搜索对话累计达 50 亿次,公司该季度搜索与广告 收入同比增长近 10%。根据 StatCounter 数据,Bing 在搜索引擎中的市场份额已经由 23 年 2 月的 2.8%提升至 24 年 1 月的 3.4%。

      Perplexity AI 是势头强劲的新晋独角兽,专注于开发自然语言搜索引擎。Perplexity AI 是 世界首款融合了对话和链接的搜索引擎,公司成立于 2022 年 8 月,创始团队前司包括 OpenAI、Meta、Quora、Databricks。根据官网披露数据,2024 年 1 月,Perplexity AI 月 活用户即超过 1000 万,随后 2 个月内公司估值翻倍,同年 4 月公司估值达 10 亿美元,累 积融资破 1.65 亿美元,正式跃升为搜索引擎领域的独角兽。该搜索引擎产品主要搭载第三 方大模型,包括 GPT-4o、Claude-3、SonarLarge(LLaMa 3)、由开源的 Mistral-7b 和 Llama2-70b 模型微调、增强得到的 pplx-7b-online 和 pplx-70b-online,用户可以根据自己 的偏好选择使用的大模型。依靠检索增强生成技术(RAG),Perplexity AI 使大模型和外部 知识库连接,使得返回结果不仅限于大模型自身训练的资料节点,提高了生成结果的准确 性。它能够解读自然语言,具有聊天对话搜索、智能文档管理和智能文本生成的功能,支 持多轮对话和后续问题预测。Perplexity AI 为免费用户提供无限次快速搜索和 5 次专业搜索, 而 Pro 订阅用户可通过支付 20 美元/月或 200 美元/年的费用,每日使用 300 次专业搜素。

      附录:国内外大模型公司进展

      2022 年 11 月,OpenAI 推出基于 GPT-3.5 的 ChatGPT 后,引发全球 AI 大模型技术开发 与投资热潮。AI 大模型性能持续快速提升。以衡量 LLM 的常用评测标准 MMLU 为例,2021 年底全球最先进大模型的 MMLU 5-shot 得分刚达到 60%,2022 年底超过 70%,而 2023 年底已提升至超过 85%。以 OpenAI 为例,2020 年 7 月推出的 GPT-3 得分 43.9%,2022 年 11 月推出的 GPT-3.5 提升至 70.0%,2023 年 3 月和 2024 年 5 月推出的 GPT-4、GPT-4o 分别提升至 86.4%和 87.2%。谷歌目前性能最佳的大模型 Gemini 1.5 Pro得分达到85.9%。 开源模型性能不容小觑,2024 年 4 月推出的 Llama 3 70B 得分已经达到 82.0%。

      在语言能力之外,AI 大模型的多模态能力也快速提升。2023 年初,主流闭源大模型通常为 纯文本的 LLM。2023 年至今,闭源模型的多模态能力具有大幅度提升,目前主流闭源大模 型通常具备图像理解、图像生成能力。如图表 24 所示,虽然开源模型的文本能力有了较大 提升,但大多数开源模型尚不具备多模态能力。目前大模型多模态能力的技术聚焦转向了 原生多模态。全球仅谷歌和 OpenAI 发布了其原生多模态模型 Gemini、GPT-4o。创建多模 态模型时,往往分别训练不同模态的模型并加以拼接,而原生多模态模型一开始就在不同 模态(文本、代码、音频、图像和视频)上进行预训练,因此能够对输入的各模态内容顺 畅地理解和推理,效果更优。例如,对于非原生多模态模型的 GPT-4,其语音模式由三个 独立模型组成,分别负责将音频转录为文本、接收文本并输出文本、将该文本转换回音频, 导致 GPT-4 丢失了大量信息——无法直接观察音调、多个说话者或背景噪音,也无法输出 笑声、歌唱或表达情感。而原生多模态模型 GPT-4o,多种模态的输入和输出都由同一神经 网络处理,因此信息丢失更少,模型效果更好。

      AI 大模型不断提升的同时,得益于算力芯片性能的提升与推理部署的优化,大模型应用成 本快速下降,为基于大模型的应用发展创造了基础。目前 OpenAI 最前沿的 GPT-4o (128k) 输入输出的平均价格比 2022 年 11 月的 GPT-3 Da Vinci 低一半,主打高性价比的 GPT-3.5 (16k)平均价格则比 GPT-3 Da Vinci 低 95%。在 GPT-4 系列中,GPT-4o (128k)平均价格相 较 2023 年 3 月的 GPT-4 (32K)低 89%。

      海外:微软&OpenAI 与谷歌领先,Meta 选择开源的防御性策略

      我们复盘了过去一年海外基础大模型训练企业在大模型技术、产品化和商业化上的进展。 微软和 OpenAI 是目前大模型技术水平、产品化落地最为前沿的领军者,其对颠覆式创新的 持续投入是当前领先的深层原因。谷歌技术储备丰厚,自有业务生态广阔并且是 AI 落地的 潜在场景,过去由于管理松散未形成合力,我们看到谷歌从 2023 年开始整合 Google Brain 和 Deepmind,目前正在产品化、生态化加速追赶。Meta 选择模型开源的防御性策略,以 应对 OpenAI、谷歌等竞争对手的强势闭源模型。

      微软&OpenAI:闭源模型全球领先,大模型产品化处于前沿

      OpenAI 最前沿模型 GPT 系列持续迭代。2022 年 11 月,OpenAI 推出的基于 GPT-3.5 的 ChatGPT 开启了 AI 大模型热潮。此后,OpenAI 持续迭代 GPT 系列模型:1)2023 年 3 月发布 GPT-4,相比 GPT-3.5 仅支持文字/代码的输入输出,GPT-4 支持输入图像并且能够 真正理解;2)2023 年 9 月发布 GPT-4V,升级了语音交互、图像读取和理解等多模态功能; 3)2023 年 10 月将 DALL・E 3 与 ChatGPT 结合,支持文生图功能;4)2023 年 11 月发 布 GPT-4 turbo,相比 GPT-4 性能提升,成本降低,支持 128k tokens 上下文窗口(GPT-4 最多仅为 32k);5)2024 年 5 月发布其首个端到端多模态模型 GPT-4o,在文本、推理和 编码智能方面实现了 GPT-4Turbo 级别的性能,同时在多语言、音频和视觉功能上性能更 优。GPT-4o 的价格是 GPT-4 turbo 的一半,但速度是其 2 倍。得益于端到端多模态模型 架构,GPT-4o 时延大幅降低,人机交互体验感显著增强。 OpenAI 多模态模型布局完整。在多模态模型方面,除了文生图模型 DALL・E3,OpenAI 在 2024 年 2 月推出了文生视频模型 Sora,Sora 支持通过文字或者图片生成长达 60 秒的 视频,远超此前 Runway(18 秒)、Pika(起步 3 秒+增加 4 秒)、Stable Video Diffusion(4 秒)等 AI 视频应用生成时长,此外还支持在时间上向前或向后扩展视频,以及视频编辑。 微软 Phi 系列小模型面向开源,将自研 MAI 系列大模型。微软自研小模型为客户提供更多 选择,2023 年发布 Phi-1.0(1.3B)、Phi-1.5(1.3B)、Phi-2 模型(2.7B),2024 年开源了 Phi-3 系列,包括 3 款语言模型——Phi-3-mini(3.8B)、Phi-3-small(7B)和 Phi-3-medium (14B),以及一款多模态模型 Phi-3-vision(4.2B)。此外,据 The information 2024 年 5 月 报道,微软将推出一款参数达 5000 亿的大模型,内部称为 MAI-1,由前谷歌 AI 负责人、 Inflection CEO Mustafa Suleyman 负责监督。

      产品化方面,微软与 OpenAI 将大模型能力对原有的软件产品、云计算业务、智能硬件进 行全面升级。1)微软围绕企业办公、客户关系管理、资源管理、员工管理、低代码开发等 业务环节具有完整的产品矩阵,2023 年以来推出相应的 Copilot 产品对原有产品进行 AI 大 模型赋能,其中产品化最早、最为核心的是面向企业办公场景的 Copilot for Microsoft 365, 以及面向 C 端用户的 Copilot for Windows,以及集成在 Bing 搜索、Edge 浏览器的 Copilot。 2)云计算业务方面,Azure 云业务向 MaaS 服务发展,提供算力、模型、数据工具、开发 工具等服务。3)智能硬件方面,微软在 2024 年 5 月发布 GPT-4o 加持的 Copilot+PC,除 微软 Surface 以外,联想、戴尔、惠普、宏碁、华硕等 PC 厂商也将发布 Copilot+PC 新品。

      谷歌:闭源模型全球领先,自有业务生态及 AI 潜在落地空间广阔

      谷歌最前沿的闭源模型从 PaLM 系列切换到 Gemini。2022-2023 年,PaLM 系列模型是谷 歌的主力模型,2022 年 4 月发布的 PaLM、2022 年 10 月发布的 Flan PaLM 以及 2023 年 5 月 I/O 大会发布的 PaLM-2 都是谷歌当时的主力大模型。2023 年 12 月,谷歌发布全球首 个原生多模态模型 Gemini,包含 Ultra、Pro 和 Nano 三种不同大小。根据 Gemini Technical Report,Ultra 版在绝大部分测试中优于 GPT-4。2024 年 2 月,谷歌发布 Gemini 1.5 Pro,性能更强,并且拥有突破性的达 100 万个 Tokens 的长上下文窗口。 2024 年 5 月 I/O 大会上,谷歌对 Gemini 再次更新:1)发布 1.5 Flash,是通过 API 提供 的速度最快的 Gemini 模型。在具备突破性的长文本能力的情况下,它针对大规模地处理高 容量、高频次任务进行了优化,部署起来更具性价比。1.5 Flash 在总结摘要、聊天应用、 图像和视频字幕生成以及从长文档和表格中提取数据等方面表现出色。2)更新 1.5 Pro。 除了将模型的上下文窗口扩展到支持 200 万个 tokens 之外,1.5 Pro 的代码生成、逻辑推 理与规划、多轮对话以及音频和图像理解能力进一步提升。

      产品化方面,谷歌将大模型能力融入自有软件业务、云计算和智能硬件之中。1)自有软件 业务:谷歌在 2023 年 5 月 I/O 大会上宣布将 PaLM 2 应用在超过 25 种功能和产品中,包 括 2B 办公套件 Workspace、聊天机器人 Bard 等等。随着谷歌主力大模型切换到 Gemini, Workspace 和 Bard 背后的大模型也同步切换。2)云计算:谷歌通过 Vertex AI 和 Google AI Studio 向 MaaS 延伸。Vertex AI 是 AI 开发和运营(AIOps)平台,支持组织开发、部署和 管理 AI 模型。Google AI Studio 是基于网络的工具,可以直接在浏览器中设计原型、运行 提示并开始使用 API。3)智能硬件:2024 年下半年,据 Techweb,谷歌有望在 10 月推出 Pixel9 系列,预计将搭载基于最新 Gemini 模型的 AI 助手,执行复杂的多模态任务。

      Meta:Llama 开源模型领先

      Meta 凭借 Llama 系列开源模型在大模型竞争中独树一帜,目前已发布三代模型。Meta 在 2023 年 2 月、7 月分别推出 Llama 与 Llama 2。Llama 2,提供 7B、13B、70B 三种参数 规模,70B 在语言理解、数学推理上的得分接近于 GPT-3.5,在几乎所有基准上的任务性 能都与 PaLM 540B 持平或表现更好。2024 年 4 月,Meta 发布 Llama 3,Llama 3 性能大 幅超越前代 Llama 2,在同等级模型中效果最优。本次开源参数量为 8B 和 70B 的两个版本, 未来数个月内还会推出其他版本,升级点包括多模态、多语言能力、更长的上下文窗口和 更强的整体功能。最大的 400B 模型仍在训练过程中,设计目标是多模态、多语言,根据 Meta 公布的目前训练数据,其性能与 GPT-4 相当。 Meta 基于 LLama 系列模型打造智能助手 Meta AI、雷朋 Meta 智能眼镜等硬件产品。Meta 同时更新基于 Llama 3 构建的智能助手 Meta AI,无需切换即可在 Instagram、Facebook、 WhatsApp 和 Messenger 的搜索框中畅通使用 Meta AI。Llama 3 很快将在 AWS、 Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、 NVIDIA NIM 和 Snowflake 上推出,并得到 AMD、AWS、戴尔、英特尔、英伟达、高通提 供的硬件平台的支持。此外,雷朋 Meta 智能眼镜也将支持多模态的 Meta AI。

      国内大模型:格局清晰,闭源追赶 GPT-4,开源具备全球竞争力

      我们复盘了过去一年国内基础大模型训练企业在大模型技术、产品化和商业化上的进展: 1) 国内闭源大模型持续追赶 OpenAI:我们看到 23 年中到 23 年底的国内主流大模型对标 GPT-3.5,23 年,开始对标 GPT-4。例如 2023 年 10 月更新的文心 4.0(Ernie 4.0)“综 合水平与 GPT4 相比已经毫不逊色”,2024 年 1 月更新的智谱 GLM-4 整体性能“逼近 GPT-4”,2024 年 4 月更新的商汤日日新 5.0“综合性能全面对标 GPT-4 Turbo”。 2) 国内竞争格局逐渐清晰,阵营可分为互联网头部企业、上一轮 AI 四小龙、创业企业。 互联网头部企业中,目前百度与阿里在模型迭代与产品化上领先,字节跳动拥有领先的 2C 大模型应用豆包,但公开的大模型公司信息较少,腾讯的大模型迭代与产品化稍显 落后。商汤是上一代“AI 四小龙”公司中唯一在本轮 AI 2.0 浪潮中未曾掉队、持续创 新领先的企业。创业公司中布局各有特色:智谱布局完整,开源、闭源模型兼具,2C/2B 并重;月之暗面专注 2C 闭源,以长文本作为差异化竞争点;Minimax 选择 MoE 模型, 以 2C 社交产品切入;百川智能开源、闭源兼具,2B 为主;零一万物从开源模型切入, 目前开源和闭源模型兼具。 3) 国内开源模型具备全球竞争力。以阿里 Qwen 系列、百川智能 Baichuan 系列、零一万 物的 Yi 系列为代表的国内开源模型成为推动全球开源模型进步的重要力量。

      百度:文心大模型持续迭代,B/C 端商业化稳步推进

      文心 4.0 综合能力“与 GPT-4 相比毫不逊色”。继 2023 年 3 月发布知识增强大语言模型文 心一言后,百度在 2023 年 5 月发布文心大模型 3.5,2023 年 10 月发布文心大模型 4.0。 相比 3.5 版本,4.0 版本的理解、生成、逻辑、记忆四大能力都有显著提升:其中理解和生 成能力的提升幅度相近,而逻辑的提升幅度达到理解的近 3 倍,记忆的提升幅度达到理解 的 2 倍多。文生图功能方面,文心 4.0 支持多风格图片生成,一文生多图,图片清晰度提 升。据百度创始人、董事长兼 CEO 李彦宏在百度世界 2023 上介绍,文心大模型 4.0 综合 能力“与 GPT-4 相比毫不逊色”。

      AI 重构百度移动生态。百度搜索、地图、网盘、文库等移动生态应用以 AI 重构。1)搜索: 大模型重构的新搜索具有极致满足、推荐激发和多轮交互三个特点。2)地图:通过自然语 言交互和多轮对话,升级为智能出行向导,提升用户出行和决策效率。3)百度网盘与文库: AI 增加创作能力。网盘可以精准定位视频的特定帧,并总结长视频内容,提取关键信息和 亮点。文库利用其庞大的资料库,辅助用户进行写作和制作 PPT,成为生产力工具。4)百 度 GBI:用 AI 原生思维打造的国内第一个生成式商业智能产品。通过自然语言交互,执行 数据查询与分析任务,同时支持专业知识注入,满足更复杂、专业的分析需求。 百度 B/C 端商业化稳步推进。根据李彦宏 2024 年 4 月在 Create 2024 百度 AI 开发者大会 上的演讲,文心一言用户数已经突破 2 亿,API 日均调用量也突破 2 亿,服务的客户数达 到 8.5 万,利用千帆平台开发的 AI 原生应用数超过 19 万。 C 端商业化:2023 年 10 月推出文心一言 4.0 后,百度开启收费计划,开通会员后可使用 文心大模型 4.0,非会员则使用 3.5 版本。会员单月购买价格为 59.9 元/月,连续包月价格 为 49.9 元/月,文心一言+文心一格联合会员价格为 99 元/月。文心一言会员可享受文心大 模型 4.0、文生图能力全面升级、网页端高阶插件、App 端单月赠送 600 灵感值等权益,文 心一格会员可享受极速生成多尺寸高清图像、创作海报和艺术字、AI 编辑改图修图等权益。 B 端落地:三星 Galaxy S24 5G 系列、荣耀 Magic 8.0 均集成了文心 API,汽车之家使用 文心 API 支持其 AIGC 应用程序。根据百度 4Q23 业绩会,百度通过广告技术改进和帮助 企业构建个性化模型,在 4Q23 已经实现数亿元人民币的收入,百度预计 2024 年来自 AI 大模型的增量收入将增长至数十亿元人民币,主要来源包括广告和人工智能云业务。

      阿里巴巴:通义大模型开源闭源兼具,落地行业广泛

      通义千问 2.5 中文性能追平 GPT-4 Turbo。通义千问自 2023 年 4月问世以来,2023 年 10 月发布性能超越 GPT-3.5 的通义千问 2.0,2024 年 5 月发布通义千问 2.5。在中文语境下, 2.5 版文本理解、文本生成、知识问答&生活建议、闲聊&对话,以及安全风险等多项能力 上赶超 GPT-4。通义践行“全模态、全尺寸”开源。2023 年 8 月,通义宣布加入开源行列,已陆续推出十 多款开源模型。根据阿里云公众号,截至 2024 年 5 月,通义开源模型下载量已经超过 700 万。大语言模型方面,通义开源了参数规模横跨 5 亿到 1100 亿的八款模型:小尺寸模型参 数量涵盖 0.5B、1.8B、4B、7B、14B,可便捷地在手机、PC 等端侧设备部署;大尺寸模 型如 72B、110B 能够支持企业级和科研级的应用;中等尺寸模型如 32B 则在性能、效率和 内存占用之间找到最具性价比的平衡点。此外,通义还开源了视觉理解模型 Qwen-VL、音 频理解模型 Qwen-Audio、代码模型 CodeQwen1.5-7B、混合专家模型 Qwen1.5-MoE。 面向 B 端客户,通义通过阿里云服务企业超过 9 万,与诸多行业头部客户达成合作。根据 阿里云公众号,截至 2024 年 5 月,通义通过阿里云服务企业超过 9 万、通过钉钉服务企业 超过 220 万,现已落地 PC、手机、汽车、航空、天文、矿业、教育、医疗、餐饮、游戏、 文旅等领域。 面向 C 端用户,通义千问 APP 升级为通义 APP,集成文生图、智能编码、文档解析、音 视频理解、视觉生成等全栈能力,打造用户的全能 AI 助手。

      腾讯:混元大模型赋能自身业务生态实现智能化升级

      混元已经接入腾讯多个核心产品和业务,赋能业务降本增效。2023 年 9 月,腾讯上线混元 大模型。混元已升级为万亿级别参数的 MOE 架构模型。截至 2023 年 9 月,包括腾讯云、 腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ 浏览器在内 的超过 50 个核心业务和产品接入混元大模型;2023 年 10 月超过 180 个内部业务接入混元; 2024 年 4 月,腾讯所有协作 SaaS 产品超过 400 个应用全面接入混元,包括企业微信、腾 讯会议、腾讯文档、腾讯乐享、腾讯云 AI 代码助手、腾讯电子签、腾讯问卷等等。

      字节跳动:豆包大模型赋能内部业务,对话助手“豆包”用户数量居前

      字节跳动在 2023 年并未对外官宣其大模型,在 2024 年 5 月火山引擎原动力大会上首次公 开发布。字节豆包大模型家族涵盖 9 个模型,主要包括通用模型 pro、通用模型 lite、语 音识别模型、语音合成模型、文生图模型等等。字节跳动并未说明模型参数量、数据和语 料,而是直接针对应用场景进行垂直细分。豆包大模型在 2023 年完成自研,已接入字节内 部 50 余个业务,包括抖音、飞书等,日均处理 1200 亿 Tokens 文本,生成 3000 万张图片。 2C 产品方面,字节跳动基于豆包大模型打造了 AI 对话助手“豆包”、AI 应用开发平台“扣 子”、互动娱乐应用“猫箱”以及 AI 创作工具星绘、即梦等。 2B 方面,火山引擎也与智能终端、汽车、金融、消费等行业的众多企业已经展开了合作, 包括 OPPO、vivo、小米、荣耀、三星、华硕、招行、捷途、吉利、北汽、智己、广汽、东 风本田、海底捞、飞鹤等。

      商汤:“云、边、端”全栈大模型,5.0 版本对标 GPT-4 turbo

      商汤日日新 5.0 综合性能对标 GPT-4 turbo。2023 年 4 月,商汤正式发布“日日新 SenseNova”大模型体系,实现 CV、NLP、多模态等大模型的全面布局。2024 年 4 月, 商汤日日新 SenseNova 升级至 5.0 版本,具备更强的知识、数学、推理及代码能力,综合 性能全面对标 GPT-4 Turbo。日日新 5.0 能力提升主要得益三个方面:1)采用 MoE 架构, 激活少量参数就能完成推理。且推理时上下文窗口达到 200K 左右。2)基于超过 10TB tokens 训练、覆盖数千亿量级的逻辑型合成思维链数据。3)商汤 AI 大装置 SenseCore 算 力设施与算法设计的联合调优。

      商汤推出“云、边、端”全栈大模型产品矩阵。1)云端模型即商汤最领先的基础模型系列。 2)在边缘侧,商汤面向金融、医疗、政务、代码四个行业推出商汤企业级大模型一体机。 一体机同时支持千亿模型加速和知识检索硬件加速,实现本地化部署,相比行业同类产品, 千亿大模型推理成本可节约 80%;检索大大加速,CPU 工作负载减少 50%,端到端延迟减 少 1.5 秒。3)端侧模型方面,SenseChat-Lite 1.8B 全面领先所有开源 2B 同级别模型,甚至在大部分测试中跨级击败了 Llama2-7B、13B 模型。日日新 5.0 端侧大模型可在中端性 能手机上达到 18.3 字/秒的推理速度,在高端旗舰手机上达到 78.3 字/秒,高于人眼 20 字/ 秒的阅读速度。

      外部推荐

      🔜💧

      🕳🤵

      🐄🚹

      RFiaK">

      🎏🦗
      🌊
        🐷🎨
        1. 😾🗜
        • 🕹
        • ❣🈴
        • 👔
        • 💳