2025-2026 AI 行业全景报告

覆盖模型发布、架构突破、协议标准、安全法规、现实应用五大维度的深度研究

2025.01 — 2026.02 5 个并行研究代理 编制于 2026.02.11

1 大模型发布全景时间线

1.1 OpenAI

时间模型关键信息
2025.01.23Operator浏览器自动化 Agent,基于 CUA 模型。WebArena 58.1%,OSWorld 38.1%。7月并入 ChatGPT Agent,8月下线
2025.01.31o3-mini高效推理模型,对所有 ChatGPT 用户开放(含免费版)
2025.02.27GPT-4.5 Preview代号"Orion",最后一个非 CoT 模型。API $75/$150/M tokens。7月因 GPT-4.1 取代而弃用
2025.04.14GPT-4.1 / mini / nano三款同发。SWE-bench Verified 比 GPT-4o 高 21.4 百分点;100 万 token 上下文
2025.04.16o3 & o4-minio3 GPQA Diamond 83.3%;o4-mini AIME 2025 99.5%(使用 Python)
2025.05.16Codex (codex-1)AI 编码 Agent,基于 o3 优化。沙盒云环境,1-30 分钟完成功能开发
2025.05Sora 2 / Sora 2 Pro视频+同步音频生成。API 开放 v1/videos 端点
2025.06.10o3-pro"最可靠模型",AIME 2024 超越 Gemini 2.5 Pro
2025.08.07GPT-5 / GPT-5 Pro重大里程碑。AIME 2025 94.6%,SWE-bench 74.9%,幻觉率降低约 6 倍
2025.11.12GPT-5.1新增"购物研究"、8 种可定制个性风格
2025.12.11GPT-5.2 / GPT-5.2 Pro因 Gemini 3 发布加速推出。财务建模能力显著增强
2025.12.18GPT-5.2-Codex旗舰编码模型,上下文压缩改善长任务处理,新增 Windows 环境
2026.02.05GPT-5.3-Codex结合 GPT-5.2-Codex 编码 + GPT-5.2 推理,速度提升 25%。超 100 万开发者

1.2 Google / DeepMind

时间模型关键信息
2025.01.30Gemini 2.0 Flash成为默认模型。100 万 token 上下文
2025.02.05Gemini 2.0 Pro / Flash-Lite2.0 Pro 200 万 token 上下文,最强编码;Flash-Lite 最高性价比
2025.03.25Gemini 2.5 Pro (实验版)首款 thinking model,增强推理和编码
2025.05Veo 3 / Imagen 4 / Lyria 2Veo 3 视频+音频同步生成;Imagen 4 最先进图像生成;Lyria 2 音乐生成
2025.06.17Gemini 2.5 Pro/Flash GA2.5 系列正式商用
2025.10.15Veo 3.1图到视频过渡、场景延伸(1 分钟+视频)
2025.11.18Gemini 3 Pro / Deep Think20 项基准中 19 项领先,HLE 37.5%(Deep Think 模式 41.0%)。SWE-bench 76.2%
2025.12.17Gemini 3 Flash替代 2.5 Flash 成为默认
2026.01.12Apple 合作Apple 宣布使用 Gemini 为下一代 Siri 提供支撑

1.3 Anthropic

时间模型关键信息
2025.01Claude 3.5 更新新版 computer use 工具,新增 Citations 引用功能
2025.02.25Claude 3.7 Sonnet业界首款混合推理模型。SWE-bench 62.3%。同时发布 Claude Code 预览版
2025.05.22Claude Opus 4 & Sonnet 4新一代旗舰。Opus 4 "世界最佳编码模型"。Claude Code 同日 GA
2025.08Claude Opus 4.1增量更新,后被 Sonnet 4.5 超越并弃用
2025.09.30Claude Sonnet 4.5SWE-bench 77.2%,OSWorld 61.4%,可自主运行 30 小时
2025.10Claude Haiku 4.5最快最高性价比,匹配 Sonnet 4 编码性能
2025.11.24Claude Opus 4.5SWE-bench 80.9%。引入 effort 参数,80% 价格降低
2026.01Claude Cowork面向非技术用户的 GUI Agent 工具(研究预览),主要由 Claude Code 自身构建
2026.02.05Claude Opus 4.6当前最新旗舰。100 万 token 上下文(beta)。新增 Agent Teams

1.4 xAI (Elon Musk)

时间模型关键信息
2025.02.17Grok 3 / Grok 3 miniColossus 超算(约 20 万 GPU)训练,100 万 token 上下文。Elo 1402
2025.05Grok 3.5 Beta仅 SuperGrok 订阅用户(4月底宣布,5月初上线)
2025.07.09Grok 4 / Grok 4 Heavy~1.7 万亿参数,AIME'25 95 分,HLE 44.4%。$300/月订阅

1.5 DeepSeek

时间模型关键信息
2025.01.20DeepSeek-R1671B/37B 激活(MoE),MIT 开源。~$558 万训练成本(V3基座GPU训练)震动行业,引发"DeepSeek 冲击波"
2025.03.24V3-0324V3 升级版,推理和编码显著提升
2025.05.28R1-0528AIME 2025 从 70.0 提升至 87.5,GPQA 从 71.5 提升至 81.0
2025.08.21V3.1混合架构 thinking/non-thinking 切换,比 V3/R1 高 40%+
2025.09.29V3.2-Exp引入 DeepSeek Sparse Attention (DSA)
2025.12.01V3.2 / V3.2-Speciale685B 参数。号称"GPT-5 级性能"。API 仅 $0.28/M tokens。Speciale IOI/IMO 金牌级

1.6 Meta Llama

时间模型关键信息
2025.04.05Llama 4 Scout109B/17B 激活,1000 万 token 上下文(业界最大),单张 H100 可运行
2025.04.05Llama 4 Maverick400B/17B 激活,100 万 token 上下文
未发布Llama 4 Behemoth~2T/288B 激活,仍在训练

1.7 阿里 Qwen 通义千问

时间模型关键信息
2025.01Qwen2.5-VL / Qwen2.5-Max多模态视觉语言模型;Max 号称超越 GPT-4o
2025.03.26Qwen2.5-Omni-7B全模态:文本+图像+视频+音频输入输出
2025.04.28Qwen3 全系列稠密+稀疏模型,36 万亿 token,119 种语言
2025.07-08Qwen3-Coder480B-A35B(MoE),256K 至 100 万上下文
2025.09Qwen3-Max / Qwen3-Next超稀疏 MoE + 多 token 预测新架构预览

1.8 Mistral AI

时间模型关键信息
2025.06.10Magistral Small/MediumMistral 首批推理模型
2025.12.02Mistral Large 3675B/41B 激活(MoE),开放权重(Apache 2.0),多模态
2025.12.10Devstral 2编码模型,24B 超越 Qwen3 Coder Flash

1.9 Amazon Nova

时间模型关键信息
2024.12Nova 第一代Micro/Lite/Pro/Premier/Canvas/Reel 六款模型,AWS Bedrock 独占
2025.12Nova 2 Lite/Pro/Omni/SonicNova 2 Omni 首个支持文本+图像+视频+语音输入、同时原生生成文本和图像的推理模型。支持 MCP
2025.12Nova Act浏览器 Agent 服务,基于 Nova 2 Lite,90% 可靠性

1.10 Microsoft Phi 系列

时间模型关键信息
2024.12Phi-414B 参数,MIT 开源
2025.02Phi-4-mini / multimodal3.8B mini + 5.6B 多模态(语音+视觉+文本),NPU 端侧部署
2025.04-05Phi-4-reasoning / reasoning-plus14B 推理模型,部分基准超越 DeepSeek-R1(671B)
Phi-4 家族是 2025 年小模型(SLM)效率优先趋势的标杆——14B 参数在部分任务超越 671B 模型。

1.11 其他重要模型

公司时间模型关键信息
Google2025.03Gemma 31B/4B/12B/27B 开放模型,基于 Gemini 2.0 技术,多模态+128K 上下文。200M+ 下载量,60K+ 社区变体
IBM2025.10Granite 4.0混合 Mamba/Transformer 架构,内存节省 70%+,ISO 42001 认证。Apache 2.0 开源
IBM2025.10Granite 4.0 Nano350M-1B Edge 推理模型,可在浏览器内运行
Cohere2025.03Command A企业 RAG 旗舰模型,取代 Command R/R+

1.12 中国大模型

公司时间关键事件
字节 · 豆包2025.121.8 版本,日均 token 超 50 万亿,同比增长 10 倍
百度 · 文心2026.01ERNIE-5.0:统一全模态+超稀疏 MoE,>2.4T 参数
腾讯 · 混元2025.12HY2.0:MoE 406B-A32B,发布三天调用 1.2 亿次
月之暗面 · Kimi2026.01K2.5:32B 激活/1T 总参(业界最大开源总参)
智谱 · GLM2025.12GLM-4.6V 多模态 MoE 混合推理开源
华为 · 盘古2025.06盘古 5.5:五大基础模型,旗舰 Ultra 7180 亿参数
讯飞 · 星火2025.11X1.5:MoE 全国产算力,推理效率比 X1 提升 100%
小红书2025.06dots.llm1:1420 亿参数 MoE,中文 C-Eval 92.2 超越 DeepSeek-V3
零一万物2025.03宣布停止大模型预训练,转向使用 DeepSeek 提供企业方案——DeepSeek 冲击波标志性事件

2 突破性架构与学术进展

2.1 MoE 架构演进

创新点来源描述
Multi-head Latent Attention (MLA)DeepSeek-V3/R1压缩 KV 缓存,大幅降低推理内存
无辅助损失负载均衡DeepSeek-V3首创不需额外损失函数的专家负载均衡
激进专家扩展DeepSeek-V3每层路由专家从 160 增至 256 个(增长 60%)
FP8 训练DeepSeek-V3资源受限下使用 FP8 精度完成训练
普及化全行业DeepSeek、Llama 4、Qwen3、Mistral Large 3、混元 HY2.0、盘古 5.5 均采用 MoE

2.2 Transformer 替代架构

Mamba / SSM(状态空间模型)

模型关键特性
NVIDIA Nemotron-H8B/47B/56B 混合 Mamba-Transformer,92% Mamba2 块替换注意力,吞吐量快最高 3 倍
微软 Phi-4-mini-flash3.8B,SambaY 架构(Mamba+滑动窗口+GMU),吞吐量提升最高 10 倍
IBM Granite V4SSM + Transformer 混合架构
AI21 Jamba首个大规模 Transformer-Mamba-MoE 混合(注意力:Mamba = 1:7)

RWKV(Eagle → Finch → Goose)

版本时间创新
v5 Eagle2024多头矩阵值状态
v6 Finch2024数据依赖时间混合,14B 比 Eagle 7B 提升 12.5%+
v7 Goose2025.03动态状态演化 + 广义 Delta 规则,3B 规模 SOTA

扩散语言模型

模型时间突破
LLaDA2025.02首个 8B 从零训练的扩散 LM,质量匹配同规模自回归 LLM
Block DiffusionICLR 2025 Oral解决扩散 LM 无法超出训练上下文长度的限制
Gemini Diffusion2025.05首个商用级性能,1479 tokens/秒(同类 5 倍)

2.3 新型注意力机制

机制来源描述
Native Sparse Attention (NSA)DeepSeek-AI (ACL 2025)三分支并行:压缩+选择+滑动,27B 预训练损失低于全注意力
TurboAttention微软FlashQ + SAS,预填充加速 1.8 倍
差分 Transformer2025两注意力图相减消除噪声
FlashMaskFlashAttention 扩展列式稀疏注意力掩码

2.4 推理时扩展(Test-Time Compute Scaling)

模型时间成就
DeepSeek R12025.01通过 RLVR + GRPO 验证范式有效性
OpenAI o32025.04AIME 2024 91.6%,比 o1 减少 20% 重大错误
OpenAI o4-mini2025.04AIME 2025 99.5%(使用 Python 解释器)
OpenAI o3-pro2025.06最强推理模型
Qwen3-235B2025AIME 2025 89.2%,双模式切换

2.5 训练方法突破

强化学习与 LLM

算法描述
GRPODeepSeek 提出,消除 PPO 中的独立评论者模型,内存高效
RLVR带可验证奖励的 RL,2025 年主导训练范式
R1-Zero完全跳过 SFT,纯 RL 自发产生推理能力
REINFORCE++2026.02 ProRL V2 用其训练 SOTA 级 1.5B 推理模型
ReTool将"调用工具 vs 继续思考"建模为 RL 决策,AIME-2025 40% 提升至 67%
范式演进:RLHF+PPO (2022) → DPO (2023-24) → GRPO/RLVR (2025) → REINFORCE++ (2026)

可解释性:Anthropic 电路追踪

时间进展
2025 年初发布归因图方法——追踪模型内部从输入到输出的转换路径
2025.04分析越狱提示中模型行为机制
2025.06开源电路追踪 Python 库
关键发现Claude 存在跨语言共享概念空间;有时"反向推导"中间步骤(动机推理)

2.6 长上下文处理

模型上下文窗口备注
Llama 4 Scout1000 万 tokens业界最大
Gemini 2.0 Pro200 万 tokens
Claude Opus 4.6100 万 tokens (beta)2026.02
Gemini 3 Pro100 万 tokens128K 召回率 77.0%,1M 仅 26.3%
GPT-5.240 万 tokens
关键发现:宣传上下文窗口与实际可用性能间存在显著差距。未来方向从"扩大窗口"转向"提高窗口内检索和推理质量"。

2.7 World Models

项目团队进展
MarbleFei-Fei Li / World Labs2025.11 首个商用世界模型,文本/图片 → 3D 环境
World APIWorld Labs2026.01 大型世界模型 API,"3D 的 GPT-2 时刻"
AMI LabsYann LeCun2025.12 离开 Meta,基于 JEPA 架构,寻求 5 亿欧元融资
Genie 3Google DeepMind首个实时交互式世界模型,24fps 持久 3D
CosmosNVIDIA (CES 2025)物理 AI 平台,2026.01 下载量超 200 万次

2.8 硬件突破

AI 芯片

芯片关键参数
NVIDIA B200192GB HBM3e, 18 PFLOPS FP4, 约为 H200 的 2.5 倍
NVIDIA GB200 NVL7236 Grace + 72 Blackwell, 1.4 EFLOPS, 比 H100 推理快 30 倍
NVIDIA Blackwell Ultra15 PFLOPS NVFP4,比 H100 提升 7.5 倍
NVIDIA Vera Rubin (2026-27)首款自研 CPU + Rubin GPU 288GB,50 PFLOPS

量子计算

芯片关键突破
Google Willow105 量子比特,量子纠错突破(30 年挑战),比超算快 1025
微软 Majorana 1全球首个拓扑量子比特处理器,架构可扩展至 100 万量子比特

光子计算

项目突破
Lightmatter首个能运行 ResNet/BERT 的光子处理器,65.5 TOPS, 78W
中国 LightGen200 万+光子神经元,比 GPU 快 100 倍以上

2.9 重要学术会议

ICLR 2025(4 月,新加坡)

数据
最佳论文"Safety Alignment Should be Made More Than Just a Few Tokens Deep"(安全对齐仅在前几个 token 生效的"浅层对齐"问题);"Learning Dynamics of LLM Finetuning"(SFT/DPO 微调动力学);"AlphaEdit"(模型编辑性能提升 36.7%)
荣誉提名SAM 2;Faster Cascades via Speculative Decoding
Test of Time 奖Adam 优化器

ICML 2025(7 月,温哥华)

数据
投稿/录取12,176 篇投稿,3,300+ 篇接收
最佳论文"Train for the Worst, Plan for the Best"(Masked Diffusion Models 超越自回归模型,Sudoku 6%→89%);"Roll the Dice & Look Before You Leap"(证明 next-token prediction 限制创造力);CollabLLM(Microsoft Research)等 6 篇
Test of Time 奖Batch Normalization

ACL 2025(7-8 月,维也纳)

数据
投稿8,000+ 篇(创纪录),第一作者 51.3% 来自中国
最佳论文DeepSeek Native Sparse Attention (NSA)(梁文锋共同作者);北大 "Language Models Resist Alignment"(LLM 微调后会回弹到预训练状态的"弹性"机制)

NeurIPS 2025(12 月,圣迭戈)

数据
投稿21,575 篇
录取5,200+ 篇(24.5%)
最佳论文Qwen 门控注意力(Gated Attention)等;最佳论文亚军:转导在线学习突破(解决 30 年开放问题);自监督 RL 深度扩展(1024 层)
Apple 论文"思考幻觉"——推理模型超过特定复杂度后准确率崩溃

2.10 AI 能力测评体系

本报告多处引用基准分数(如 SWE-bench 80.9%、AIME 2025 99.5%)。以下是理解这些数字的关键测评框架。
基准说明
LMArena (Chatbot Arena)600 万+用户投票的众包 Elo 排名系统,已成为模型评估的事实标准。人类盲评两个模型输出后投票
SWE-bench Verified软件工程能力基准——给定 GitHub issue,模型需自主生成修复补丁。Verified 子集由人工确认可解
AIME 2025美国数学邀请赛(高中竞赛级),测试数学推理。满分 15 题,o4-mini 达 99.5%
GPQA Diamond研究生水平专家问答,涵盖物理/化学/生物。专家间互评仅约 65% 一致性
HLE (Humanity's Last Exam)Center for AI Safety + Scale AI 联合创建。2,500 个跨 100+ 学科的专家级问题。GPT-5 仅 ~25%。旨在对抗基准饱和
ARC-AGI-2测量流体智能(抽象推理),人类平均 60% 而最佳 AI 仅 24%。2025 年 1,455 个团队参赛。四大实验室已在 Model Card 中报告 ARC-AGI 分数
OSWorld真实操作系统环境的 GUI Agent 基准
WebArena网页操作 Agent 基准(搜索、购物、论坛等真实网站)

3 协议与标准生态

3.1 MCP(Model Context Protocol)

时间事件
2024.11Anthropic 发布 MCP 开放标准,解决"M×N 问题"
2025.03.26规范更新:Streamable HTTP + OAuth 2.1。OpenAI 正式采用 MCP
2025.04Google DeepMind 确认 Gemini 支持 MCP;服务器下载量 800 万
2025.05Microsoft/GitHub 加入 MCP 指导委员会;服务器数突破 4,000
2025.06.18规范更新:OAuth Resource Server 分离 + 结构化工具输出 + Elicitation
2025.11.21MCP Apps 扩展:Anthropic+OpenAI 合作,工具返回交互式 UI
2025.11.25一周年大版本:Tasks 原语 + 服务器身份 + 客户端身份 + 无状态默认
2025.12.09MCP 捐赠给 Linux Foundation AAIF
9700万+
SDK 月下载量
16,000+
活跃服务器
300+
MCP 客户端
18亿$
全球市场规模

3.2 A2A(Agent-to-Agent Protocol)

时间事件
2025.04.09Google Cloud Next 发布,50+ 合作伙伴
2025.06.23纳入 Linux Foundation
2025.07.31v0.3 发布(gRPC + 安全卡签名),150+ 组织
2025.08ACP(IBM BeeAI)与 A2A 正式合并

3.3 其他 Agent 协议

协议发布方定位
ANP开源社区Agent 发现与身份验证(基于 W3C DID)
AG-UICopilotKit (2025.05)Agent ↔ 用户交互(事件驱动,HTTP/SSE/WS)
A2UIGoogle (2025.12)声明式生成 UI 描述格式(安全优先,框架无关)
UCPGoogle (2026.01)通用商务协议(与 Shopify/Walmart/Target 联合开发)
AP2Google (2025.09)Agent 支付协议(VDC 信任链,60+ 组织)
AGENTS.mdOpenAI (2025.08)AI 编码 Agent 指令规范,60,000+ 项目采用
MCP AppsAnthropic+OpenAI (2025.11)MCP 交互式 UI 扩展(Canva/Figma/Slack 等)

3.4 治理基金会

Linux Foundation AAIF(2025.12.09 成立)

类别内容
三大创始项目MCP(Anthropic)+ Goose(Block)+ AGENTS.md(OpenAI)
白金会员(8 家)Anthropic、Block、OpenAI、AWS、Bloomberg、Cloudflare、Google、Microsoft
治理模式与 Kubernetes、PyTorch 同级别的 Linux Foundation 透明治理

3.5 协议生态分层图

┌─────────────────────────────────────────────────────────┐
│                    用户 / 前端应用                        │
├─────────────────────────────────────────────────────────┤
│  AG-UI (Agent↔用户)  │  A2UI (生成式 UI)                │
│  MCP Apps (交互式 UI 扩展)                               │
├─────────────────────────────────────────────────────────┤
│                    Agent 编排层                           │
│  LangGraph │ CrewAI │ MS Agent Framework                │
│  OpenAI Agents SDK │ Claude Code Skills │ AGENTS.md     │
├─────────────────────────────────────────────────────────┤
│                  Agent 间通信                             │
│  A2A (任务协作,含原 ACP)                                │
├─────────────────────────────────────────────────────────┤
│                  Agent 发现与身份                         │
│  ANP (发现/身份/DID)                                     │
├─────────────────────────────────────────────────────────┤
│                 Agent ↔ 工具/数据                         │
│  MCP (上下文协议)                                        │
├─────────────────────────────────────────────────────────┤
│                    商业/支付协议                          │
│  UCP (通用商务) │ AP2 (Agent 支付)                       │
├─────────────────────────────────────────────────────────┤
│                    治理 / 基金会                          │
│  AAIF (MCP+Goose+AGENTS.md) │ LF AI&Data (A2A)         │
└─────────────────────────────────────────────────────────┘

3.6 开发者工具与框架

工具/框架关键进展
OpenAI Agents SDK2025.03 发布。Agent+Handoff+Guardrails 原语。Assistants API 将废弃
LangChain 1.0 + LangGraph 1.02025.10.22 同发。IVP 领投(Sequoia 跟投)1.25 亿 B 轮。月下载 9000 万+
CrewAI纯 Python 角色型多 Agent 框架,10 万+开发者认证
MS Agent Framework2025.10 AutoGen + Semantic Kernel 合并,2026 Q1 计划 GA
Claude Code Skills2025.10 发布。YAML+Markdown 格式,160,000+ Skills
GitHub Copilot Agent Mode2025.02 预览,5月企业级 Coding Agent,可分配 Issue
CursorVS Code 分支,Pro $20/月
Windsurf2025.07 被拆分——CEO团队转投Google(24亿人才协议),剩余资产被Cognition AI收购(OpenAI 30 亿收购失败后)

3.7 推理框架与部署生态

推理框架是连接"模型训练"和"实际应用"的关键中间层——几乎所有生产环境 LLM 服务都基于以下框架。
框架关键特性
vLLM支持 218 种模型架构,周安装量超 100 万。PagedAttention 创新 + KVConnector(prefill/decode 分离)。每周 200-250 次代码提交
SGLangRadixAttention 实现 KV 缓存复用,吞吐量比 vLLM 高 17-29%。33 种注意力后端,高并发场景 6/8 项指标领先
Ollama本地运行 LLM 的事实标准,2 条命令即可运行。Apple Silicon 首选框架
llama.cpp底层推理引擎,支持 CPU/Metal/CUDA 推理。量化(GGUF)使消费级 GPU 可运行大模型

3.8 内容溯源与水印标准

标准/技术关键进展
C2PA内容来源和真实性联盟,300+ 组织参与。2025 年发布 2.1/2.2 规范,将成为 ISO 国际标准。三星 Galaxy S25、Leica、Cloudflare 已支持
SynthIDGoogle DeepMind 不可见水印,已水印 200 亿+ AI 生成内容。2025.05 开放 SynthID Detector 检测门户
双层策略Google 同时使用 SynthID(像素级水印,抗编辑)+ C2PA(签名元数据,可审计链)。EU AI Act 第 50 条要求 AI 生成内容标注

4 安全、法规、伦理与合规

4.1 美国联邦层面

时间事件
2025.01.20特朗普撤销拜登 AI 安全行政令,转向"创新优先"
2025.06特朗普签署新 AI 行政令,修正前版
2025.07白宫发布《美国 AI 行动计划》——"新太空竞赛"
2025.09FTC 调查 7 家 AI 聊天伴侣公司对青少年影响
2025.12.11重磅行政令:成立 AI 诉讼工作组,授权挑战州法律;点名科罗拉多州法为"问题法律"

4.2 美国州法律

法案生效日核心内容
加州SB 532026.01.01首部州 AI 安全法。覆盖年收入>5 亿 + >1026 FLOPS 的开发者。违规最高 100 万/项
科罗拉多SB 24-2052026.06.30高风险 AI 系统综合法。被特朗普行政令点名。违规最高 2 万/项
德州RAIGA2026.01.01禁止 AI 用于鼓励自残/暴力/犯罪及生成 CSAM
全美1,000+ 法案2025 年各州共提出超 1,000 项 AI 相关法案

4.3 欧盟 AI Act 分阶段实施

时间阶段
2025.02.02第一阶段:禁止不可接受风险 AI(操纵性 AI、预测性警务、社会信用评分等)
2025.08.02第二阶段:GPAI 义务生效;罚款最高 3500 万欧元或全球营收 7%
2025.11Digital Omnibus 提案可能推迟高风险合规至 2027.12
2026.08.02预定高风险 AI 全面合规日(可能推迟)

4.4 中国 AI 监管

时间事件
2025.02发布《AI 安全标准体系 V1.0》征求意见稿
2025.03.14四部门发布 AI 内容标识办法,9 月 1 日生效
2025.07.26发布《AI 全球治理行动方案》
2025.08.2211 部门发布 AI 伦理管理办法征求意见稿
2026.01.01新修订《网络安全法》生效,新增 AI 合规条款

4.5 其他国家/地区

国家/地区关键政策
日本AI 促进法(2025.09 生效)——"世界上对 AI 最友好的国家"
韩国AI Basic Act(亚洲首个综合 AI 框架法,2026.01.22 生效)
新加坡不制定综合法,AI Verify 自愿认证 + 行业特定监管
UAEStargate 数据中心 + DIFC AI 许可 + K-12 AI 必修课
联合国2025.08 通过决议:建立独立 AI 科学小组 + 全球治理对话

4.6 重大安全事件

类别事件
Deepfake 欺诈Arup 2560 万美元视频会议诈骗;意大利部长语音克隆近 100 万欧元
AI 网络攻击2025.09 Claude 被用于攻击 17 个组织;11 月 Anthropic 拦截大规模 Claude Code 攻击
Prompt InjectionOWASP 2025 LLM Top 1;FlipAttack 对 GPT-4o 成功率约 98%
Deepfake 色情xAI Grok Aurora 争议;墨西哥 400+ 未成年人图像事件
整体趋势AI 恶意使用报告自 2022 年增长 8 倍;2025 仅 Q1 损失超 2 亿美元

4.7 AI 版权里程碑

案件关键结果
Bartz v. Anthropic15 亿美元和解——史上最大公开版权赔偿。覆盖近 50 万部作品。Anthropic 同意销毁盗版文件
NYT v. OpenAI2026.01 法院命令 OpenAI 交出 2000 万条 ChatGPT 对话记录
裁定格局目前 3 位法官裁决合理使用——2 位支持、1 位反对
趋势AI 版权案件从约 30 件翻倍至 70+ 件
Suno / Udio 音乐版权三大唱片公司(Universal/Sony/Warner)起诉。Warner 2025 年底和解,Suno 放弃"合理使用"抗辩。UMG/Sony 仍在诉讼中

4.8 AI 伦理与对齐

主题进展
Anthropic 新宪法2026.01 发布约 80 页,CC 公共领域许可。首次承认模型可能具有道德地位
OpenAI Model Spec2025 年 5 次更新。新增 Agent 行为准则、未成年人保护原则
Anthropic RSP v2.2ASL-3 标准下发布大模型。SaferAI 评级降至 1.9("弱")
弱到强对齐0.5B-1B 引导向量可中和大模型危险行为
OpenAI 非营利 → 营利争议2025 年最重大治理事件。Elon Musk 起诉进入陪审团审判阶段;加州总检察长审查。2025.05 被迫转为 PBC(公益公司),非营利基金会保留约 26% 股权(约 1300 亿美元),成为世界最富有基金会之一

4.9 AI 就业影响

55,000
2025 AI 驱动裁员
12x
两年前的倍数
55%
雇主后悔因 AI 裁员
40%
员工担忧 AI 失业
指标数据
Amazon 裁员~30,000
Microsoft 裁员~15,000
IBM 裁员~8,000(HR 部门被 AskHR 替代)
Klarna 案例AI 替代 700 人后质量下降,重新雇人
员工担忧AI 失业担忧从 28%(2024) 增至 40%(2026)

5 现实世界应用与产业格局

5.1 AI Agent 产品格局

编码 Agent 对比

产品用户量ARR特色
GitHub Copilot2000万+~20 亿$微软分发优势,49% 市场份额
Cursor100万+5 亿+$多 agent 架构,估值 293 亿
Claude Code企业广泛采用~10-20 亿$终端原生,Agent Teams,Skills。GA → 10 亿仅 6 个月
OpenAI Codex100万+开发者CLI+Web+IDE+桌面全覆盖
Windsurf~100 万用户AI 原生 IDE。2025.07 被拆分——CEO团队转投Google,剩余资产被Cognition AI收购
Devin全自主 AI 工程师,估值 40 亿

Claude Code 里程碑

时间事件
2025.02预览版发布
2025.05GA(与 Claude 4 同日)
2025.07单周 115K 开发者、1.95 亿行代码;ARR ~4 亿
2025.09Claude Code 2.0(检查点、IDE 扩展、并行 agents、hooks)
2025.10Web 版发布 + Skills 系统
2025.11突破 10 亿 ARR(GA 仅 6 个月)
2025.12Anthropic 收购 Bun(JavaScript 运行时)
2026.02Agent Teams 随 Opus 4.6 发布。约 90% 代码由 Claude Code 自身编写

5.2 AI 产品用户生态

产品MAU/WAU关键数据
ChatGPT8-9 亿 WAUARR 100 亿+,市场份额 86.7% → 64.5%
Gemini7.5 亿 MAUQ4 单季增长 1 亿,12 万+企业
Meta AI~5 亿 MAU
Qwen App3000 万 MAU首周 1000 万下载,全球增长最快
Perplexity2200 万活跃月搜索 7.8 亿次,估值 180 亿
Claude三位数增长2025 年增长 190%

5.3 人形机器人

13K-18K
2025 全球销量
~90%
中国份额
5,688
中国专利数
$131K
Optimus 排华成本
指标数据
头部厂商宇树(Unitree)、智元(Agibot) 各超特斯拉 5000 台目标
特斯拉 OptimusV3 重新设计;排除中国零件成本从 $46K 增至 $131K
中国专利5,688 项(美国 1,483 项)

5.4 AI 行业落地

制造业

77% 使用 AI,停机时间减少 23%。到 2035 年可增加 3.8 万亿 GVA

金融

全球年支出超 200 亿美元。机器人投顾管理 1.2 万亿+资产

医疗/药物

Insilico Medicine 首个 AI 全流程药物完成 Phase IIa。AI 压缩早期发现 30-40%

法律

40% 法律人士试验生成式 AI

教育

Coursera GenAI 课程注册突破 800 万,增长 195%

天气

NOAA 部署 3 套 AI 天气模型,仅需 0.3% 传统算力

自动驾驶

Tesla 2025.06 Austin 启动 Robotaxi(171 平方英里);Waymo 扩展至 10 城;百度 Apollo Go 周 25 万+全自动驾驶订单,武汉单车已盈利

国防/军事

美国防部 GenAI.mil 覆盖 110 万+用户,与 OpenAI/Anthropic/Google/xAI 各签最高 2 亿美元合同

整体:72% 全球公司至少一个领域使用 AI

5.5 市场与资本

2025 年 AI 融资全景

2023亿$
AI 总投资
~50%
AI 占全球 VC
700万$
企业平均 LLM 支出
~1万亿$
三巨头私募市值

重大融资

公司金额估值时间
OpenAI F 轮400 亿3000 亿(10月二级市场另售66亿,估值达5000亿)2025.04
Anthropic E 轮延伸35 亿615 亿2025.03
Anthropic F 轮130 亿1830 亿2025.09
Anthropic(进行中)~200 亿2026.01
xAI 多轮累计 420 亿+2300 亿2025-26
Anysphere (Cursor)23 亿293 亿2025

重大收购与合作

事件金额时间
OpenAI 收购 Jony Ive io65 亿美元(史上最大 AI 收购之一)2025.05
Windsurf2025.07 被拆分——CEO团队转投Google(24亿人才协议),剩余资产被Cognition AI收购(OpenAI 30 亿收购失败后)2025.05
迪士尼投资 OpenAI10 亿美元 + 200+ 角色授权 Sora2025.12
Anthropic 收购 Bun未披露2025.12
Jony Ive 的 io 团队并入 OpenAI,目标开发无屏幕 AI 设备("第三核心设备"),预计 2027 年前发布。

5.6 AI 基础设施与能源

Stargate 项目

5000亿$
Stargate 总投资
7GW
总容量规划
10万+
创造岗位
1000亿$
初期投入
指标数据
发起方OpenAI + SoftBank + Oracle + MGX,2025.01.21 特朗普宣布
旗舰站德州 Abilene 已投入运营
扩展2025.09 扩至 5 个新站点。国际扩展至阿联酋(1GW)、挪威、阿根廷(250 亿)

AI 能源危机与核能复兴

指标数据
数据中心用电占美国电力 ~4%,预计 2030 年达 400 TWh(翻倍)
三里岛重启Microsoft + Constellation Energy 20 年 PPA,重启 Unit 1(835MW),预计 2028 上线
Google 核能与 Kairos Power 签署首个企业 SMR 合同(500MW)
Amazon 核能投资 200 亿+建设 Susquehanna AI 园区
Meta 核能与 Constellation 签 20 年 PPA(Clinton 核电站 1.1GW)
行业总量科技公司已签约超 10GW 核能容量
核能复兴:AI 的能源需求正在驱动一场"核能复兴"——这是 AI 对现实世界最深远的物理影响。

5.7 中美 AI 芯片博弈

时间事件
2025.01拜登 AI 扩散规则:三级国家分类
2025.03特朗普加 42 个中国实体入清单
2025.04H20 对华销售需许可证
2025.05废除国家分级,放松中东限制
2025.07批准 H20/MI308 对华许可
2025.08中国反制——推国产芯片,警告勿购 H20
2025.10中美釜山协议:双方暂停部分限制一年
2025.12允许 H200 对华出口(需缴 25% 费用)
2026.01BIS 修改为"逐案审查";25% 关税生效

中国 GPU 公司

公司事件
摩尔线程上海科创板上市,首日涨 400%+。腾讯、字节为股东
沐曦 MetaX上市首日涨 693%
壁仞科技港股上市首日涨 120%,零售超额认购 2300 倍
天数智芯准备港股上市

6 综合时间线

时间模型/产品协议/标准安全/法规产业/市场
2025.01DeepSeek-R1 震动全球;OpenAI Operator;o3-mini拜登 AI 芯片出口管制;特朗普撤销 AI 安全令;韩国 AI 框架法Stargate 5000 亿项目宣布;"DeepSeek 星期一"NVIDIA 蒸发 $5930 亿
2025.02GPT-4.5 Preview;Claude 3.7 Sonnet;Claude Code 预览;Grok 3EU AI Act 第一阶段生效;中国 AI 安全标准;微软 Majorana 1FDA AI 药物指南
2025.03DeepSeek V3-0324;Qwen2.5-OmniOpenAI 采用 MCP;MCP 规范更新;IBM 发布 ACPNYT v. OpenAI 撤案被驳;NIST AI 标准零草案Anthropic 35 亿融资;NVIDIA GTC(Blackwell Ultra/Vera Rubin)
2025.04GPT-4.1 系列;o3/o4-mini;Llama 4 Scout/Maverick;Qwen3Google 发布 A2A(50+伙伴)H20 对华需许可OpenAI 400 亿 F 轮
2025.05Claude 4 + Claude Code GA;Codex;Sora 2;Veo 3/Imagen 4AG-UI 发布;Microsoft 加入 MCP 指导委员会OpenAI 非营利 → PBC 转型;日本 AI 促进法;UAE AI 必修课OpenAI 65 亿收购 Jony Ive io;中国机器人投资爆发
2025.06o3-pro;Gemini 2.5 GA;MagistralMCP 规范更新(OAuth 重构);A2A 纳入 LFBartz v. Anthropic 合理使用裁定;特朗普新 AI 行政令OpenRouter 4000 万融资;Insilico Phase IIa
2025.07A2A v0.3白宫 AI 行动计划;Grok4 被越狱Claude Code ARR ~4 亿;Copilot 2000 万用户;ChatGPT ~7 亿 WAU
2025.08GPT-5;DeepSeek V3.1;Claude Opus 4.1ACP 与 A2A 合并;AGENTS.md 发布EU AI Act 第二阶段;UN AI 治理决议Anthropic ARR ~50 亿;95% 组织 AI 投入零回报
2025.09Claude Sonnet 4.5 + Code 2.0;GPT-5-Codex;Sora 2Google AP2 支付协议加州 SB 53 签署;Bartz 15 亿和解;Claude 被用于网络攻击FTC 调查 AI 聊天伴侣;Anthropic 130 亿 F 轮
2025.10Claude Haiku 4.5;Claude Code WebLangChain 1.0 + LangGraph 1.0;Claude Skills;MS Agent Framework中美釜山协议NVIDIA GTC DC;Perplexity Comet
2025.11GPT-5.1;Claude Opus 4.5;Gemini 3 ProMCP Apps(Anthropic+OpenAI);MCP 一周年大版本AI 泡沫讨论;Anthropic 拦截大规模攻击Claude Code 突破 10 亿 ARR;Qwen App 爆发
2025.12GPT-5.2;DeepSeek V3.2;Mistral Large 3;Gemini 3 Flash;混元 HY2.0AAIF 成立;A2UI 发布;AGENTS.md 捐赠特朗普联邦优先权 AI 行政令摩尔线程/沐曦上市;NOAA AI 天气;迪士尼投资 OpenAI 10 亿;Anthropic 收购 Bun
2026.01ERNIE-5.0;Kimi-K2.5;Claude CoworkUCP 发布法院令 OpenAI 交 2000 万 ChatGPT 记录;SB 53 生效Anthropic ~200 亿融资;xAI 420 亿+;壁仞上市
2026.02Claude Opus 4.6(Agent Teams);GPT-5.3-CodexClaude Code ~20 亿 ARR

7 核心趋势总结

7.1 十大趋势

1

效率优先取代暴力扩展

DeepSeek 以 ~$558 万训练成本证明算法创新可弥补硬件差距,全行业转向效率优先

2

推理模型成为标配

几乎所有主流模型都发布"思考"变体,thinking/non-thinking 模式切换成为标准功能

3

Agent 元年

Operator、Codex、Claude Code、Copilot Agent Mode 密集发布。"Agent 基础设施的寒武纪大爆发"

4

协议栈快速成型

从 MCP 单一实验到覆盖工具连接/Agent 通信/用户交互/发现/支付的完整协议栈,竞争对手罕见合作

5

开源冲击波

DeepSeek-R1 MIT 开源 → Qwen 11.3 万衍生模型 → 中国开源生态全球扩张 → OpenAI 被迫首次发布开源模型

6

安全威胁现实化

Deepfake 欺诈、AI 网络攻击、Prompt Injection 从理论风险变为日常威胁。AI 恶意使用报告增长 8 倍

7

监管碎片化

美联邦创新优先 vs 州严格监管 vs EU 系统化 vs 中国强制标识 vs 日本友好化——全球 AI 法规"碎片化时代"

8

资本集中度空前

OpenAI+Anthropic+xAI 私募市值接近 1 万亿;AI 占全球 VC ~50%;但 95% 组织 AI 投入零回报

9

AI 算力基础设施大跃进

Stargate 5000 亿项目启动;核能复兴(科技公司签约 10GW+);数据中心用电预计 2030 年翻倍至 400 TWh

10

小模型挑战大模型

Phi-4 (14B) 部分超越 DeepSeek-R1 (671B);Gemma 3 (27B) 2 亿+下载;端侧部署成为主流方向

7.2 关键数字一览

2023亿$
2025 全球 AI 投资
8-9亿
ChatGPT WAU
7.5亿
Gemini MAU
80-85%
开发者使用 AI 编码工具
72%
全球企业 AI 采用率
6个月
Claude Code → 10 亿 ARR
9700万+
MCP SDK 月下载
16,000+
MCP 活跃服务器
~90%
中国人形机器人份额
55,000
AI 驱动裁员 (2025)
15亿$
Bartz v. Anthropic
1,000+
各州 AI 法案数量
5000亿$
Stargate 项目总投资
10GW+
科技公司签约核能容量
2亿+
Gemma 3 下载量
65亿$
OpenAI 收购 io
报告结语:2025 年可以被定义为 AI 从"对话系统"到"自主 Agent"的转折年。DeepSeek 的效率革命打破了"规模即一切"的迷信,Agent 协议生态在 12 个月内从零到完整协议栈,而安全、法律和伦理挑战也以同等速度逼近。2026 年的关键悬念在于:Agent 能否真正创造商业价值(目前 95% 的组织回报为零)、全球监管碎片化如何收敛、以及 AI 安全能否跑赢能力增长。