人工智能发展动态(09.29-10.12)

行业动态,一篇速览。

作者: 第四产业数智研究院
分类:产品趋势
14 次阅读

技术动态

01 深度求索:发布DeepSeek-V3.2-Exp模型

9月29日,深度求索发布DeepSeek-V3.2-Exp 模型,这是一个实验性(Experimental)的版本。

作为迈向新一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。

HuggingFace:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

ModelScope:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp

论文:

https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

image.png

02 快手Kwaipilot团队:开源代码模型KAT-Dev-72B-Exp

10月10日,快手Kwaipilot团队重磅开源代码模型KAT-Dev-72B-Exp,支持128K上下文。

模型基于自研 SeamlessFlow 工业级强化学习框架,通过创新的数据平面架构实现了训练逻辑与Agent的完全解耦,成功支持多智能体和在线强化学习等复杂场景。针对复杂Agent场景的技术挑战,引入Trie Packing机制,并对训练引擎进行了重构优化,使模型能够高效地在共享前缀轨迹上开展训练。通过难度感知的策略优化,实现了探索与利用的平衡,并结合基于开源仓库构建的大规模端到端可验证软件工程任务,KAT-Dev-72B-Exp在编程领域展现出强大的能力。

免费试用 KAT-Coder:

https://www.streamlake.ai/product/kat-coder

KAT-Dev-72B-Exp 开源地址:

https://huggingface.co/Kwaipilot/KAT-Dev-72B-Exp

image.png

03 蚂蚁百灵大模型:开源万亿参数语言模型Ling-1T

10月9日,蚂蚁百灵大模型正式发布并开源通用语言大模型 Ling-1T。

Ling-1T沿用Ling 2.0架构,总参数达1T,每个token激活其中约50B参数。Ling-1T-base在20T+ token高质量、高推理浓度的语料上完成预训练,支持最高128K上下文窗口,通过“中训练+后训练”的演进式思维链(Evo-CoT)极大提升模型高效推理能力。

HuggingFace:

https://huggingface.co/inclusionAI/Ling-1T

ModelScope:

https://modelscope.cn/models/inclusionAI/Ling-1T

GitHub:https://github.com/inclusionAI/Ling-V2

Ling chat(国内用户):

https://ling.tbox.cn/chat

ZenMux(海外开发者,提供 Chat 测试与 API 等能力):

https://zenmux.ai/inclusionai/ling-1t

image.png

04 智谱:开源代码Coding模型GLM-4.6

10月7日,智谱开源代码Coding模型GLM-4.6,在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面实现全面提升。

亮点如下:①高级编码能力:在公开基准与真实编程任务中,GLM-4.6的代码能力对齐Claude Sonnet 4。②上下文长度:上下文窗口由128K→200K,适应更长的代码和智能体任务。③推理能力:推理能力提升,并支持在推理过程中调用工具。④搜索能力:增强模型的工具调用和搜索智能体,在智能体框架中表现更好。⑤写作能力:在文风、可读性与角色扮演场景中更符合人类偏好。

Github:

https://github.com/zai-org/GLM-4.5

Hugging Face:

https://huggingface.co/zai-org/GLM-4.6

技术博客:

https://z.ai/blog/glm-4.6

image.png

05 智源:开源跨本体基座大模型RoboBrain-X0

9月30日,北京智源人工智能研究院正式开源发布RoboBrain-X0 —— 一个能够在零样本泛化、少量样本微调条件下,驱动多种不同真实机器人完成复杂任务的跨本体基座大模型。

RoboBrain-X0 源自 RoboBrain 的多模态基座能力,在 RoboBrain 2.0 数据基础上,进一步融合了真实机器人动作数据。通过统一建模视觉、语言与动作,它实现了跨本体的泛化与适配,具备从感知到执行的一体化能力。

RoboBrain-X0 GitHub:

https://github.com/FlagOpen/RoboBrain-X0RoboBrain-X0

多芯片版本地址 FlagRelease:

https://huggingface.co/FlagRelease/RoboBrain-X0-FlagOS

RoboBrain-X0-Dataset:

https://huggingface.co/datasets/BAAI/RoboBrain-X0-DatasetRoboBrain 2.0

技术文档:

https://arxiv.org/abs/2507.02029

716edd9ed6ec642106427c1fe9eca533.png

06 NVIDIA:开源多项机器人技术,包括迪士尼合作物理引擎

9 月 29 日,NVIDIA在机器人学习大会(CoRL)上宣布,开源Newton物理引擎、Isaac GR00T N1.6基础模型和Cosmos世界模型等多项技术,全面解决机器人研发中的仿真、推理和训练难题。

由 NVIDIA、Google DeepMind 以及 Disney Research 联合开发的开源物理引擎 Newton,将助力科研人员及开发者打造功能更强大、适应性更强的机器人。全新的 NVIDIA Isaac GR00T 开源基础模型将为机器人赋予接近人类的推理能力,使其能够拆解复杂指令,并借助已有知识与常识执行任务。借助全新的 NVIDIA Cosmos 世界基础模型,开发者可以生成多样化数据,从而大规模加速物理 AI 模型的训练。

image.png

07 腾讯:开源原生多模态生图模型混元图像3.0(HunyuanImage 3.0)

9月28日,腾讯开源原生多模态生图模型混元图像3.0(HunyuanImage 3.0),参数规模80B。

混元图像3.0以Hunyuan-A13B为基础,基于50亿量级的图文对,视频帧,图文交织数据和6T的语料数据进行了多模态生成、理解和LLM的混合训练,使得模型能够充分融合多任务效果,实现超强的语义理解能力,能够响应复杂的长文本,生成长文本文字,同时具有LLM的世界知识,能够利用世界知识进行推理。

Github:

https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

Hugging Face:

https://huggingface.co/tencent/HunyuanImage-3.0

模型体验入口:

https://hunyuan.tencent.com/modelSquare/home/play?from=modelSquare&modelId=289

image.png

行业动态

01 vivo:操作系统OriginOS 6正式亮相,AI功能全面更新

10 月 10 日,2025 vivo开发者大会在深圳举行,集中呈现了vivo蓝心智能战略、原系统 6(OriginOS 6)、蓝河操作系统 3(BlueOS 3)及vivo在生态合作、安全、人文等方面的最新成果。

OriginOS 6集成蓝心大模型能力实现全场景AI智能化,新增屏幕自动感知功能可识别内容并精准推荐服务,支持Live Photo的AI消除;蓝心小V目前还具备深度思考和深度研究能力,可在十几分钟内完成广泛信息调研生成数千字报告,语音交互更自然无需唤醒词。

image.png

02 Figure AI:宣布推出其第三代人形机器人Figure 03

10月10日,Figure AI宣布推出其第三代人形机器人Figure 03,更适合应用于人工智能领域、家庭环境以及大规模生产。

Figure 03配备毫克级力敏感触觉传感器能感知3克压力变化,相当于一枚回形针重量;搭载视觉-语言-动作AI系统Helix,配备全新视觉系统实现两倍帧率、四分之一延迟和60%视场角拓宽,手部集成掌心摄像头提供近距离视觉反馈。

image.png

03 谷歌DeepMind:发布基于Gemini 2.5的计算机使用模型 Gemini 2.5 Computer Use

10月8日,谷歌DeepMind发布基于 Gemini 2.5 的计算机使用模型 Gemini 2.5 Computer Use,可让AI直接控制用户的浏览器 —— 在视觉理解和推理能力的基础上,该模型可以帮助用户在浏览器中执行点击、滚动和输入等操作。

谷歌DeepMind为该模型内置多层安全机制,包括逐步安全服务和系统指令约束,开发者已可通过Google AI Studio和Vertex AI的Gemini API获取该能力。

Gemini 2.5 Computer Use 系统卡:

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf

image.png

04 xAI:发布视频生成模型Imagine v0.9,只需说话就能创建视频、图像和文本

10月7日,xAI发布视频生成模型Imagine v0.9,免费向所有用户开放。

Imagine v0.9相比初代版本在视觉质量、动作、音频生成方面有所升级。该模型视频生成时间不到20秒,支持语音优先界面,能生成6秒左右视频,用户可通过添加自然对话、动态相机效果等创建电影级效果。

image.png

05 OpenAI:发布AgentKit、Codex正式版、Apps SDK与Sora 2 API

10月6日,OpenAI在美国旧金山举办第三届开发者大会,重磅发布AgentKit、Codex正式版、Apps SDK等重大产品。

AgentKit是一套可视化智能体开发工具包,包含可视化Agent Builder、Connector Registry和ChatKit,提供拖拽式工作流编排和安全护栏功能;Codex正式版上线并新增Slack集成和SDK;Apps SDK将ChatGPT升级为类似iOS的应用生态平台,支持第三方应用内嵌。同步发布Sora 2 API、gpt-realtime-mini、gpt-image-1-mini等新模型接口,ChatGPT开放Apps SDK支持第三方应用内嵌交互界面。

image.png


06 OpenAI:发布Sora App和Sora 2模型

10月1日,OpenAI发布Sora App和Sora 2模型。

Sora App是一款以AI为核心、以社交为驱动的新型视频平台。其界面和操作逻辑与抖音、小红书极为相似,但有一个最大的不同——在Sora平台上,所有内容都必须由AI生成。

支撑Sora App背后的技术核心是OpenAI全新发布的Sora 2视频生成模型。相比以往的AI视频生成模型,Sora 2在物理运动、人物表演、一致性等方面取得了巨大的突破。

image.png

政策趋势

01 中央网信办、国家发展改革委:印发《政务领域人工智能大模型部署应用指引》

10月10日,中央网信办、国家发展改革委联合印发《政务领域人工智能大模型部署应用指引》,为各级政务部门提供人工智能大模型部署应用的工作导向和基本参照。

政务部门可围绕政务服务、社会治理、机关办公和辅助决策等工作中的共性、高频需求,因地制宜、结合实际,选择典型场景进行人工智能大模型探索应用。

image.png


02 陕西:印发《陕西省推进“人工智能+教育”行动计划(2025—2027年)》

9月30日,陕西省教育厅印发《陕西省推进“人工智能+教育”行动计划(2025—2027年)》。

《计划》包含完善“人工智能+教育”基础环境、打造“人工智能+教育”重点应用场景、推进人工智能教育、提升师生人工智能素养、深化研究引领与国际交流等5项重点任务。

image.png


03 成都:发布《成都市具身智能产业创新发展攻坚行动方案(2025—2027年)》

9月29日,在“进解优促”面对面·供需对接“攻坚周”——人工智能产业链企业系列活动上,成都市经信局市新经济委发布《成都市具身智能产业创新发展攻坚行动方案(2025—2027年)》。

《方案》提出,到2027年底,成都市具身智能产业规模突破500亿元,培育具身智能国家级专精特新“小巨人”企业50家、全国人工智能百强企业10家,实施产品和场景“双百”工程,新一代智能终端、智能体等应用普及率超70%,加快形成智能经济和智能社会新形态,支撑成都建设全国人工智能产业发展新高地。

image.png

原文链接>> 现场供需对接,发布行动方案,成都人工智能产业跑出“加速度”

04 舟山:印发《关于支持人工智能创新发展若干措施》

9月28日,舟山市人民政府印发《关于支持人工智能创新发展若干措施》。

《措施》指出,到2027年,培育若干具有竞争力的海洋特色人工智能企业,全市规模以上人工智能核心产业营业收入达到20亿元;到2030年,人工智能产业综合实力显著增强,全市规模以上人工智能核心产业营业收入超50亿元。

image.png

本文由公众号“第四产业数智研究院”授权AI产品之家转载,原文连接: https://mp.weixin.qq.com/s/if0K3cyQm49Vxv3Fn_QLlg