人工智能发展动态(09.08-09.14)

字节跳动:正式发布新一代图像创作模型 Seedream 4.0

作者: 第四产业数智研究院
分类:产品趋势
37 次阅读

行业动态

月之暗面:开源Kimi新中间件checkpoint-engine  

9月11日,月之暗面开源Kimi新中间件checkpoint-engine,能在20秒内完成万亿参数模型在数千GPU上的更新。  

该技术采用混合共置架构,通过分布式检查点引擎管理参数状态,实现参数广播和重载并行处理。系统设计支持训练和推理引擎完全解耦,采用参数逐条更新的流水线方式,可抵御单点故障提高稳定性。  

链接:

https://x.com/Kimi_Moonshot/status/1965785427530629243

Github:

https://github.com/MoonshotAI/checkpoint-engine

论文:

https://arxiv.org/abs/2507.20534

78f6414c9718f2ad0a551a54a3b75d34.png


腾讯混元:发布生图模型混元图像2.1

9月9日,腾讯混元发布生图模型混元图像2.1(HunyuanImage 2.1),支持原生2K生图。

混元图像2.1采用32倍超高压缩倍率VAE,配备MLLM模块和ByT5模型双文本编码器,解决平均流模型训练稳定性问题,将推理步数由100步蒸馏至8步。模型支持最长1000个tokens的提示词,能精准生成场景细节、人物表情和动作,实现多物体分别描述与文字精细控制,支持真人、漫画与搪胶手办等丰富风格。

腾讯混元官网:

https://hunyuan.tencent.com/image

Github:

https://github.com/Tencent-Hunyuan/HunyuanImage-2.1

Hugging Face:

https://huggingface.co/tencent/HunyuanImage-2.1

Hugging Face Demo:

https://huggingface.co/spaces/tencent/HunyuanImage-2.1

image.png


字节跳动:正式发布新一代图像创作模型 Seedream 4.0

9月9日,字节跳动Seed团队正式发布新一代图像创作模型 Seedream 4.0。首次支持多模态生图,同一模型实现文生图、图像编辑、组图生成,能够通过自然语言灵活控制画面细节。

Seedream 4.0采用"生成和编辑任务统一"的工作方式,通过联合训练和多模态感知,实现秒级4K出图,能自动补充知识和背景逻辑。模型在主体一致性方面表现突出,支持多种创意玩法,尤其在亚洲人脸识别和中文文字呈现方面更有优势。

模型链接:

https://www.liblib.art/modelinfo/12f2958836864b9c9e8ef18d560ce04c

项目主页:

https://seed.bytedance.com/seedream4_0

81249c25ef59222a8ec8aa47fee84fe9.png


字节跳动:推出「机器人大脑」Robix

近日,字节跳动Seed团队发布机器人研究成果Robix,一种将推理、任务规划与人机交互无缝整合的统一"机器人大脑"。

2Robix采用层次化架构将"大脑"与"小脑"解耦,高阶认知层负责复杂任务决策,低阶控制层执行具体动作,实现"宏观思考,微观执行"。团队通过三阶段训练(打好物理世界基础、模拟社交情境、纠正思想与行动偏差)构建了Robix,使机器人能理解模糊指令、处理实时反馈、进行动态推理决策。

ArXiv:

https://arxiv.org/abs/2509.01106

项目主页:

https://robix-seed.github.io/robix/

image.png


阿里:发布语音识别模型Qwen3-ASR-Flash

9月8日,阿里发布通义千问系列的语音识别模型Qwen3-ASR-Flash。

Qwen3-ASR-Flash实现了⾼精度⾼鲁棒性的语⾳识别性能,⽀持11种语⾔和多种⼝⾳。同时,⽀持⽤户以任意格式提供⽂本上下⽂,从⽽获得定制化的 ASR 结果,同时还⽀持歌声识别。

ModelScope:

https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo

HuggingFace:

https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo

阿里云百炼API:

https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031

image.png


微软研究院:开源AI Agent推理模型rStar2-Agent

9月8日,微软研究院开源AI Agent推理模型rStar2-Agent,该模型使用了创新的智能体强化学习方法,只有140亿参数。

模型通过三大技术突破:隔离式高吞吐代码执行基础设施、动态负载均衡调度器,以及融合Resample-on-Correct的GRPO-RoC算法,采用"非推理微调+多阶段强化学习"的高效训练流程,只需64台MI300X GPU,一周内完成510步强化学习迭代即达到性能峰值,大大降低了算力成本。

开源地址:

https://github.com/microsoft/rStar

image.png


自变量机器人:开源端到端具身智能基础模型WALL-OSS-4.2B

9月8日,自变量机器人开源了端到端具身智能基础模型WALL-OSS-4.2B。

WALL-OSS-4.2B模型架构设计、训练策略优化、高质量数据和统一跨层级思维链四方面创新,突破具身智能"模态统一、动作精度、能力泛化"三难困境。模型实现了语言、视觉、动作多模态端到端统一生成能力,具备跨场景迁移与执行能力,各项指标超越π0。

Huggingface:

https://huggingface.co/x-square-robot

GitHub:

https://github.com/X-Square-Robot/wall-x

项目链接:

https://x2robot.com/en/research/68bc2cde8497d7f238dde690

论文链接:

https://x2-robot.feishu.cn/file/FurYbuThcofkOqxrsy7cnzUbndd

image.png

OpenAI:官宣ChatGPT支持MCP

9月11日,OpenAI正式官宣ChatGPT的MCP(模型上下文协议)功能上线。

MCP实现了AI模型、工具和数据源的标准化交互,使不同模型能共享上下文,支持即插即用。Plus和Pro用户可一句Prompt实现自动化操作,通过开启开发人员模式连接第三方服务(如Stripe),完成复杂任务,但目前无法与其他ChatGPT功能同时使用。

image.png


NVIDIA:发布用于3D模型生成的AI Blueprint

9月11日,NVIDIA发布用于3D模型生成的AI Blueprint,该工作流让3D艺术家只需输入简单的文本提示,即可创建多达20个3D模型来设计场景原型。

AI Blueprint集成Microsoft TRELLIS NVIDIA NIM微服务,比原生应用快20%,支持所有配备16GB以上显存的RTX 50和40系列GPU。工作流程自动化了从创意到3D模型的转换,生成的模型可导出至Blender等平台进一步优化,大幅节省艺术家原型设计时间。

image.png


Claude:推出重磅更新,可直接生成Excel、 Word、 PPT和 PDF等文件格式

9月10日,Claude推出重磅更新,可直接创建和编辑Excel表格、Word文档、PPT幻灯片和PDF文件,并输出真正可用的文件格式。

系统为Claude配备私有计算环境,能写代码运行程序生成各类文档,支持高级数据分析、图像视频处理、各类文件操作和跨格式转换。该功能已向Max、Team和Enterprise用户开放,功能开启后可上传文件或描述需求,Claude在后台完成操作并支持导出或保存到Google Drive。

功能开启页面:

https://www.claude.ai/settings/features

官方公告:

https://www.anthropic.com/news/create-files

image.png


快手:推出AIGC超级员工Kwali

9月10日, 快手推出AIGC超级员工Kwali,能通过一句话生成完整短视频,自动完成脚本、拍摄、剪辑到发布全流程。

Kwali系统由多Agent框架驱动,包括意图解析、脚本生成、镜头匹配和剪辑合成四大Agent,并接入千寻素材库与数字人模特库,支持私有素材拖入。Kwali将所有元素拆成可独立操控节点挂在时间轴上,支持实时预览和单独操作,使原本需要多团队分工完成的视频制作变为几分钟内可完成的简易任务。

image.png


腾讯:发布全新AI CLI工具CodeBuddy Code

9月9日,腾讯发布全新AI CLI工具CodeBuddy Code,并宣布CodeBuddy IDE国际版开启公测,无需邀请码,面向所有用户开放使用。

CodeBuddy Code定位于专业工程师用专业的 CLI Agent,支持用自然语言驱动整个开发运维生命周期,支持多智能体协作、长期记忆与上下文压缩,与Git/CI/CD深度集成,实现极致自动化效率提升。

image.png


百度:正式发布文心大模型X1.1及一系列更新

9月9日,在百度Wave Summit深度学习开发者大会上,百度正式发布深度思考模型文心大模型X1.1、大模型开发框架飞桨框架V3.2、智能代码助手文心快码3.5S以及一系列开发组件更新。

文心大模型X1是基于文心大模型4.5训练而来的深度思考模型,升级后的X1.1主要采用了迭代式混合强化学习训练框架,一方面通过混合强化学习,同时提升通用任务和智能体任务的效果;另一方面通过自蒸馏数据的迭代式生产及训练,不断提升模型整体效果。

image.png


政策趋势


国家发展改革委、国家能源局:印发《关于推进“人工智能+”能源高质量发展的实施意见》

9月8日,国家发展改革委、国家能源局联合发布《关于推进“人工智能+”能源高质量发展的实施意见》,旨在加快推动人工智能与能源产业深度融合,支撑能源高质量发展和高水平安全。

《实施意见》提出,加快人工智能+电网、人工智能+能源新业态、人工智能+新能源、人工智能+水电、人工智能+火电、人工智能+核电、人工智能+煤炭、人工智能+油气等能源应用场景赋能。

image.png


广西:印发《广西支持“人工智能+制造”若干政策措施》

9月11日,广西壮族自治区工业和信息化厅、财政厅联合印发《广西支持“人工智能+制造”若干政策措施》,进一步壮大人工智能产业,推动人工智能深度赋能制造业高端化、智能化、绿色化发展。

该政策包含十大措施,重点支持智能产品产业化(最高1000万元补助)、人工智能软件开发(最高500万元补助)、标杆应用场景打造及产业集聚发展等。特别聚焦冶金、有色金属等本地优势产业,同时鼓励企业参与东盟国家人工智能合作。此外,政策还涵盖数据集建设、科技创新平台培育及人才引进等配套支持,形成全链条政策体系。

image.png


上海:印发《上海市支持人工智能赋能广告业创新发展的若干措施》

9月8日,上海市市场监管局印发《上海市支持人工智能赋能广告业创新发展的若干措施》,从支持“AI+数字广告”智能体研发、强化生产要素支撑、创新金融支持方式、培育复合型人才、推动生态集聚等方面,提出“12条”新政。

image.png

本文由”第四产业数智研究院“授权转载,原文连接: https://mp.weixin.qq.com/s/m2YTGQHLQ5MmLY4-iS1XOA
人工智能发展动态(09.08-09.14) - AI产品之家