人工智能发展动态(09.15-09.21)

阿里开源深度研究Agent模型通义DeepResearch,拥有3B激活参数。

作者: 第四产业数智研究院
分类:产品趋势
19 次阅读

B站:开源语音合成模型 IndexTTS2

9月19日,bilibili人工智能平台部联合北京大学王选所开源零样本语音合成模型IndexTTS2,实现毫秒级精准时长控制,让AI配音能严丝合缝对上口型。

IndexTTS2模型采用"通用且兼容自回归架构的语音时长控制方法",达到0.02%的时长误差率,同时通过两阶段训练策略实现情感和说话人身份的"解耦"。系统由T2S(文本到语义)、S2M(语义到梅尔频谱)及BigVGANv2声码器三大核心模块组成,支持用大白话控制情绪,在跨语言产业应用上具有重大意义。

代码:

https://huggingface.co/yyyyyxie/textflux

权重:

https://huggingface.co/yyyyyxie/textflux

demo页面:

https://yyyyyxie.github.io/textflux-site/

ComfyUI:

https://github.com/yyyyyxie/textflux_comfyui

c92c1a43eeeedbcfa4817357100e7757.png

小红书:发布新一代对话合成模型 FireRedTTS-2

9月19日,小红书音频团队发布新一代对话合成模型 FireRedTTS-2,支持中文、英语、日语等多语言。

该模型聚焦现有方案的痛点:灵活性差、发音错误多、说话人切换不稳、韵律不自然等问题,通过升级离散语音编码器与文本语音合成模型全面优化合成效果。模型在数百万小时语音数据上训练,支持逐句生成与多说话人音色切换,能够通过一句语音样本模仿音色和说话习惯,流式解码可实时输出音频。

技术报告:

https://arxiv.org/pdf/2509.02020

Demo链接:

https://fireredteam.github.io/demos/firered_tts_2

代码链接:

https://github.com/FireRedTeam/FireRedTTS2

 image.png

阿里:开源DeepResearch模型、框架和方案

9月17日,阿里开源深度研究Agent模型通义DeepResearch,拥有3B激活参数。

研究团队构建了合成数据驱动的完整训练链路,以Qwen3-30B-A3B模型为基础,设计了ReAct和基于自研IterResearch的Heavy两种推理模式,解决了"认知空间窒息"与"不可逆噪声污染"问题。

GitHub:

https://tongyi-agent.github.io

Hugging Face:

https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

魔搭:

https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B

image.png

腾讯:升级AI绘画微调范式,让人像真实感提升3倍

9月17日,腾讯混元提出新方法优化AI绘画,通过Direct-Align和语义相对偏好优化(SRPO)技术改进扩散模型训练,解决了开源文生图模型Flux的皮肤质感“过油”的问题,能让人像真实感提升3倍。

Direct-Align在整个扩散轨迹上进行优化,避免传统方法只优化后期步骤造成的"奖励作弊"问题。SRPO将奖励重定义为文本条件信号,具体来说,SRPO通过为奖励模型添加特定的控制提示词(如“真实感”)来定向调整其优化目标。实验结果显示,这些控制词可以显著增强奖励模型在真实度等特定维度的优化能力。

论文链接:

https://arxiv.org/abs/2509.06942

项目主页:

https://tencent.github.io/srpo-project-page/

GitHub:

https://github.com/Tencent-Hunyuan/SRPO

image.png

宇树:开源机器人世界模型-动作架构 UnifoLM-WMA-0

9月15日,宇树开源机器人世界模型-动作架构UnifoLM-WMA-0,拥有理解机器人和环境相互作用物理规律的世界模型,可适配多种机器人本体。

UnifoLM-WMA-0框架使用Open-X数据集微调视频生成能力,基于5个开源数据集完成全流程训练。支持决策模式(预测交互关键信息)和仿真模式(生成环境反馈)两种核心功能,可实现精准动作预测,在真机测试中预测与实际操作高度吻合。

项目主页:

https://unigen-x.github.io/unifolm-world-model-action.github.io/

GitHub:

https://github.com/unitreerobotics/unifolm-world-model-action

 image.png

Meta AI:正式发布小参数推理模型 MobileLLM-R1

近日,Meta AI正式发布小参数推理模型MobileLLM-R1。

包含两类模型:基础模型 MobileLLM-R1-140M-base、MobileLLM-R1-360M-base、MobileLLM-R1-950M-base 和它们相应的最终模型版,专门针对数学、编程(Python、C++)和科学问题进行训练。

HuggingFace 链接:

https://huggingface.co/collections/facebook/mobilellm-r1-68c4597b104fac45f28f448e

试用链接:

https://huggingface.co/spaces/akhaliq/MobileLLM-R1-950M

 image.png

行业动态

昆仑万维:天工超级智能体正式上线Vibe Coding Agent「AI Developer」

9月17日,天工超级智能体(Skywork Super Agents)在海外版产品中正式上线全新Vibe Coding Agent——AI Developer,帮助非专业开发人员通过自然语言交互快速构建、部署和管理全栈Web应用程序。

AI Developer不仅能生成前端页面,还可与Supabase深度集成,实现数据库、用户鉴权、文件存储、实时更新和调用外部服务等后端功能。该功能还提供Stripe支付和Resend邮箱服务集成,支持用户打造包含付款和邮件通知功能的应用,大大降低了全栈开发的门槛。

image.png

World Labs:发布预览版空间智能模型Marble

9月17日,斯坦福大学教授李飞飞的创业公司 World Labs 发布限量开放的测试预览版空间智能模型Marble,仅用一张图片或文本提示生成持久存在的大规模3D世界。

相比之前产品,Marble生成的3D世界规模更大、风格更多样化、几何结构更干净,且支持浏览器中自由视角导航。用户可将生成世界导出为高斯点云并集成到Three.js中,实现在桌面、移动设备和VR头显上的高效运行,已开放白名单测试。

试用地址:marble.worldlabs.ai

image.png

腾讯:宣布智能体开发平台3.0(ADP3.0)面向全球上线

9月17日,在2025腾讯全球数字生态大会AI Agent产业应用峰会上,腾讯云宣布智能体开发平台3.0(ADP3.0)面向全球上线,腾讯优图实验室关键智能体技术将持续开源。

腾讯云智能体开发平台3.0在RAG、Multi-Agent、WorkFlow和应用构建工具链四个方面全面升级。已针对性推出智能质检、媒体内容处理等行业Agent。

image.png

腾讯:发布混元3D 3.0模型

9月16日,腾讯发布混元3D 3.0模型,同步上线腾讯云API和专业级混元3D Studio工作台,覆盖3D管线七大核心环节。

混元3D 3.0模型针对人物生成专项优化,实现精细面部重塑,告别"抽象脸"问题,大幅提升人物真实感与美观度,达到真人手办级别效果。建模精度提升3倍,几何分辨率达1536³,支持36亿体素超高清建模,解决整体结构与局部细节生成难点。

image.png

YouTube:发布面向短视频创作者的全新生成式AI工具

9月16日,在“Made on YouTube”线上活动中,YouTube 发布了面向 Shorts(短视频)创作者的全新生成式 AI 工具。YouTube不仅将谷歌(Google)文本转视频生成式 AI 模型“Veo 3”的定制版本引入Shorts,还同步推出了一款全新混音工具、“AI 编辑”功能等更多工具。

YouTube表示,Veo 3 的这款定制版本名为“Veo 3 Fast”,能以480p分辨率低延迟生成内容,让短视频片段创作更便捷;且用户如今首次可在生成视频时同步添加声音。目前,该更新已在美国、英国、加拿大、澳大利亚及新西兰逐步推送。YouTube 计划未来将其功能拓展至更多地区。

image.png

OpenAI:发布GPT-5-Codex

9月16日,OpenAI 发布了 GPT-5-Codex,是针对智能体编程任务进行了专门优化的 GPT-5。

GPT-5-Codex 的训练重点放在真实的软件工程任务上,重点优化了在真实工程场景中的自主式(agentic)软件工程能力。它既能在短时间的交互式会话中快速响应,也能独立完成冗长复杂的任务。它的代码审查(code review)能力可以在代码上线前发现关键漏洞。GPT-5-Codex 已经在 Codex 的所有使用场景中上线,包括 Codex CLI、IDE 扩展、网页端、移动设备以及 GitHub 中的代码审查。

image.png

MiniMax稀宇科技:发布新一代音乐生成模型Music 1.5

近日,MiniMax稀宇科技:发布新一代音乐生成模型Music 1.5,支持长达4分钟的完整歌曲创作。

Music 1.5具备强控制力、人声自然饱满、编曲层次丰富和歌曲结构清晰四大突破。模型支持"16种风格×11种情绪×10个场景"自定义音乐特征,能生成不同声线唱腔,并支持中国民族乐器生成,真正实现Intro/Verse/Chorus段落分明。

体验地址:minimaxi.com/audio/music

 image.png

政策报告

 

广东:印发《广东省加快推动人工智能赋能玩具产业行动方案(2025-2027年)》

9月15日,广东省人工智能与机器人产业创新发展工作领导小组办公室印发《广东省加快推动人工智能赋能玩具产业行动方案(2025-2027年)》。

方案指出,到2027年,全省规上玩具产业营业收入达1千亿元,AI玩具渗透率达30%以上。产业集群竞争力增强,形成汕头、东莞、深圳等高水平玩具产业集群,培育5家以上具有国际竞争力的AI玩具领军企业,打造10个左右AI+产业创新应用标杆案例。

image.png

河南:印发《河南省加快人工智能赋能新型工业化行动方案(2025—2027年)》

9月15日,河南省人民政府办公厅印发《河南省加快人工智能赋能新型工业化行动方案(2025—2027年)》。

方案指出,到2027年,规模以上工业企业智能应用场景覆盖范围实现从单点突破向综合集成跃升,人工智能产业规模突破1600亿元,建成全国重要的人工智能产业高地和创新应用示范区。

image.png

银川:正式发布《打造“算力之都”促进人工智能产业发展的若干政策(试行)》实施细则

9月12日,银川市数据局正式发布《打造“算力之都”促进人工智能产业发展的若干政策(试行)》实施细则,一系列高含金量举措推动人工智能产业高质量发展,助力构建西部算力产业新高地。

该政策围绕加大普惠算力供给、扩大数据要素流通、支持人工智能应用、培育产业生态等关键环节,推出多项具体支持措施,构建从算力基础设施到人工智能创新应用的完整产业生态。

image.png

华为:发布面向智能世界2035十大技术趋势

9月16日,华为举办智能世界2035系列报告发布会,正式发布智能世界2035系列报告,包括《智能世界2035》和《全球数智化指数2025》报告两大研究成果,展望了未来十年的关键技术趋势以及这些技术对教育、医疗、金融、制造、电力等行业带来的改变和影响,并帮助全球各国量化数智化发展进程。

报告下载地址:https://www.huawei.com/cn/intelligent-world?sessionid=

image.png

人工智能发展动态(09.15-09.21) - AI产品之家