本周焦点: 文心4.5、腾讯混元-A13B-Instruct、盘古Pro MoE、Agentica DeepSWE、rLLM、DynamicsLab Mirage、Cypher Alpha、Qwen-TTS、Kyutai TTS、Daytona Sandbox、MAI-DxO、Meta成立超级智能实验室股票配资公司一起配资网。
前言:这周是“中国力量”集中爆发的一周,MoE模型的集体亮相,让全球开源社区看到了新的SOTA。
一、重磅工具:国产MoE三巨头,联手“踢馆”世界
本周最重磅的人工智能产品,是三款来自中国顶尖AI实验室、具备混合思维模式的开源细粒度混合专家(MoE)模型。
1. 新闻:百度开源文心4.5模型家族。该系列包含10款模型,参数量从3亿到4240亿不等,并提供“思考型”和“非思考型”两种细粒度混合专家(MoE)版本。其旗舰模型文心4.5 424B是一款拥有470亿激活参数的MoE模型,具备强大的多模态理解能力,在文档问答(DocVQA)基准测试中得分率达93%,在数学视觉(MathVista)基准测试中得分率为78.9%,性能与OpenAI的o1模型不相上下。这也使其成为当前最先进的开源多模态AI推理模型。百度还发布了《文心4.5技术报告》,详细介绍其架构、训练和性能等信息,并分享了在训练、架构和推理方面的多项创新。文心4.5系列模型及相关工具套件采用Apache 2.0许可协议,现已通过百度AI Studio和HuggingFace全面开放,供学术研究和商业部署使用。
锐评:百度这次还能赶上吗?
2. 新闻:发布混元-A13B-Instruct。这款拥有800亿参数的MoE模型,激活参数量130亿,支持256K token的超长上下文窗口,并具备“快思考”与“慢思考”相结合的混合推理模式。在推理和编码基准测试中,其表现媲美甚至超越DeepSeek R1和OpenAI o1,其中在AIME 2024上得分率为87%,LiveCodeBench得分率为64%,GPQA-Diamond得分率为71%。就模型规模而言,混元-A13B-Instruct性价比极高,达到SOTA水平。腾讯AI团队也通过《混元-A13B技术报告》分享了训练和推理细节。模型采用开源许可,但对特定区域商业用途和用户数量有所限制,现已登陆Hugging Face平台。
锐评:腾讯的混元主打一个“四两拨千斤”,参数不大,但性能惊人,堪称性价比之王。
3. 新闻:华为开源盘古Pro MoE模型。这款MoE模型拥有720亿参数,每token激活参数量160亿,完全基于华为自家的昇腾NPU进行训练。盘古Pro MoE的性能可媲美Qwen 3 32B等稠密模型,并优于更大规模的Llama 4 Scout模型。这款开源AI模型也已经在HuggingFace上线。其技术细节和基准测试数据均在论文《Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity》(盘古Pro MoE:分组专家混合实现高效稀疏性)中有所体现。这款模型的一大架构创新是“分组专家混合”(MoGE),即在选择专家时进行分组并平衡专家工作负载,从而实现更均衡的负载分配。该模型还针对华为昇腾NPU进行了优化,采用推测解码技术时每张卡每秒可处理高达1528个token。
锐评:盘古模型的关键词就是“纯国产”和“自力更生”。
二、AI技术与产品发布:万物皆可AI,只有你想不到
1. 新闻:谷歌通过AI Studio恢复了Gemini Pro 2.5的免费API套餐,用户每天可免费请求100次,每分钟5次。
锐评:这典型就是“打个巴掌给个甜枣”。
2. 新闻:谷歌向Gemini Advanced订阅用户推出了Veo 3视频生成模型,覆盖超159个国家。用户每天可通过文本提示创建三段8秒钟的视频。DeepMind首席执行官戴密斯·哈萨比斯(Demis Hassabis)表示,Veo 3未来可能被用于开发视频游戏,而谷歌正通过Genie 2等技术以及Gemini 2.5 Pro的改进,持续构建成熟的“世界模型”。
锐评:虽然每次只能生成8秒,但贵在积少成多。
3. 新闻:苹果的iOS 26系统引入了新AI功能,允许用户直接从截图中创建日历事件。这项功能在安卓系统上已通过Gemini Assistant实现,能帮助用户快速将事件添加到日历中。
锐评:苹果总是在“重新发明”安卓早就有的功能。
4. 新闻:Perplexity推出了“Perplexity Max”订阅服务,面向高级用户,月费200美元,提供Labs功能的无限制访问以及前沿AI模型的优先使用权。这一计划支持网页端和iOS设备,并包含Comet浏览器等新功能的抢先体验。
锐评:用最贵的钱,体验最新的AI。
5. 新闻:Agentica推出DeepSWE,这是一款通过强化学习训练的开源编程智能体。其预览版基于Qwen3-32B训练,在SWE-Bench-Verified基准测试中取得了59%的高分(Pass@1为42.2%,Pass@16为71%)。完整代码、数据和训练日志已在Agentica的Notion博客上公布。Agentica团队还同时发布了rLLM,一个用于AI智能体强化学习后训练的开源框架,旨在帮助开发者创建类似DeepSWE的定制化AI智能体。正如Agentica所言:“我们的使命是普及通用语言智能体的强化学习后训练。”
锐评:这家公司不仅发布了一个超强的编程AI,还把训练秘籍也开源了。
6. 新闻:Dynamics Lab推出了全球首款实时生成式UGC(用户生成内容)游戏引擎Mirage。这款引擎能通过自然语言、键盘或手柄输入实时创建逼真的开放世界体验。其运行帧率达16 FPS,支持跨类型扩展游戏玩法,无需预制资源。可玩演示版已在Dynamics Lab博客上线。
锐评:游戏行业的《三体》时刻要来了?
7. 新闻:OpenRouter发布了免费模型Cypher Alpha,提供百万级token上下文窗口和每秒70个token的吞吐量,专为处理代码生成等长上下文任务而设计。开发者可通过OpenRouter平台访问和测试Cypher Alpha。
锐评:开源社区的力量让前沿技术的门槛一降再降。
8. 新闻:Moshi公司开源Kyutai TTS文本转语音模型,并公布了其模块化语音AI系统unmute.sh的代码。Kyutai TTS提供低延迟的流式语音合成,英语和法语中的说话人相似度分别达到77.1%和78.7%,且英语单词错误率低至2.8%。Kyutai TTS模型卡已发布在HuggingFace。
锐评:AI从“谁的模型更聪明”卷到了“谁的嗓子更好听,还不要钱”。
9. 新闻:阿里巴巴达摩院发布通义千问-TTS。这款文本转语音模型支持多种语言,包括京腔、沪语等中国方言及英语,语音自然度可媲美真人。模型可通过API访问,主要面向需要精细多语言语音合成的应用场景。
锐评:AI方言八级指日可待。
10. 新闻:Daytona推出了“有状态无服务器”沙箱,能为AI智能体执行代码和工作流提供安全隔离的运行时环境。Daytona自称“史上增长最快的基础设施公司”,仅用60天就实现100万美元的年化经常性收入。其开源平台和SDK已在GitHub上提供。
锐评:这是给智能体们建了个带锁的“游乐场”。
11. 新闻:Replicate分享了结合Flux Kontext和Luma Modify的工作流,用于AI驱动的视频风格重塑,让用户能对现有视频内容应用高级风格转换和编辑。
锐评:视频界的“一键换装”来了。
12. 新闻:Cursor扩展了其AI编程智能体平台,新增网页和移动端,并集成Slack,方便用户启动、监控和协作处理代码任务。更多信息可以访问Cursor的智能体页面。
锐评:拿高薪的程序员还坐得住么?
13. 新闻:科大讯飞香港公司揭牌之际,一口气推出了星火医疗V2.5国际版、晓医APP香港版、AI黑板、畅讲普通话等一揽子新品,覆盖医疗、教育、办公等场景。
锐评:中国AI企业在垂直应用领域的底子相当厚实。
三、AI科学研究资讯:AI开始在“人类禁区”大显身手
1. 新闻:微软AI诊断协调器(MAI-DxO)在一项针对《新英格兰医学杂志》304个复杂病例的研究中,取得了85.5%的诊断准确率,远超资深医生在该项测试中20%的平均准确率。MAI-DxO通过协调多个AI模型模拟临床医生会诊,能够提出追问、安排检查并控制诊断成本。相关方法论及关联的“序贯诊断基准”(Sequential Diagnosis Benchmark)已通过论文《Sequential Diagnosis with Language Models》发表。
锐评:未来医生可能不是被AI取代,而是成为AI的指挥官。
2. 新闻:华为与瑞金医院联合开源了“ModelEngine”病理大模型。借助华为提供并开源的ModelEngine平台,病理切片标注效率从每张10–20分钟提升至每天700张以上。
锐评:AI正在把医生从繁重重复的劳动中解放出来。
3. 新闻:Sakana AI发布了Multi-LLM技术。该技术采用了类似的多LLM结果采样方法,通过对多个LLM的结果进行自适应树搜索,在推理阶段扩展计算资源,性能超越单一LLM。这项研究成果发表于论文《Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search》。
锐评:现在AI也懂“一个好汉三个帮”的道理了。
4. 新闻:上周AI推理出现新进展,特别是中国AI实验室智谱AI发布了高性能多模态AI推理模型GLM-4.1V-9B-Thinking。
锐评:连OpenAI都说,要警惕智谱AI。
四、AI商业与政策:钱、权、诉讼和站队
1. 新闻:Meta宣布成立超级智能实验室(MSL)。实验室由Scale AI联合创始人汪滔和GitHub前首席执行官奈特·弗里德曼(Nat Friedman)负责。据称Meta实验室已从OpenAI、Google DeepMind等顶尖AI机构招募了10多名核心研究员,据传薪酬方案高达四年三亿美元,但随后公司予以否认。
锐评:本周最烧钱的新闻。Meta用行动表明:在通往AGI的路上,钱不是问题。
2. 新闻:OpenAI联合创始人伊尔亚·苏茨克维(Ilya Sutskever)接任了Safe Superintelligence(SSI)首席执行官,并重申公司将坚守其唯一使命:开发安全的超级智能。
锐评:伊尔亚看起来像个执着的理想主义者。
3. 新闻:亚马逊在仓库中部署的机器人数量已达到100万台,全球75%的配送流程都由机器人辅助完成。公司同时发布了新的生成式AI模型DeepFleet,旨在将机器人集群的运行速度提升10%。
锐评:我的快递包裹背后,是不是藏着个默默付出的“瓦力”?
4. 新闻:新闻出版商发现,来自ChatGPT的推荐流量有所增加,但自然搜索流量却在大幅下滑。近69%的搜索因谷歌的“AI摘要”功能变成“零点击”结果。独立出版商已向欧盟委员会提起申诉,指控谷歌滥用市场支配地位,强制要求内容方授权纳入“AI摘要”,并称此举可能影响原创内容在搜索结果中的可见性和盈利能力。
锐评:AI摘要让新闻业苦不堪言:流量变少、钱难挣,还得给谷歌当“打工人”。
5. 新闻:Capital One为汽车金融业务开发了智能体平台,旨在像人类员工一样解决问题,其设计灵感源于公司内部的风险管理体系。他们还创建了“评估智能体”来监控其他智能体,使经销商的销售线索转化率提升了55%。
锐评:用一个AI监督另一个AI,妥妥的“套娃式”管理。
6. 新闻:美国参议院上周二以压倒性多数投票,决定废除一项备受争议的、为期10年的州级AI监管禁令。这项“AI暂停法案”原意是防止各州法规扼杀创新,但两党议员普遍担心其会阻碍州层面的消费者保护,促使参议院投票决定废除该条款。
锐评:美国参议院玩了一出“急刹车”。
7. 新闻:欧盟确认按原计划推进《AI法案》时间表。包括Alphabet和Meta在内的100多家科技公司曾敦促推迟生效时间,认为法案有损欧洲的AI竞争力。这部法案将于2026年中期全面生效,禁止“不可接受风险”的AI应用,并对生物识别等“高风险”应用进行监管。
锐评:相比美国,大洋彼岸的欧盟“我行我素”。全球AI监管正呈现出“一地一策”的复杂局面。
五、AI观点与文章:大佬描绘未来,有人乐观有人忧
1. 新闻:关于AI的未来,大佬们描绘了两种图景。OpenAI首席执行官萨姆·奥特曼(Sam Altman)设想AI将带来丰饶的“温和奇点”未来,但爱德曼公司技术实践高级副总裁兼AI卓越中心全球负责人格里·格罗斯曼(Gary Grossman)则在一篇文章中提出了一个“混沌的中间地带”,认为AI在带来收益的同时也会造成混乱。这种未来可能会割裂社会的“认知公地”,即AI生成的内容和高度个性化的信息空间将使人们难以形成共同的现实认知和开展有效对话。
锐评:未来AI到底是乌托邦还是巴别塔?
2. 新闻:OpenAI首席执行官奥特曼在旧金山Snowflake峰会上预测:“到2026年,AI系统将开始真正帮助企业解决复杂问题,并推动新知识的产生。”他将明年视为AI从实验室走向大规模商业落地的关键年份。
锐评:现在这些AI功能原来只是“热身”。
3. 新闻:谷歌首席执行官桑德尔·皮查伊(Sundar Pichai)在AI Action Summit开幕词中强调,AI带来诸多挑战,但“最大的风险是落后于时代”。他还宣布谷歌正加码“深度研究智能体”(deep research agents)项目,以推动AI在复杂信息检索与分析上的自主能力。
锐评:AI风险再大,也不能当“老古董”。
佳禾资本提示:文章来自网络,不代表本站观点。