2026-06-17
AI 早报 2026-06-17
来源:AI HOT 日报 · 2026-06-17。内容由 AI HOT 编辑系统自动生成,本页同步归档并保留原始出处。
概览
今日事件 29 · 一手报道 12 · 新模型 5 · 信源 20
模型发布/更新
Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型
来源:X·KOL X:Testing Catalog (@testingcatalog)
Cartesia 推出 Sonic 3.5 和 Ink 2 两个模型,作为单一实时语音栈,分别负责文本转语音和语音转文本。Ink 2 在 Artificial Analysis 的流式语音转文字排行榜上排名第一。Sonic 3.5 在实时文本转语音中位列榜首,首音频延迟约 82ms。Cartesia 成为目前唯一同时拥有 #1 听与说模型的提供商。
Qwen-RobotManip:对齐解锁机器人操作基础模型的规模化能力
来源:官方 Qwen:Blog Retrieval(API)
Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作(VLA)基础模型,引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频,构建约 38,100 小时预训练语料,涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%,RoboTwin-C2R Hard 达 69.4%,RoboCasa365 Composite-Unseen 达 14.9%,EBench 达 45.6%,RoboTwin-IF 达 72.0%,并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道…
Qwen-RobotWorld:具身智能体的无界世界
来源:官方 Qwen:Blog Retrieval(API)
Qwen-RobotWorld以语言为统一动作接口,采用双流Multimodal Diffusion Transformer(MMDiT)架构,将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩,统一20余种机器人形态,基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别,支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。
成本砍半,字节跳动推出 Seedance 2.0 Mini 视频生成模型
来源:综合资讯 IT之家(RSS)
字节跳动火山引擎旗下火山方舟体验中心于 6 月 15 日上线 Seedance 2.0 Mini 视频生成模型,计划近期开放 API。该模型比 Seedance 2.0 Fast 快 2 倍,输出质量相当。图生视频定价 0.023 元/千 tokens,视频生视频 0.014 元/千 tokens,720P 规格下单秒生成成本约 0.5 元,较 Seedance 2.0 标准版降低约一半。模型面向电商内容生产、营销素材批量生成、UGC 创作及特效玩法等高频率、大规模视频生成场景。
Qwen-RobotNav:面向智能体导航系统的可扩展导航模型
来源:官方 Qwen:Blog Retrieval(API)
Qwen 发布 Qwen-RobotNav,基于 Qwen3-VL 在 15.6M 样本上训练,统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域,无需修改架构即可在推理时切换任务模式和观察参数。模型在多项基准取得 SOTA:VLN-CE RxR 成功率 76.5%,HM3Dv2 目标导航 75.6%(仅 RGB),EVT-Bench 跟踪率 90.0%,NAVSIM PDMS 91.4,以及三项 EQA 新标杆。模型暴露四个可调轴(视觉 token 预算、时间衰减、相机权重、帧采样模式)。作为智能体系统的一部分,上层规划器 Qwen3.7-Plus 在 EXPRESS-Bench 上提升 15.4%,导航步数减少 …
产品发布/更新
教育部“阳光志愿”信息服务系统全新升级上线:智能筛选志愿,数据权威可信
来源:综合资讯 IT之家(RSS)
教育部“阳光志愿”信息服务系统今日全新升级上线,依托招生、学籍、就业等海量官方数据,免费为考生和家长提供志愿填报服务。系统支持31个省区市本专科普通批次志愿筛选,输入高考成绩、位次及个性化条件即可快速生成合理参考方案。AI助手“智慧小招”24小时在线解答政策规则。平台数据由高校直接报送、官方核验,真实可靠。同时推出专业倾向测评和21项生涯测评工具,帮助学生认清特长、规划未来。
Google Cloud 推出 OKF v0.1:供应商中立的 Markdown 规范,为 AI 智能体提供结构化上下文
来源:综合资讯 MarkTechPost(RSS)
Google Cloud 发布 Open Knowledge Format (OKF) v0.1,一种供应商中立的 Markdown 规范,为 AI 智能体提供结构化上下文知识。OKF 将知识表示为带 YAML 前置元数据的 markdown 文件目录,每个概念对应一个文件,通过 type、title、description 等少量保留字段实现互操作。无需专有服务、SDK 或运行时,目录可托管在 GitHub、以 tarball 传输或挂载到任意文件系统。OKF 旨在解决组织内部知识碎片化问题——表结构、指标定义、runbook 等散落在不同 catalog 和 wiki 中,各厂商方案互不兼容。遵循最少意见原则,只强制…
Copilot Cowork 全球正式可用,支持多模型
来源:X·KOL X:Satya Nadella (@satyanadella)
Copilot Cowork 现已全球正式可用,并支持多模型! 每个组织都可以让长期运行的智能体处理复杂的多步骤任务,基于你组织的独特知识和专有技术。 https://www.microsoft.com/en-us/microsoft-365/blog/2026/06/16/copilot-cowork-is-now-generally-available/?v=15
AI 版支付宝官宣开启邀测:右滑打开“阿宝”,官方放出 100 个邀请码
来源:综合资讯 IT之家(RSS)
支付宝今日开启 AI 版邀测,用户可右滑进入新版界面,在对话框或语音中输入指令,由“阿宝”助手代办事项。以查询公积金为例,阿宝自动匹配对应小程序和服务入口,用户点击确认即可完成,将多步跳转折叠为一句指令。所有涉及资金变动和支付的环节均需用户本人确认。首批放出 100 个邀请码。
小米 MiMo Claw 正式版发布:旗舰模型+金山办公,全新订阅服务上线
行业动态
美国司法部援引国家安全为xAI未经许可的燃气轮机辩护
来源:综合资讯 The Decoder:AI News(RSS)
美国司法部在一份驳回诉讼的动议中称,xAI的聊天机器人Grok对军事行动至关重要,以此为其在密西西比州Southaven的Colossus 2设施运行未经许可的燃气轮机辩护。NAACP已提起诉讼,指控xAI的燃气轮机数量从4月的27台增至57台,导致氮氧化物排放飙升111%。国防部首席数字与人工智能官Cameron Stanley表示,Grok是支持机密和绝密网络军事任务的四款AI模型之一,包括近期针对伊朗的打击。
五角大楼将大部分日常AI工作流从Anthropic转移,目标9月前完全切断
来源:X·KOL X:阿易 AI Notes (@AYi_AInotes)
五角大楼宣布已将超2/3日常AI工作流从Anthropic转移,目标9月前清零。起因是年初五角大楼要求Anthropic签署协议允许Claude用于大规模监控和全自动武器,CEO Dario Amodei以模型不可靠为由拒绝。五角大楼将其列为“供应链风险”,起诉未果。OpenAI调整立场获得订单。Polymarket预测6月底前和解概率仅9%。此事件凸显AI公司需在原则与政府合作间抉择。
微软旗下GitHub遭遇AI算力短缺,转而向AWS寻求支持
来源:综合资讯 Hacker News 热门(buzzing.cc 中文翻译)
微软旗下GitHub面临AI算力短缺,微软因此转向亚马逊AWS寻求计算资源支持。原文来自Hacker News热门讨论,标题为“Microsoft turns to AWS as GitHub faces AI capacity crunch”。
微软考虑为 Copilot Cowork 集成 DeepSeek V4
来源:X·KOL X:Kim (@kimmonismus)
微软正考虑为 Copilot Cowork 提供微软托管的 DeepSeek V4 版本,作为更便宜的模型选项。Copilot Cowork 将放弃无限定价,转向按使用量计费,原因是成本过高(用户每周执行数百项任务导致费用激增)。若采用 DeepSeek,该模型将是可选的、经过微调与安全防护,并完全托管于 Azure。Axios 报道称微软已微调了一个可用模型,最终决定待定。
Fable 遭美国政府封禁,TechCrunch 质疑真正原因并非模型越狱
来源:综合资讯
论文研究
Anthropic:智能体编码中专业知识回报持续存在
来源:官方 Anthropic:Research(发表成果 · 网页)
Anthropic 基于约40万次 Claude Code 交互会话(2025年10月至2026年4月)分析发现:人类主导规划决策(做什么),Claude 主导执行决策(怎么做)。领域专业知识越强,模型每次指令完成的工作量越多。各类职业完成任务的成功率与软件工程师平均相近;领域专家成功率更高,但与中级用户差距不大。七个月间调试会话占比下降近一半,使用转向端到端智能体任务(部署运行代码、分析数据、编写非代码文档),典型任务价值平均上升约25%。
OpenAI 发布 Deployment Simulation 方法:通过模拟部署预测模型发布前行为
来源:官方 OpenAI:官网动态(RSS · 排除企业/客户案例)
OpenAI 近日发布 Deployment Simulation 方法,通过在隐私保护下重放历史对话、用新候选模型重新生成回复,模拟模型上线后的实际表现。在多个 GPT‑5‑series Thinking 部署中,该方法比传统评估更准确地估计了不良行为频率,发现新型对齐问题,并降低模型识别测试的风险。它还能扩展至涉及工具使用的智能体场景。传统评估存在覆盖不足、选择偏差和模型可识别测试等局限,而 Deployment Simulation 使用真实对话分布缓解了这些问题,但无法测量频率低于每 20 万条消息 1 次的行为。
公开聊天数据能否预测真实世界AI失调?
来源:官方 OpenAI:Alignment 研究博客(RSS)
OpenAI利用WildChat公开数据集(2023年4月至2024年5月收集的100万条对话)模拟模型部署,预测GPT-5.1、GPT-5.2、GPT-5.4在真实生产环境中的不良行为率。与私有生产数据对比发现,WildChat模拟的平均预测误差约3倍;但对技术性和智能体型失调的预测精度下降。研究验证了公开数据集作为外部审计工具的可行性。
技巧与观点
Meta 解散工程部门引发热议
来源:综合资讯 Hacker News 热门(buzzing.cc 中文翻译)
6月16日,一篇标题为“Why is Meta destroying its engineering organization?”的博客文章出现在 Hacker News,获得110个点赞。文章指出 Meta 正在解散其工程组织,引发业界广泛讨论。具体原因和后续影响尚未明确。
毕业生陷入AI检测荒诞循环:手写摘要被判99%AI率,AI写部分0%
来源:公众号·媒体 公众号:数字生命卡兹克
当前毕业生面临论文AIGC率检测荒诞困境。学生手写摘要被判定99%AI率,纯AI写部分却为0%。学校要求AIGC率不超40%,学生用Claude反复修改并花上百元检测费(维普20元/篇,知网/万方2元/千字符),最终降至36.1%。答辩时老师要求改回学术表达,AI率回升至37.21%。同一论文在不同平台检测结果差异巨大(48%、44%、59%)。部分平台提供降重收费服务,少数学校已改用AI使用声明表替代一刀切检测。
WorkBuddy日活飙升至行业第二的3-4倍,非技术用户涌入
来源:公众号·媒体 公众号:数字生命卡兹克
从3月至今,WorkBuddy日活用户数已达行业第二名的3-4倍,用户不再限于开发者,大量HR、运营、行政等非技术岗位也在使用。其企业版和项目功能进一步扩展了Agent办公场景。同期,Trae Work、QoderWork、Kimi Work等产品纷纷改名或出新,争夺市场。腾讯云认为这可能是十年一遇的机遇。
OpenAI 的领先优势正在快速缩小
来源:大咖博客 Gary Marcus:The Road to AI We Can Trust(RSS)
评论认为 OpenAI 正面临多重危机:缺乏护城河导致市场领先地位下滑;最大投资者微软持续疏远,近期甚至公开考虑将主要产品外包给中国;亏损速度远超预期,年亏损额以 8 倍增长。华盛顿方面可能打压 Anthropic,但也可能反而帮助其崛起,而 Elon Musk 成为另一个潜在的竞标者。
前沿大模型后训练配方回顾:与 Finbarr Timbers 对谈
来源:大咖博客 Nathan Lambert:Interconnects(RSS)
Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变:从 InstructGPT 的 SFT→奖励模型→RL 三阶段,到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL,再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation(MOPD):训练 N 个领域专家(经 SFT 和领域 RL),再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入,DeepSeek V4 与 Nemot…