AI 早报 2026-06-16｜Kakarot AI 日报

AI 早报 2026-06-16

来源：AI HOT 日报 · 2026-06-16。内容由 AI HOT 编辑系统自动生成，本页同步归档并保留原始出处。

模型发布/更新

MiniMax 开源 M3 模型权重及 MSA 技术论文

来源：公众号·官方公众号：MiniMax（稀宇科技）

MiniMax 上周五开源了 428B 总参数、23B 激活参数的 M3 模型权重，同步发布 MSA（MiniMax Sparse Attention）技术论文，该架构显著降低长上下文计算成本。M3 是首个从预训练阶段就进行文本、图像等多模态交错混合训练的开源模型。发布两周后，M3 在 Artificial Analysis 综合智能指数、GDPval-AA 排行榜均获开源模型第一，Code Arena WebDev 跻身帕累托最优序列，Vals.AI 榜单居国产模型首位。输出速度已从约 30 TPS 提升至约 80 TPS，计划再提速 30–40%；Token Plan 后台新增调用量看板。

下一代投机解码：DFlash 与 Spec V2

来源：学术机构 LMSYS：Blog（Chatbot Arena 团队）

Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token，在 Qwen 3.5 397B-A17B（BF16）的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3

产品发布/更新

Flash-KMeans：IO感知的精确K-Means，在GPU上比FAISS快200倍以上

来源：综合资讯 MarkTechPost（RSS）

UC Berkeley与UT Austin团队开源Flash-KMeans（Apache 2.0， pip install flash-kmeans ），精确实现标准Lloyd's k-Means，通过重构GPU数据流而非改变数学或近似来提速。在NVIDIA H200上，端到端速度比最佳基线快17.9×，比cuML快33×，比FAISS快200×以上。其FlashAssign核避免物化完整N×K距离矩阵，将IO复杂度从O(NK)降至O(Nd+Kd)，单核加速最高21.2×；Sort-Inverse Update核通过排序聚类ID减少原子争用，单核加速最高6.3×。支持out-of-core处理，在1B数据点、K=32768时单次迭代…

目录