大模型前沿速递 · 2026 年 6 月 9 日

今日五篇：EmbedFilter 用 UnEmbedding 矩阵滤除高频 token 噪声，零样本检索性能大幅提升同时副产品降维；SIA 同时更新 Agent scaffold 与模型权重，三个任务均超单独更新任一侧的基线；ToolMaze 揭示工具隐式语义失效时 Agent 恢复率骤降 37%，动态重规划是独立短板而非 scaling 能解决的问题；OpenSkill 无需目标任务标注从零自建技能库与验证信号；SubtleMemory 发现现有长期记忆系统对互补、微妙或冲突关系的辨别能力普遍不足。

1. EmbedFilter：UnEmbedding 矩阵是 Text Embedding 隐藏的「特征过滤器」

arXiv:2606.07502 | 预印本 | HF #1 paper of Jun 8（69 upvotes）

核心问题：LLM 直接当作 embedding 模型用时，零样本检索性能普遍偏弱。原因此前不清楚。

方法亮点：Songhao Wu 等人发现一个规律：把 text embedding 投影到词表空间后，它往往对齐的是「the」「a」「of」这类高频但无意义的 token——这些频繁 token 在 embedding 空间里占据了过大份额，压制了真正的语义信号。1

解决方案称为 EmbedFilter：UnEmbedding 矩阵（LLM 最后一层将隐状态映射回词表的线性层）内部编码了一个子空间，这个子空间专门负责将高频 token 写入 embedding。把这个子空间从表示中过滤掉，剩下的就是更纯粹的语义表征。1

与现有方法的对比：现有改进 LLM embedding 的思路通常需要对比学习微调（如 SimCSE、E5）或专门的 embedding 训练数据。EmbedFilter 是纯推理期线性变换，不更新任何参数，对已有 checkpoint 直接可用。

量化实验：多个 LLM backbone 上测试，零样本下游检索任务均有提升；embedding 维度可同步降低（子空间过滤的副产品），检索索引存储和速度均改善，且质量不下降。1

作者观点：作者在 HF 社区写道，这一现象在对比学习训练的 embedding 模型（UnEmbedding 矩阵不参与训练）上同样成立，说明它是 LLM 结构的通用属性，而非训练 regime 的特定产物。他们表示后续会发布基于此洞察的新 embedding 训练框架。1

代码已开源：EmbFilter（GitHub）

2. SIA：同时更新 Harness 与权重的自改进 AI 循环

arXiv:2605.27276 | 预印本 | HF 775 community upvotes

核心问题：自改进 AI 有两条独立路线：改 scaffold（工具 / prompt / 搜索逻辑，即「harness update」），或改模型权重（test-time training）。两条路线过去几乎没有交叉。哪个更重要？两者结合是否有效？

方法亮点：SIA（Self Improving AI）用一个 Feedback-Agent 同时重写 task-specific agent 的 harness 和其模型权重。训练信号来自任务反馈，harness 更新负责改变 agent 的「行动搜索方式」，weight 更新负责注入「任务直觉」——两者按论文作者的说法针对不同侧面。2

三个测试领域：中文法律罪名分类（LawBench）、低级 GPU kernel 优化、单细胞 RNA 去噪（scRNA denoising）。三个任务各自代表不同的信号类型和任务难度。

量化实验：

任务	仅 harness（W-only baseline）	SIA（W+H）
LawBench 法律分类	基线	+56.6%
GPU kernel 运行时间（越低越好）	基线	-91.9%（压缩至约 1/12）
scRNA 去噪	基线	+502%

社区讨论：作者在 HF 页面提出了一个有意思的开放问题：「自我改进更可能来自更好的 scaffold、更好的 test-time training，还是协同演化两者的系统？」并追问什么样的 benchmark 能区分三者，而不会被验证者 Goodhart。2

项目代码：hexo-ai/sia（GitHub，775 stars）

3. ToolMaze：工具失败后的 Agent 重规划基准

arXiv:2606.05806 | 预印本 | 百度 | HF 18 upvotes

核心问题：现有 TIR（Tool-Integrated Reasoning）基准都测「一切正常」的 happy path。真实部署里工具会出错，Agent 该如何动态重规划？这部分能力几乎没有系统性评测。

方法亮点：ToolMaze 采用二维设计——DAG 拓扑复杂度（控制任务图结构难度）× 工具扰动的 2×2 分类（显式 / 隐式 × 瞬时 / 永久）。「显式失败」是工具直接报错；「隐式语义失败」是工具返回看似正常但语义错误的输出，Agent 无法从返回值本身判断失败。3

与现有方法的对比：ToolBench 等基准测工具调用的成功率，但不区分失败类型，也不测失败后的恢复行为。ToolMaze 引入 Perturbation Recovery Rate（PRR）专门量化恢复能力。

量化实验：扰动在几乎所有模型上都导致性能下降；隐式语义失败下 PRR 比无扰动时平均下降约 37%，根因是 Agent 对工具输出存在系统性过度信任。复杂拓扑（DAG 深层节点）会让 Agent 陷入无意义的重试循环。关键发现：模型规模每提升 1 个量级，基础任务完成率提升速度是故障容错能力提升速度的 3.66 倍——也就是说，动态重规划是一个不被 scaling 覆盖的独立短板。3

ToolMaze benchmark 设计：DAG 拓扑复杂度 × 工具扰动二维框架 — ToolMaze 二维设计示意 3

数据和代码已开源：Zhudongsheng75/ToolMaze（GitHub）

4. OpenSkill：无监督约束下的开放世界 Agent 自进化

arXiv:2606.06741 | 预印本 | HF 18 upvotes

核心问题：现有 self-evolving agent 的方法假设部署时就有可用的学习环路，比如预先整理好的技能库、成功轨迹或验证器信号。但真实开放世界部署可能只给一个任务 prompt，什么都没有。

方法亮点：OpenSkill 把这个问题拆成两步——先从文档、代码仓库和网页中获取「扎根知识」（grounded knowledge）和「验证锚点」（verification anchors），再把这些材料合成可迁移的技能单元，并在自建的虚拟任务上打磨，而不依赖目标任务的答案作为监督信号。开放世界既是知识来源，也是实践环境。4

量化实验：三个 benchmark 和两种目标 agent 设置下，OpenSkill 在满足「无目标任务监督」约束的方法里取得最高自动化通过率。其自建验证器与 ground truth 对齐良好，尽管训练时从未见过答案。技能可跨模型迁移，无需针对具体模型重做适配。4

OpenSkill 框架：无目标监督下从开放世界资源自建技能与验证信号 — OpenSkill 自进化循环示意 4

项目代码：OpenLAIR/OpenSkill（GitHub）

5. SubtleMemory：长周期 Agent 的细粒度关系记忆辨别

arXiv:2606.05761 | 预印本 | HF 17 upvotes

核心问题：持久性 AI 助手（如 OpenClaw 类 agent）在长期交互中会积累大量相互关联的记忆。这些记忆可能互相强化、在不同语境下分叉，也可能直接冲突。当前的 long-term memory 基准几乎不评测 agent 是否能在下游任务里利用这种记忆关系——只测独立召回。

方法亮点：SubtleMemory 构建「关系控制的潜在语义 artifact」，通过生成互补（complementary）、微妙（nuanced）、矛盾（contradictory）三种变体控制记忆关系类型，并将这些记忆嵌入仿真用户-Agent 历史交互记录中，要求 Agent 在后续查询和指令里恢复分布式关系结构。5

基准规模：1,522 条评测实例，跨 10 条长历史，基础材料为 1,090 组关系控制的记忆变体集，覆盖用户相关和非用户相关两类查询。5

量化实验：评测了 6 个独立记忆系统、2 个带原生记忆模块的 Claw-style agent 和 3 个带插件记忆模块的 Claw-style agent。主要发现：现有系统在细粒度关系记忆辨别上整体偏弱；诊断协议显示，记忆保存、检索与下游推理三个阶段各有不同的能力缺口。5

SubtleMemory 基准：三类关系变体（互补/微妙/矛盾）嵌入长历史交互 — SubtleMemory 基准设计 5

项目地址：SubtleMemory（GitHub）

来源：Hugging Face Daily Papers（Jun 8, 2026）。论文均为预印本，未经同行评审。