6 月 25 日 · 今日精选

3 条 · 来源 RSS / X / Hacker News

一条 DeepMind 的 RL benchmark 发布，加两条偏架构的讨论。整体比较安静。

RSS DeepMind Blog · 模型

v2 加了双臂操作和长程任务，明显更难。社区已经开始抱怨 baseline PPO 跑不动——大概率 model-based 方法会重新流行。

X swyx@swyx

和我之前那篇 Agents in 2026 想法基本一致。单 agent + 好工具 > committee of agents。

Hacker News 1204 points

评论区比帖子有意思。共识是：codegen + 文档检索是真用，自动 PR 还是偶尔好玩偶尔灾难。