6 月 25 日 · 今日精选

3 条 · 来源 RSS / X / Hacker News

一条 DeepMind 的 RL benchmark 发布,加两条偏架构的讨论。整体比较安静。
RSS DeepMind Blog · 模型

v2 加了双臂操作和长程任务,明显更难。社区已经开始抱怨 baseline PPO 跑不动——大概率 model-based 方法会重新流行。

X swyx@swyx

和我之前那篇 Agents in 2026 想法基本一致。单 agent + 好工具 > committee of agents。

Hacker News 1204 points

评论区比帖子有意思。共识是:codegen + 文档检索是真用,自动 PR 还是偶尔好玩偶尔灾难。