ARIS: 让 AI 在你睡觉时做科研

科研自动化的痛点

做过 ML 研究的人都知道，一个完整的研究周期要经历多少重复劳动：读论文、找 idea、写代码、跑实验、分析结果、写 paper、回应审稿意见… 而这些任务往往被割裂在不同的工具里，上下文不断丢失。

最近发现的一个有趣项目 ARIS（Auto Research in Sleep），尝试用 Claude Code 的自定义 Skill 系统把整个科研流程串起来。核心理念很简单：让 Claude 在你睡觉时干活，醒来时论文已经被审了好几轮。

ARIS 的设计亮点在于跨模型协作：

两个模型互不评审自己的输出，形成真正的反馈闭环。

技术上 Claude 的 subagent 可以同时承担执行和审稿，但容易陷入局部最优——同一个模型审自己的东西会有盲区。

作者打了个有趣的比方：单模型自审是 stochastic bandit（噪声可预测），跨模型审稿则是 adversarial bandit（审稿者会主动找茬）——而后者天然更难被「糊弄」。

至于为什么是两个模型而不是更多？因为 1→2 的收益最大，增加到 3、4 个审稿人只会提升 API 开销，边际收益递减。

ARIS 提供几条核心命令：

给一个研究方向，ARIS 自己搞定全套：

/research-pipeline "离散扩散语言模型的 factorized gap"

有篇论文想改进？把论文链接和代码仓库给它：

/research-pipeline "改进方法 X" \
  --ref https://arxiv.org/abs/2406.04329 \
  --repo https://github.com/org/project

流程是：读论文 → 分析弱点 → 克隆代码 → 生成改进方案 → 跑实验 → 写 paper。

审稿意见来了也不用慌：

/rebuttal "paper/ + reviews" --venue ICML --limit 5000

系统会解析每条意见、制定策略、起草回应，并确保不编造、不过度承诺、全覆盖三道安全门。

ARIS 的另一个吸引我的点是零依赖。整个系统就是纯 Markdown 文件：

每个 skill 就是一个 SKILL.md，任何 LLM 都能读懂。你可以把它迁移到 Codex CLI、Cursor、Trae、Windsurf 或者其他 agent 框架，工作流照样跑。

项目展示了两篇完全由 ARIS 完成的论文：

论文	评分	会议	作者	配置
CS 论文	8/10 “clear accept”	CS 会议	@DefanXue & @Monglitay	Claude + GPT-5.4
AAAI 论文	7/10 “good paper, accept”	AAAI 2026	@xinbo820-web	纯 Codex CLI

ARIS 的价值不只是「自动化」，而是把科研流程从「人驱动」变成「流程驱动」。研究者从执行者变成策展人，把精力集中在定义问题和判断方向上，而具体的 dirty work 交给 AI。

当然，这种工作流更适合偏工程、偏实验的 ML 方向。对于需要深度数学推导或者领域洞察的研究，AI 还替代不了人类的直觉。但作为一个快速原型验证工具，ARIS 的思路很值得借鉴。

项目地址: https://github.com/jhfnetboy/ARIS
核心: Claude Code + GPT-5.4 / Codex CLI 双模型协作