返回 科研
🔬 科研 2026-03-15 05:29

当AI开始自己做科研:FARS、AI Scientist与"科研工厂"革命全景

当AI开始自己做科研:FARS、AI Scientist与"科研工厂"革命全景 调研时间:2026-03-15 字数:约 9000 字 主题:AI 自动化科研系统...

#AI科研
BenszConan 的头像

BenszConan

管理员

文章目录

当AI开始自己做科研:FARS、AI Scientist与"科研工厂"革命全景

调研时间:2026-03-15 字数:约 9000 字 主题:AI 自动化科研系统——知名项目全景梳理


序言:科研的"工业化革命"正在发生

2026年3月初,一个名为 FARS 的系统安静地完成了一件此前从未有任何系统完成的事:它独立运行了整整 228 小时,期间无需任何人工干预,自主提出假设、设计实验、执行代码、分析数据,最后写成 100 篇完整的学术论文

这不是科幻小说的情节,而是由一家名为 Analemma 的公司真实完成的公开直播实验。

与此同时,Sakana AI 的 AI Scientist-v2 在 ICLR 2025 研讨会上通过了双盲同行评审——这是史上第一篇全程由 AI 生成、未经人类修改的论文通过正规评审的记录。

这一切发生得如此之快,以至于学界还未来得及形成共识,产业界已经开始了下一轮军备竞赛:一家由前 OpenAI 和 DeepMind 核心研究员创立的公司,凭一个想法融到了 3 亿美元种子轮

本报告系统梳理当前 AI 自动化科研领域最值得关注的项目,分析其技术路径、实际能力与潜在影响。


FARS:科研流水线的第一次真实压力测试

什么是 FARS

FARS(Fully Automated Research System,全自动科研系统)是由 Analemma AI 开发的多智能体研究自动化系统。2026 年 2 月下旬至 3 月初,Analemma 以公开直播的形式启动了 FARS 的首次生产部署实验——目标是连续自主生产 100 篇研究论文。

最终结果:FARS 在 228 小时 28 分 33 秒内提前完成目标,共产生 244 个研究假设,生成 100 篇短论文,消耗约 114 亿个 token,总成本约 10 万美元(约合每篇 1000 美元)。

换算成工业节奏:平均每 2 小时 17 分钟完成一篇论文

系统架构

FARS 并非单一模型,而是一个四模块顺序流水线

模块 功能
Ideation(选题) 自主生成和筛选研究假设
Planning(规划) 设计实验方案与技术路径
Experiment(实验) 执行代码、跑模型、采集结果
Writing(写作) 撰写完整论文并格式化

多个研究任务在流水线中并行推进——前一个课题在写作阶段时,下一个课题已在规划阶段,形成典型的工厂节拍。

Analemma 为 FARS 专门搭建了拥有 160 块 GPU 的计算集群,并允许其调用几乎所有主流开源和闭源大模型。

论文质量如何

这是最关键的问题。Analemma 采用了斯坦福大学开发的 AI 评审系统 Agentic Reviewer(paperreview.ai),以 ICLR 评审标准对 100 篇论文进行统一评分:

  • FARS 论文平均分:5.05
  • ICLR 2026 人类投稿平均分:4.21
  • ICLR 2026 录用论文平均分:5.39

结论相当微妙:FARS 的平均质量明显高于"普通人类投稿",但仍略低于平均录取线。换句话说:批量生产的 AI 科研,已经优于大多数人类投稿,但尚未达到可批量录用的水准。

遗留问题与后续计划

  • 由于 arXiv 政策不允许以生成式 AI 为作者,FARS 论文暂时无法上传至 arXiv。Analemma 正在寻找其他可索引渠道分发通过人工审查的论文。
  • 系统性人工评审正在进行中,完整质量评估报告尚未发布。
  • Analemma 表示将基于 FARS 推出研究辅助产品,目标是将科学发现"从以人为核心的手工艺变成可规模化的工业生产"。

AI Scientist:史上第一篇通过同行评审的全 AI 论文

Sakana AI 的里程碑实验

Sakana AI 是由 Transformer 原始论文作者 David Ha 联合创立的日本 AI 研究公司,其推出的 AI Scientist 系列是目前最受学界关注的端到端研究自动化系统之一。

2025 年 3 月,Sakana AI 宣布一件具有历史意义的事:AI Scientist-v2 生成的论文,通过了 ICLR 2025 研讨会的双盲同行评审——这是有记录以来第一篇全程由 AI 生成(从假设到最终文本,无人类修改)且通过正式评审的学术论文。

技术架构:树搜索驱动的自主研究

AI Scientist-v2 相较于 v1 有几项关键升级:

  • 不依赖人类代码模板:v1 需要人类预先提供实验代码框架,v2 完全自主生成
  • 渐进式智能体树搜索(Progressive Agentic Tree Search):用专门的"实验管理智能体"统筹协调,通过搜索树探索多条研究路径并择优推进
  • 视觉语言模型(VLM)反馈循环:迭代优化论文图表的内容与美观度
  • 跨领域泛化能力:可应用于不同的机器学习子领域,不局限于特定方向

整体流程覆盖:提出假设 → 设计实验 → 编写执行代码 → 结果分析 → 撰写论文 → 内部评审打磨。每次运行成本约 15-20 美元(使用 Claude 3.5 Sonnet)。

ICLR 实验的细节与争议

Sakana AI 与 ICLR 2025 某研讨会组织方合作,将 AI Scientist-v2 生成的 3 篇论文投入正式的双盲评审流程(43 篇论文中有 3 篇来自 AI,评审人知晓这一事实但不知道哪些是 AI 生成的)。

通过评审的那篇论文题为《组合正则化:增强神经网络泛化能力中的意外障碍》,获得平均分 6.33,位于投稿排名前 45%,达到录用标准。但 Sakana AI 在透明度考量下主动撤稿,未正式发表。

争议点:研讨会的录用率高于主会场,且 Sakana AI 团队有人工参与筛选要投的论文——批评者指出这说明"人类+AI 可以产出有竞争力的成果",而非"AI 独自完成了科学进步"。

尽管如此,这一结果仍是整个领域的重要里程碑。代码已完全开源:github.com/SakanaAI/AI-Scientist-v2


AI-Researcher + Novix:NeurIPS 2025 Spotlight 与产品化

来自香港大学的全流程自动化研究系统

AI-Researcher 是香港大学数据系统与智能计算实验室(HKUDS)推出的自主研究系统,以 NeurIPS 2025 Spotlight 论文亮相,作者包括唐佳滨、夏亮浩、李中航和黄超。

其核心目标是:通过 LLM 的数学推理与代码能力,以最小人工干预完成完整研究流程——从文献综述、假设生成、算法实现,到论文撰写。

系统的四大模块

模块 功能说明
Resource Collector(资源采集) 自动从 arXiv、IEEE Xplore、ACM、Google Scholar、GitHub、Hugging Face 等平台批量采集文献、代码和数据集
Resource Filter(质量筛选) 基于引用量、代码维护状态、数据完整性等指标筛选高质量资源
Idea Generator(想法生成) 综合文献与代码,评估现有方法局限、识别研究空白、提出新方向
Paper Writing(论文撰写) 自动生成符合发表格式的研究论文

该系统还附带完整的基准测试套件Web GUI 界面,降低使用门槛。

评估方式颇为严格:对每篇 AI 生成的论文,系统会与人类同期论文配对比较,通过模拟 ICLR/NeurIPS 评审流程,在 -3 到 +3 的 7 分量表上打分(正分代表 AI 优于人类)。

Novix:AI-Researcher 的商业化产品

该团队基于 AI-Researcher 推出了商业化产品 Novix,定位为"全球首个生产就绪的 AI 科学家协作平台"(novix.science),主要能力涵盖:

  • 从概念到发表的研究加速流水线
  • AI 驱动的假设生成与思路探索
  • 自主算法创新
  • 自动化数据分析与可视化
  • 科学可复现性引擎
  • 系统性文献综述

Google AI Co-Scientist:Gemini 2.0 驱动的多智能体假设生成

定位:生物医学研究的虚拟合作者

2025 年 2 月,Google Research 与 Google DeepMind 联合发布 AI Co-Scientist,这是一个基于 Gemini 2.0 的多智能体系统,专为协助科学家生成新假设和研究提案而设计。

与 FARS 或 AI Scientist 更侧重"产出论文"不同,Google AI Co-Scientist 的定位更像一个高水平的想法共创伙伴——它的输出是经过深度推理的研究假设,而不是完整论文。

六种专业智能体协同运作

系统内部由六类智能体组成协作生态:

智能体 职责
Supervisor(监督者) 接收研究目标、编排工作流
Generation(生成者) 检索文献并投射出新方向
Reflection(反思者) 模拟同行评审,检查准确性与新颖性
Ranking(排名者) 让假设相互辩论,按优劣排序
Proximity(聚合者) 去重相似假设,聚类整合
Evolution(进化者) 对优质假设进行合成、类比、精炼

其核心设计哲学是**"生成-辩论-进化"**,用 Elo 自动评估指标驱动迭代,随着计算时间延长,输出质量持续提升。

已有实验室验证的真实案例

  • 提出了**急性粒细胞白血病(AML)**的新型药物再利用候选方案,并在湿实验室得到验证
  • 揭示了肝纤维化的表观遗传靶点,同样通过实验确认
  • 帝国理工学院,研究人员发现 AI Co-Scientist 仅用数天便独立推导出了他们团队耗时数年才得出的抗菌素耐药性机制假设

论文原文:arXiv:2502.18864


IRIS:给研究者的"思维树"假设生成工具

人机协作的假设生成系统

IRIS(Interactive Research Ideation System) 由 Aniketh Garikaparthi 等人开发,于 ACL 2025 系统演示赛道发表(arXiv:2504.16728)。

IRIS 的定位与上述系统有明显区别:它不是要替代研究者,而是通过**人机协作(Human-in-the-loop, HITL)**增强假设生成质量。

核心技术:MCTS 探索假设空间

IRIS 将**蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)**引入科研假设生成,这在此前更多出现于棋类游戏和代码生成领域。

其逻辑是:给定研究目标 G,IRIS 构建一棵以 G 为根节点的搜索树,每个状态节点包含当前研究方案、质量评估、评审反馈和检索知识;每次扩展通过 UCT 算法(UCB for Trees)决定探索还是利用——既可以深化高质量路径,也可以探索未知方向。

由于科学假设质量难以客观量化,IRIS 用LLM 评审智能体作为代理奖励函数,从多个维度打分。

两种工作模式

  • 半自动模式:研究者随时插入,提供方向反馈、触发检索或自定义评分
  • 全自动模式:系统自主通过 MCTS 探索并优化假设

用户研究显示:研究者参与交互后,假设质量绝对分数平均提升 0.5 分,ELO 排名提升 12 分(树深度为 3 时)。

代码开源:github.com/Anikethh/IRIS-Interactive-Research-Ideation-System


Periodic Labs:3 亿美元押注"机器人做物理实验"

不只是写论文,而是动手做实验

前述所有系统,本质上都是在计算机世界里做科研——运行代码、分析数据、生成论文。但真正意义上的科研往往需要在物理世界中进行实验。

Periodic Labs 正在解决这个问题。

2025 年 9 月,这家公司以 3 亿美元种子轮高调出现在公众视野,成为史上规模最大的 AI 科研初创种子融资之一,投资方包括 Andreessen Horowitz、英伟达、Jeff Bezos、Eric Schmidt、Jeff Dean 等。

创始团队:最硬核的科研 AI 背景

创始人 此前经历
Liam Fedus OpenAI 前研究副总裁,ChatGPT 核心开发者之一
Ekin Dogus Çubuk Google DeepMind 材料与化学团队负责人,材料发现模型 GNoME 联合创造者

团队还招募了 o1/o3 模型的创建者 Alexandre Passos、微软 GenAI 材料科学工具的开发者 Matt Horton 等顶尖人才。

技术路径:让自然成为强化学习环境

Periodic Labs 的核心洞见是:LLM 已经"吃完了"互联网——从现有文本中能获取的增量越来越少,必须通过物理实验产生全新的训练数据。

其做法是搭建真实的机器人实验室:机器人混合前驱体、控制温度、合成新材料,然后表征性质、分析数据、迭代方案——形成一个闭环的自主科学实验流程。

"当你预测一种材料的性质并合成它时,你会立刻知道自己是否正确——自然本身就是强化学习的奖励函数。"

当前首要目标:发现性能更好、能耗更低的新型超导体,以推动下一代交通、输电网络、Moore 定律延续、太空旅行和核聚变。


更广泛的阵营:其他值得关注的相关项目

AlphaEvolve(Google DeepMind)

DeepMind 推出的 AlphaEvolve 将大语言模型与进化算法结合,用于发现新数学结构和优化计算机系统算法。目前它已在 Google 内部静默部署,取得了实质性成果:

  • 优化 Gemini 架构中的关键核函数,速度提升 23%
  • 回收 Google 全球 0.7% 的算力资源

AlphaEvolve 的突破性在于它不仅仅优化已知方案,而是能够发现人类工程师从未想到过的新算法

ARISE:自动化综述论文生成

ARISE(Agentic Rubric-guided Iterative Survey Engine) 是专门为学术综述论文自动化设计的系统(arXiv:2511.17689)。

其特色在于基于评审标准的迭代细化循环:多个评审智能体独立评估草稿的不同维度(主题扩展、引用质量、文献综述、手稿结构),不断打磨直至达标。评审池使用多家公司模型(GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet)以减少偏差。

评测中 ARISE 平均质量分达到 92.48 分,在综合性、准确性和学术规范方面均优于基线方法。

OpenAI 的科研自动化路线图

OpenAI 首席科学家 Jakub Pachocki 明确表态:自动化科学发现是 OpenAI 的核心优先级之一

OpenAI 已给出一个颇为具体的时间表:

  • 2026 年 9 月:实习生级别的研究助理
  • 2028 年:能独立承担大型研究项目的全自动 AI 研究员

Pachocki 将其定义为"能够自主完成更大型研究项目的系统"——不是人类研究 AI,而是 AI 本身在做研究。

OpenAI 还推出了 Prism,一个 LaTeX 原生的科学写作协作环境,将 GPT-5.2 直接集成到写作、引用和投稿准备全流程中。

Google DeepMind 的物理实验室

DeepMind 正在英国开设其首个自动化材料研究设施,使用机器人和 AI 开展物理实验,聚焦于新型超导体材料的发现。这与 Periodic Labs 的方向高度重合,标志着物理世界的 AI 科研正在从概念走向基础设施建设。


质量与可信度的核心争议

AI 科研的四大已知局限

1. 新颖性天花板

Google DeepMind CEO Demis Hassabis 在 2026 年的采访中坦言:当前 AI 系统仍然无法真正提出关于世界运作方式的全新假设。他估计距离 AI 实现"真正的创新与创造力"还需要 5 到 10 年。

2. 幻觉与可靠性

LLM 的"幻觉"问题在科研场景中尤为危险。AI 生成的实验数据、引用文献、推导逻辑都可能存在难以发现的错误,而这些错误被包裹在流畅的学术写作中,辨别难度极高。

3. 论文通货膨胀

一项研究发现,研究者采用 AI 写作工具后,论文发表数量提升了高达 50%,但大量"打磨精良却缺乏实质价值"的工作正在淹没真正重要的研究成果,使同行评审面临前所未有的压力。

4. 创意来自哪里

批评者指出:FARS 生产的 100 篇论文,选题范围和研究方式存在同质化倾向——因为 AI 的"创意"本质上来自对已有文献的提炼与重组,难以跨越现有范式的边界。

同行评审体系的压力

arXiv 的政策禁止以 AI 为作者,但这并不能阻止 AI 辅助或主导的论文以人类名义投稿。各大顶会开始讨论:

  • 是否需要强制披露 AI 生成程度?
  • 如何识别 AI 生成的数据造假?
  • 大规模 AI 投稿是否会摧毁现有评审生态?

NeurIPS 2025 专门举办了关于 AI 科研影响的研讨工作坊。有学者在论文中呼吁顶级学术会议应当引领 AI 政策共识形成,否则整个同行评审体系将面临系统性危机。


全景对比:六个项目的坐标系

项目 研究机构 核心模式 覆盖阶段 当前状态
FARS Analemma AI 全自动流水线,虚拟实验 选题→实验→写作 公开部署完成,产品化中
AI Scientist-v2 Sakana AI 端到端 + 智能体树搜索 假设→实验→论文→评审 开源,史上首篇通过评审
AI-Researcher / Novix 香港大学 / Novix 全流程自动化 + 商业化 文献→假设→实验→论文 NeurIPS 2025 Spotlight,已商业化
AI Co-Scientist Google 多智能体假设生成 文献→假设生成 Google Research 内测中
IRIS ACL 2025 人机协作 + MCTS 假设探索 假设生成 开源
Periodic Labs 前 OpenAI/DeepMind 团队 物理机器人实验室 + AI 真实物理实验→材料发现 3亿美元种子轮,建设中

结语:科学发现的重心正在转移

这场 AI 科研革命并不是某一家公司的单点突破,而是整个领域同步涌现的系统性变化。

FARS 证明了工业化生产论文不是幻想,尽管质量仍有提升空间。AI Scientist-v2 证明了AI 生成的论文能骗过同行评审,这既令人振奋,也令人警惕。Google AI Co-Scientist 证明了AI 能在生物医学领域提出可验证的真实假设。Periodic Labs 则在下注更大的未来:当机器人开始在真实世界做实验,AI 科研将彻底突破"只能处理数字世界"的局限

每一个项目都在用不同的方式回答同一个问题:科学发现这件事,需要人类全程参与吗?

目前来看,答案正在从"是"变成"不一定"。

未来五年最值得关注的,不是某篇论文的分数,而是科研范式本身会不会被重写——从"人类提问、人类解答",变成"人类提问、AI 穷举",最终演化成"AI 自主发现、人类验证"。

这一转变已经开始。


参考链接

主要项目

资本与产业动态

批评与争议

背景与趋势

同频道推荐

查看全部 →

评论区

0 条评论
游客只能浏览内容;登录后即可参与评论。
还没有评论,欢迎发表第一条看法。