与以往侧重于考察模型记忆能力或遵循固定流程完成任务的基准测试不同,GeneBench-Pro 旨在模拟真实的科研场景,要求模型在面对“不清晰、不完整,甚至夹杂干扰信息的数据”时,能够进行判断和分析并得出结论。
GeneBench-Pro 的测试内容涵盖了基因组学、定量生物学以及转化医学等多个领域,总计包含 129 道题目,这些题目分布在 10 个主要领域和 21 个子领域之下。具体研究方向包括统计遗传学、群体遗传学、功能基因组学和蛋白质组学等。每道题目都会为模型提供一份贴近实际科研环境的数据集,并附带简要的实验背景描述以及与后续决策相关联的目标问题。模型需要自主完成数据探索、分析方法的选择,并在过程中不断调整策略,最终给出答案。
为规避传统长流程基准测试中常见的评分误差,OpenAI 在构建 GeneBench-Pro 时,将合成数据作为主要方式。这是因为使用历史真实数据出题时,往往存在多种可行的分析路径,可能导致模型即使采用错误方法也恰好获得正确答案。
通过使用合成数据,OpenAI 能够完全掌握数据的因果结构和生成过程,从而更精确地评估模型是否真正理解了问题,而非仅仅走了“捷径”。
目前,OpenAI 已在 Hugging Face 上公开了 10 道 GeneBench-Pro 的示范性题目,并提供了交互式界面供外部研究人员试用。未来,官方计划将其中 50 道题目开放给 Artificial Analysis 进行第三方独立评估,以检验不同模型在这一基准测试上的实际性能。