科技计划项目AI 评审实施经验及启示

一、绪论

在科研领域，科技计划项目里立项前评审专家的主观臆断、学术不精、关系票等现象，让科研工作者对现行科学评价体系的公正性、对科研项目评审排名及立项结果的准确性产生质疑。这些不公正、不客观的现象，严重阻碍着科研事业的健康发展，也让我们迫切需要寻找新的科学评审评价方式。在此背景下，AI 在科学评价中的应用展现出巨大潜力，通过引入先进的算法和大数据分析，能够更加客观的评估科研成果价值，有望成为打破困境、重塑科研评审评价的关键力量。

二、国内实施AI 评审情况

目前，多个城市在政务、科研、产业等领域积极探索AI 技术的应用，其中“AI 评审”相关实践主要集中在以下几个方面：

1. 政务与公共服务领域

北京市科委：在科研项目申报中采用 AI 进行形式审查（如查重、格式校验）。

上海“一网通办”平台：AI 自动预审企业提交材料，减少人工复审时间。

深圳已在教育、医疗等部分领域政府投资项目逐步推进应用“ ^⋅AI+ 评审”模式，利用 AI 能力快速完成文档解析、关键信息提取、合规性初筛等工作，大幅减少人工重复劳动，形成“AI 为主力、人工做决策”的新型工作模式，即AI 完成 70% 基础工作，人工专注 30% 核心决策。

杭州余杭区（未来科技城）：在科技项目评审中引入 AI 辅助技术查新和重复性检测。

2. 科研与学术评审

国家自然科学基金委：试点AI辅助项目申请书的形式审查（如格式、字数等）。

部分高校（如清华大学、上海交大）：在论文初筛或科研奖励评审中尝试AI 查重或学术不端检测。

三、武汉开展科技计划项目AI 评审谋划

1、AI 评审实现的原理和路径

AI 具备超越人类的知识整合能力、强大的数据处理能力和模式识别能力，且以 GPT-4、文心一言为代表的大语言模型已展现出强大的文本生成能力，因此AI 在科研领域的评审评价中展现出巨大的潜力。

AI 评审是基于人工智能大语言模型训练一位项目 AI 评审专家，在项目召开现场专家评审环节之前，先由 AI 评审专家利用大模型按照相同的评分标准和要求，理解项目各类信息，利用 AI 大模型的的深度思考、逻辑推理能力，综合给出打分和详细评审意见。使用AI 专家评审，能带来一定效率提升和成本节约，但是项目初期 AI 专家还不成熟的情况下，可以先试用 AI 专家评审作为辅助决策参考，后续根据使用情况逐步扩大使用范围和场景。

基于 AI 大语言模型的深度思考、逻辑推理能力，武汉市科创局选择以“自然科学基金类项目”作为初步验证场景，通过脱敏后的历史项目及评审数据训练大模型学习人类专家评审打分的标准，获得基础的评审和打分能力，再根据 AI 评审结果较为正确给于奖励、偏差较大给于惩罚的强化学习方法，提高AI 评审和打分的准确性和合理性。

AI 评审专家的训练流程，大概分为整理和划分数据集、基座模型选择和微调、强化学习训练、模型效果评测等几个步骤，训练完成后，最终的AI 专家能完成基于指定评分标准的项目评分工作。

2、大模型选择及硬件资源选型

大模型选择：通过与其他模型在成本、社区生态、国产化、中文支持和迭代更新等方面的比选，最终选择 DeepSeek 大语言模型作为 AI评审的基座模型。一般而言，模型参数量越大，完成通用领域任务效果越好，但所需的硬件成本高很多。AI 评审更符合单一任务模型使用场景，一定的参数量配合领域知识的强化学习，在相对较低成本硬件环境上即可运行，综合性价比更高。综合实际测评效果，及所需硬件成本考虑，最终选择部署DeepSeek-14B 参数量的模型来满足AI 评审的需求。

硬件资源选型：由于科技项目评审信息属于不可公开敏感信息，拟采取私域部署 DeepSeek 大语言模型，依据关于算力采购和使用的相关文件规定，通过综合比选支持 DeepSeek 的各型号国产化主流显卡硬件资源，最终选择英伟达A6000 GPU 作为部署环境配置。

四、开展评审情况梳理

武汉市科技项目AI 评审的实现采取“分步实施、逐步推进”的方式，先期在内部系统部署DeepSeek 大模型，选择以“自然科学基金类项目”作为初步验证场景，开发 AI 评审系统，并对 2025 年自然科学基金进行了AI 初评，自动生成“AI 评审专家评分”及“AI 专家评审意见”。

以 2025 年探索计划评审项目 31 组数据进行分析，正负分数差 5 以内的 371 项（占比 57.16% ），排名差 3 以内的 242 项（占比 37.28% ），AI 评审排名与专家评审排名均在前 5 的 53 项（占比34.19% ）。

今年 AI 评审分数明显高于专家评审，且按分组来看评分排名的相关性还有待提高，分析原因可能有如下：

1、AI 评审模型训练基于 2024 年探索计划评审结果，由于 2025 年探索计划在评价指标、评审专家人数及计分规则上较2024 年均有变化，AI 评审模型还无法适应新的变化，导致分数偏高。2、AI 评审只能针对单个项目进行评价无法控制某个评审组内的通过比例，而专家评审可控制所分配的组内项目通过比例，导致二者在组内评分排序上呈现出相关性不高。

五、几点启示

1、由于 AI 缺乏真正的认知理解能力，难以把握学术研究中微妙的语境和深层逻辑关系，完全依赖于数据和规则，因此 AI 评审技术瓶颈依然显著，需要大量的评审数据来实验验证AI 专家的可靠性。

2、目前关于 AI 的法律法规还不够完善，大模型中使用的数据不可避免会涉及一些敏感数据，因此数据的安全保密和隐私保护都需要采取相应的措施，避免数据泄露、非法访问等安全威胁。

3、由于目前训练时间和训练数据的局限性导致目前 AI 评审结果还不能完全满足评审参考的需求，仅依靠大模型短期内难以完全替代人类专家的经验和判断，还需持续提供评审相关数据供模型进行训练，不断优化AI 评审结果。