2024年9月-2025年9月,围绕大语言模型(LLM)在统计推理能力评估中存在的学科覆盖不足、评估维度单一等问题,上海财经大学项目团队构建了聚焦于统计学前沿文献的专项评测基准——StatEval-Research。
项目以《统计学年刊》(AOS)、《美国统计协会杂志》(JASA)等13种顶级统计学期刊在2023至2025年间发表的396篇论文为数据源,通过自动化提取与人工核验相结合的处理流程,对论文中的定理、证明及关联逻辑链进行高保真结构化提取与语义重构,最终构建了包含480个“定理-证明”评测单元的系统化数据集,确保了评估的学术前沿性与逻辑完整性。
在评估方法上,项目提出了“关键步骤提取-多维度评分”的两阶段框架。首先结构化解析模型回答,提取关键推理步骤;随后从推理准确性、步骤完备性、最终答案正确性三维度进行评分与加权求和。此框架突破二元评判,实现了对模型推理过程的细粒度、多维度评估。项目进一步提出一致性分数与置信分数两个创新性指标,分别衡量模型执行的稳定性与答案的可信度,深化能力诊断。
基于该基准对LLaMA、GPT、Claude、Gemini等主流模型的系统评估表明,其能有效区分不同模型在复杂统计推理任务上的能力差异,验证了评估体系的有效性与区分度。
本项目不仅为统计学领域的大模型能力评估提供了严谨的基准与方法论,其构建的方法论框架也为处理其他学科的学术文献评估提供了可复制的技术路径,未来可通过扩展学科范围、丰富任务类型、推动评估自动化,进一步将该基准建设为开放协同的科研基础设施,服务于大模型在科学研究中的能力评估与应用探索。

