2024年9月-2025年9月,上海财经大学项目团队针对大语言模型(LLMs)在统计学专业任务中评估标准缺失的现状,设计并构建了名为StatEval-Agent的系统化评估基准。该基准旨在系统化测评LLMs在处理完整、真实且复杂的统计数据分析任务中的综合能力,以弥补现有基准多侧重于常规任务、缺乏对统计理论深度与端到端问题解决能力考察的不足。
项目的核心在于其独特的数据集构建方法论。研究团队从《Annals of Statistics》、《Biometrika》等四大顶级统计期刊的模拟实验部分,提取了68个真实严谨的高质量数据分析问题的基准数据集。这些数据分析问题不仅具备高度的学术复杂性与现实意义,还提供了清晰的数据生成机制和可验证的基准真相,有效覆盖了多种统计建模场景与常见分析误区,为深度评估模型对数据生成、方法选择与结果解释的完整逻辑链条提供了坚实基础。
为实现高效、严谨的大规模测评,项目建立了一套自动化、可扩展的端到端评估系统。该系统流程涵盖:基于规范自动生成与校验模拟数据;要求被测模型结合问题背景与现有方法局限生成可执行代码,并允许多次尝试;最终由评审模型依据预设的多维度指标(如估计精度、鲁棒性、计算效率等)进行自动化评分,并综合推理质量得出最终评价,在保障评估逻辑一致性与数据质量的同时,显著提升了测评效率与可复现性。
总体而言,StatEval-Agent基准填补了现有工具在评估完整性、真实性与理论深度方面的空白,为横向比较不同模型性能、纵向推动模型统计推理能力优化提供了重要范本。未来可从开发更精细的自动化评估智能体、构建动态交互式基准、拓展至因果推断等多统计分支,以及建设开放共享平台等方向持续深化,从而进一步推动LLMs在科学研究与决策支持等高价值领域的可靠、深度应用。

