上财大语言模型评测基准FinEval推出全新多维度评测数据集与评测结果

发布时间：2024-06-18 浏览次数：131

近日，上海财经大学统计与管理学院、数量金融与风险管理研究中心张立文副教授领导的金融大语言模型课题组（SUFE-AIFLM-Lab），在我校数据科学与统计研究院与实验中心超算平台的支持下，联合金融学院、滴水湖高级金融学院，推出最新FinEval大语言模型评测基准与结果，这一更新旨在推动金融AI技术的应用和安全性研究。该项目由上海财经大学统计与管理学院、数量金融与风险管理研究中心张立文副教授，技术顾问复旦大学大数据学院魏忠钰副教授，上海财经大学统计与管理学院博士生郭鑫、刘志强、硕士生刘赵伟以及课题组核心成员辛柏嬴、曹涵阳、蔡维格牵头完成。组内成员研究方向包括统计理论、大数据与人工智能分析、深度学习、量化投资和大模型等，具有统计、大数据、人工智能、计算机以及金融等复合背景。课题组汇总了FinEval四代评测结果，发布了FinEval中文语境金融领域评测总排行榜，反映了我院在金融领域AI研究的持续进展。本文将依次介绍FinEval四代评测基准与结果以及评测总排行榜。

FinEval一代金融学术知识是包含高质量多项选择题的集合，涵盖金融、经济、会计和证书等领域。它包括4661个问题，涵盖了34个不同的学术科目。FinEval一代提供了一个更全面的金融学术知识能力评估基准，利用了模拟考试数据，涵盖了广泛的大语言模型评估范围。在参与评估10个模型中，GPT-4表现出了卓越的能力，平均得分超过60，并且在其他所有独立类别中均表现最佳。同时，Qwen-14B-Chat以及XuanYuan-70B-Chat以及InternLM2-20B-Chat等国产开源模型也表现出色。此外，从模型大小方面来看，更大的模型也代表了相对更强的能力。

descript

FinEval第一代评测结果如下：

descript

FinEval二代金融行业知识是一个包含高质量主客观文本问答题的集合，涵盖投顾、投研、运营等领域。它包括1434个问题，涵盖了10个不同的行业应用场景。FinEval二代提供了一个更全面的金融行业知识能力评估基准，利用财经网站数据爬取+GPT-4生成的方式构造数据集，评估不同应用场景下大语言模型的泛化能力。从结果可以看出，在文本问答类型的金融任务中，GPT系列表现最好，国产开源模型也有较好的表现，排名靠前者的平均得分与GPT系列差距不大，还有一定的进步空间。

descript

FinEval第二代客观简答题与主观问答题评测结果如下：

descript

FinEval第三代金融安全能力侧重于评估模型在金融安全方面的能力，包括应用程序安全、密码学、恶意软件分析、内存安全、网络安全等多个维度。在最新的评测中，InternLM2-20B-Chat、Qwen-14B-Chat和Baichuan2-13B-Chat均展现了出色的能力，显示了国产模型在这些关键领域的实力和进步。

descript

FinEval第三代评测结果如下：

descript

FinEval第四代金融智能体评测则更广泛地考察了大模型在多种更高难度的金融任务中的表现，如思维链推理、检索增强、金融任务、长程对话和多文档问答等。在这些测试中，GPT系列模型排名仍然考前，GPT-4的平均得分更是接近90，而在国产模型中InternLM2-20B-Chat和Qwen-14B-Chat表现较好，平均得分超过80，国产模型的能力也在逐步上升。

FinEval第四代评测结果如下：

通过这一系列更新的评测标准，FinEval的发布不仅标志着我们在金融领域研究的深入，也反映出国内大语言模型在国际竞争中稳步提升的能力。这些评测结果显示了大模型技术在真实应用中的多样性和适应性，为国内金融行业提供了实际的参考。

FinEval中文金融领域评测总排行榜汇总了FinEval一代至四代的所有结果的加权平均(金融行业知识部分总得分为综合主客观题目评测的平均结果)，四代评测结果的权重则由每一代的题目数量除以FinEval题目总数量得到。从结果可以看出GPT-4表现最好，在四大维度上的平均得分仍然超过70，同系列的ChatGPT的平均得分也在60以上，说明OpenAI所开发的GPT系列模型仍处于行业领先地位。而在国内开源模型中，Qwen-14B-Chat以及InternLM2-20B-Chat排名靠前，平均得分也都超过60。同时，XuanYuan-70B-Chat平均得分超过60且超越了ChatGPT0.6分。对比通用模型与金融模型，通用模型的能力相对更强，但金融模型也有较好的表现。观察基于Baichuan-13B-Chat训练的金融模型DISC-FinLLM以及通用模型ChatGLM3-6B，二者表现仅有1.3分的差距，更进一步展示了金融模型的发展前景。

随着技术的不断进步，我们期待在未来的工作中，继续探索AI在更广泛金融场景下的应用，推动技术的实际落地和商业化进程。同时，我们也希望这些研究能激发更多的科研机构和企业关注并投入到金融AI技术的研究与开发中，共同推动金融科技的健康发展。

FinEval评估基准最新版本目前已发布，欢迎对大模型感兴趣的同学以及在数据、算力、金融等方面的学界或业界合作伙伴与张立文副教授联系。后续课题组将继续推出更多科研成果。

FinEval评估基准项目GitHub地址：https://github.com/SUFE-AIFLM-Lab/FinEval

论文地址：https://arxiv.org/abs/2308.09975

评测文档：https://fineval.readthedocs.io

联系邮箱：zhang.liwen@shufe.edu.cn