大模型评测体系-智慧司法研究院

当前位置：首页 > 实验平台 > 实验环境 > 正文

大模型评测体系

【来源：大模型评测体系 | 发布日期：2025-01-06 】

大语言模型促进了自然语言理解技术的新突破，也为法律人工智能发展提供了重大机遇。法律大语言模型——是基于基础大模型加入法律数据预训练，以及再结合法律任务数据进行微调后的领域型大语言模型——成为法律科技交叉领域的关注热点。在通用大语言模型问世的一年之内，据不完全统计，国内相关主体已经发布了20多个法律大语言模型。法律大模型能够基于通用和法律专业知识的学习、训练成果，实现多种智能化能力，支持各类司法任务。法律大模型智能服务能力包含语言理解、内容生成、知识问答和逻辑推理四大模块，12项能力。

第17页-1

为了全面、准确地评价法律大模型在司法场景中的真实表现，推动法律大模型的研发、评测和应用的规范化，由许建峰教授联合智慧司法技术总师系统、浙江大学、上海交通大学与阿里云等共同提出了行业首个《法律大模型评估指标和测评方法(征求意见稿)》。这是一套全面、系统、实用的法律大模型评估指标和测评方法，涉及到多个真实的司法任务，考察法律大模型处理真实任务的能力。法律大模型的评估指标体系分为两个层级，其中一级指标包括功能指标、性能指标、安全性指标和质量指标 4 项内容，二级评估指标是对各项一级评估指标的分解细化。两级指标体系框架，如图所示。

第19页-2

目前智慧司法实验室汇集了当前国内23个法律大模型，并已经在高性能环境部署交互式API集成面板，老师和学生们可以使用简单的操作命令，独立运行研究所需的法律大模型，为法律大模型的应用和测评奠定了基础。

参考文献：

许建峰,刘程远,况琨,何浩,孙常龙,李宝善,魏斌,杨力,金耀辉,吴飞. 法律大模型评估指标和测评方法[J]. 中国人工智能学会通讯, 2024, 2(14):10-22.

打印

大模型评测体系

联系我们