当前位置: 首页 > 实验平台 > 实验环境 > 正文

大模型评测体系

【来源:大模型评测体系 | 发布日期:2025-01-06 】

大语言模型促进了自然语言理解技术的新突破,也为法律人工智能发展提供了重大机遇。法律大语言模型——是基于基础大模型加入法律数据预训练,以及再结合法律任务数据进行微调后的领域型大语言模型——成为法律科技交叉领域的关注热点。在通用大语言模型问世的一年之内,据不完全统计,国内相关主体已经发布了20多个法律大语言模型。法律大模型能够基于通用和法律专业知识的学习、训练成果,实现多种智能化能力,支持各类司法任务。法律大模型智能服务能力包含语言理解、内容生成、知识问答和逻辑推理四大模块,12项能力。


第17页-1

为了全面、准确地评价法律大模型在司法场景中的真实表现,推动法律大模型的研发、评测和应用的规范化,由许建峰教授联合智慧司法技术总师系统、浙江大学、上海交通大学与阿里云等共同提出了行业首个《法律大模型评估指标和测评方法(征求意见稿)》。这是一套全面、系统、实用的法律大模型评估指标和测评方法,涉及到多个真实的司法任务,考察法律大模型处理真实任务的能力。法律大模型的评估指标体系分为两个层级,其中一级指标包括功能指标、性能指标、安全性指标和质量指标 4 项内容,二级评估指标是对各项一级评估指标的分解细化。两级指标体系框架,如图所示。


第19页-2

目前智慧司法实验室汇集了当前国内23个法律大模型,并已经在高性能环境部署交互式API集成面板,老师和学生们可以使用简单的操作命令,独立运行研究所需的法律大模型,为法律大模型的应用和测评奠定了基础。


参考文献:

许建峰,刘程远,况琨,何浩,孙常龙,李宝善,魏斌,杨力,金耀辉,吴飞. 法律大模型评估指标和测评方法[J]. 中国人工智能学会通讯, 2024, 2(14):10-22.