Skip to content

Latest commit

 

History

History

eval

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
 
 

DISC-Law-Eval Benchmark

  • 评测数据集:客观评测集主观评测集

  • 评测代码:运行 src/main.py 进行评测(使用 python src/main.py -h 查看要求的和可用的命令行选项)。模型设定见 src/models.py(其中模型路径需自行修改)。主观评测的 few-shot 样例见此目录。当运行评测代码时,模型回复将会被保存在 responses/ 文件夹下(格式与对应的评测数据集相同),而评测结果将会保存在 results/ 文件夹下(csv 格式)。评测代码完成后,评测结果将会被打印。如果评测代码未能正常完成,只需要重新运行直至其完成为止。已经得到的数据和评测结果不会被重复生成。您可以在此处查看关于我们使用的评测方法的更多详情。您也可以查看 ml3m 技术文档以便更好地理解我们的评测代码。

  • 评测结果: 此处保存了我们的技术报告中的评测结果。包括主观评测客观评测的样例