CMMLU

2个月前发布 0 0

CMMLU是什么 CMMLU是综合性的中文评估基准,专门用在评估语言模型在中文语境下的知识和推理能力,涵盖从基础学科到高级专业水平的67个主题。包括需要计算和推理的自然科学,需要知识的人文科学和社会科学,及需要生活常识的中国驾驶规则等。CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。CMMLU提供丰富的测试数...

收录时间:
2025-11-14
广告也精彩
正文上方广告位

CMMLU是什么

CMMLU是综合性的中文评估基准,专门用在评估语言模型在中文语境下的知识和推理能力,涵盖从基础学科到高级专业水平的67个主题。包括需要计算和推理的自然科学,需要知识的人文科学和社会科学,及需要生活常识的中国驾驶规则等。CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。CMMLU提供丰富的测试数据和排行榜,支持多种评估方式,如five-shot和zero-shot测试,是衡量中文语言模型性能的重要工具。

 

33b1f95cf89752db1ded5b007707da88

CMMLU的主要功能

  • 排行榜:展示不同语言模型在five-shot和zero-shot测试下的表现,帮助比较模型性能。
  • 数据集:提供开发和测试数据,支持快速使用和评估。
  • 预处理代码:提供提示生成方法,方便模型训练和测试。
  • 评估工具:支持多种评估方式,便于研究者和开发者测试模型能力。

如何使用CMMLU

  • 获取数据集
    • 从GitHub下载:访问 CMMLU GitHub页面:https://github.com/haonan-li/CMMLU/,在data目录中找到开发和测试数据集。
    • 通过Hugging Face获取:访问Hugging Face平台:https://huggingface.co/datasets/haonan-li/cmmlu,直接加载CMMLU数据集。
  • 准备测试环境
    • 安装依赖:确保安装了必要的Python库,如transformersdatasets等。
    • 克隆代码库:克隆CMMLU的GitHub仓库,获取测试代码和预处理工具。
正文底部广告位

数据统计

相关导航

评论上方广告位