一个全面的中文基础模型评估套件 收录说明: 1、本网页并非 C-Eval 官网网址页面,此页面内容编录于互联网…
大规模多任务语言理解基准 收录说明: 1、本网页并非 MMLU 官网网址页面,此页面内容编录于互联网,只作展示…
Hugging Face推出的开源大模型排行榜单 收录说明: 1、本网页并非 Open LLM Leaderb…
一个综合性的大模型中文评估基准 收录说明: 1、本网页并非 CMMLU 官网网址页面,此页面内容编录于互联网,…
中文通用大模型综合性测评基准 收录说明: 1、本网页并非 SuperCLUE 官网网址页面,此页面内容编录于互…
以众包方式进行匿名随机对战的LLM基准平台 收录说明: 1、本网页并非 Chatbot Arena 官网网址页…
智源研究院推出的FlagEval(天秤)大模型评测平台 收录说明: 1、本网页并非 FlagEval 官网网址…
上海人工智能实验室推出的大模型开放评测体系 收录说明: 1、本网页并非 OpenCompass 官网网址页面,…
全方位的多模态大模型能力评测体系 收录说明: 1、本网页并非 MMBench 官网网址页面,此页面内容编录于互…
H2O.ai推出的基于Elo评级方法的大模型评估系统 收录说明: 1、本网页并非 H2O EvalGPT 官网…