(资料图片仅供参考)
6月20日消息,据内部人士透露,百度文心大模型3.5版本已内测可用。早在5月末中关村论坛上,百度创始人、董事长兼CEO李彦宏透露,百度大模型产品“文心一言”的“母本”将迎来3.5版本,距今时隔不到一个月。 最新版本文心大模型达到了怎样的实力?在公开测试集上进行的基础模型少样本(Few-Shot)评测显示,文心大模型3.5(ERNIE 3.5)在多个测试集的得分已超过ChatGPT。 三大评测基准综合评估
上万道考题“统考”主流大模型
为验证主流大模型的各项综合能力,评测在AGIEval、C-Eval和MMLU三个权威评测基准上进行综合评估。 AGIEval评测基准是微软研究院发布的、专门用于评估模型在“以人为本”的标准化考试中表现水平的测试集。该基准选取20种面向普通人类考生的官方、公开、高标准的资格考试,包括普通大学入学考试(如中国的高考和美国的SAT考试)、司法考试、数学竞赛、律师资格考试、国家公务员考试以及美国的GRE、GMAT等。 C-Eval评测基准是由上海交通大学、清华大学以及爱丁堡大学联合创制和发布的中文基础模型评测集。它包含13948个多项选择题、涵盖52个不同的学科,设置了四个难度级别,是面向中文语言模型的综合考试评测集。 MMLU是伯克利大学、哥伦比亚大学、伊利诺伊大学厄巴纳-香槟分校和芝加哥大学联合发布的一种大规模多任务语言理解的基准测试,用于衡量模型的英文跨学科专业能力。该测试包含57个科目,涵盖STEM、人文、社会科学等。 除了文心大模型3.5,评测的模型还有ChatGPT、GPT-4、ChatGLM、LLaMa系列大模型。评测可以看出大模型在能力上的优劣,同时对模型的迭代发展也有着很强的指导作用。
评测结果:
文心大模型3.5中文能力超GPT-4,综合能力超ChatGPT
在AGIEval、C-Eval等中英文权威测试集和MMLU英文权威测试集中,国产文心大模型3.5取得了超过ChatGPT和LLaMa、ChatGLM等其他大模型的分数表现,在中文评测项中超越了GPT-4。