推广 热搜： 行业机械设备教师系统杯经纪参数金蒸汽

大模型们参加2023高考了，成绩单已出炉

日期：2023-07-16 浏览：70 移动：http://m.uqian.cn/quote/4852.html

量子比特 | 公众号

2023年高考成绩将陆续出炉。我们来看看各大语言模型的“高考成绩”？

湖北高考改革方案出炉__2023高考难吗

大模型评测团队从2023年高考试卷中整理出147道客观题（其中语文20道、英语44道、历史31道、数学9道、物理8道、政治21道、生物14道），形成V1.0评测集。

排除特殊符号等因素后，使用5-shot方法评估参数相似的开源大型语言模型，如五道天影、-、-tuned-alpha、MOSS、BELLE等。

由于2023年高考题在6月初才发布，尚未进入模型训练数据集，因此测试结果更能直观地反映模型的知识应用能力。

无悬念得分最高，GPT-4和GPT-3.5-turbo的正确率分别为60.4%和42.5%。

启蒙·天影七号B在国内外参数相近的SFT开源模型中表现出色，以37.2%的正确率综合得分排名第一，接近GPT-3.5-turbo的水平。

而-6B、-紧随其后，正确率分别为25.5%、24.7%。

SFT微调后的模型在能力聚焦点上与基础模型有显着差异。

公平地说，只比较了经过SFT微调的语言模型。

湖北高考改革方案出炉__2023高考难吗

评价方法说明：

本次评估使用5-shot 作为输入，即给出5个例子和答案，最后附上一个评估问题，要求模型在输出中选择正确的一个[A/B/光盘]。检查模型内（上下文）学习能力和知识的选项。总分（TOTAL）是每个模型7个科目得分的算术平均值。

从学科分数来看，有几个有趣的发现：

此次2023年高考能力测评主要对比国内外7B级开源大模型。 7B级别作为当前的主流机型，因其高性价比的部署而受到业界的广泛欢迎。

以“巨无霸”作为象征参考项，在《2023年高考测评》等能力对比中依然“一览众山小”。

考虑到模型参数量和训练数据量的巨大差异，以-7B为代表的7B级别开源模型依然强大，未来可期！

目前还没有公开信息

大语言模型评测榜单新上榜

V1.0（高考评测结果）已更新为大语言模型评测列表。我们将不断扩充题库能力，提高模型评估结果深度分析能力。

欢迎大型模型研究团队评估申请：

致远大模型开放评价平台创新性构建了“能力-任务-指标”三维评价框架，划定了大语言模型30+能力维度，在任务维度整合了20+主客观评价数据集，不仅覆盖了大家熟知的公开数据集MMLU、C-eval等，还增加了致远构建的主观评价数据集&（CLCC），以及词汇层面的语义关系判断和北京大学与闽江大学联合构建的句子层面的语义关系。判断、多义词理解、修辞判断评估数据集。更多维度的评价数据集也正在陆续整合。

在最新的SFT模型评测榜单中，其在“主观+客观”评测中位列第一。

据悉，五道天鹰七号B最新版本的基础模型和对话模型的权重已更新至开源仓库。与6月9日初始版本相比，在常识推理、代码生成等维度上性能得到了大幅提升。目前可以通过开源项目或模型存储库下载权重。

:

模型存储库：

- 超过-

云集大咖，主播新技术，稀土开发者大会主会场直播有奖预约

2023稀土开发者大会主论坛议程出炉！主论坛演讲嘉宾为：火山引擎副总裁兼字节跳动开源治理运营负责人张鑫、英特尔软件与先进技术事业部研发总监杨继国、云首席架构师余友智、创始人张文松LVS 院士、火山引擎边缘云高级架构师徐光智、北京大学计算机科学研究所王选教授、CCF 自然语言处理专业委员会秘书长万晓军将围绕生成式 AI、云原生、边缘云等，深入剖析未来行业新技术。提出了挑战和机遇。

主会场还将为“掘金引力榜”获奖项目和个人颁奖。点击扫码进入官网，点击直播间，即可参与极米投影机评论互动和抽奖！

点击这里关注我，记得标记star哦~

一键连续三个“分享”“点赞”“观看”

科技前沿的进步天天见面~

本文地址：http://www.uqian.cn/quote/4852.html 极顶速云 http://www.uqian.cn/ , 查看更多

特别提示：本信息由相关企业自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

相关行业动态

推荐行业动态

点击排行