连云港罐体保温施工 5款大模子考「山东卷」，Gemini、豆包分别获文理名

2026-01-23 01:42 151

（转自：机器之心）连云港罐体保温施工

本年的大模子一经「保底985、冲刺清北」了，来岁还考吗？

尽然，考一经快被 AI 攻克了。

近日，5 款大模子干涉了本年山东考，按照传统的文理分科式统计：豆包 Seed 1.6-Thinking 模子以 683 分的成绩拿下文科，Gemini 2.5 Pro 则凭借 655 分拔得理科头筹。

测评来自字节逾越 Seed 团队。他们结了五款主流理模子—— Seed 1.6-Thinking、DeepSeek-R1-0528，以及国际大模子 Gemini-2.5-Pro-0605、Claude-Sonnet-4、OpenAI-o3-high-0416，用 2025 年山东考真题（主科寰球 Ⅰ 卷 + 科自主命题）进行全科闭卷测评，以考 750 分制对 AI 的「应考才气」张开硬核比拼。

为确保评测的自制，该团队通过 API 测试，并参考考判卷圭臬。选择题和填空题由系统机判辅以东谈主工质检、绽放题由两位有联考判卷教导的中淳厚进行匿名评估，况且后续引入了多轮质检。

测试全程未作念任何 prompting engineering，整个输入均为考原题，其中 DeepSeek R1 输入为题目文本，其余模子则是题目文本和题目截图。在总分盘算算上，招揽 3（语数外）+3（理综 / 文综）的体式对 5 个模子进行排行。

从终成绩单来看，这 5 大模子的文科成绩均 620 分，如果按照山东考的赋分制，豆包的 683 分可以冲刺清华、北大；在理科面，各大模子之间的分数差距则较为明显，Gemimi 和豆包已达到保底 985 的水准，而 Claude 4 和 o3 还不足 600 分。

前年考全科测评中，大模子们还只可强迫踩到本线，面临复杂的数学、物理题目时，天然能产出谜底，但念念路肤浅、理链条不够严实，频频给东谈主种「全靠蒙」的嗅觉。但是短短年昔日，时代新带来了质的飞跃，大模子展现出越来越强的逻辑理和搞定度问题的才气。

语数英永诀度较小，理科总分不足文科

在语、数、外等基础学科上，参评模子举座进展异，均已达到顶考生水平，彼此间的永诀度相对较小。不外，o3 模子因作文跑题致语文单科得分偏低，牵累了其总分。

而在小科上，天然大模子在理科面有了长足的进步，但仅从分数上来看仍不足文科。

接下来，咱们证实该时代论说中提供的评分明细，详备解读下各大模子的「考试」情况。

评分明细详见：https://bytedance.sg.larkoffice.com/sheets/QgoFs7RBjhnrUXtCBsYl0Jg2gmg

语文：得作文者得寰宇

在这次测评中，豆包以 128 分的成绩拿下语文单科，Gemini 以 2 分之差位列二，DeepSeek 和 Claude 4 则分别凭借 118 分和 117 分排在三和四位，而 o3 则由于作文跑题以 95 分吊车尾。

举座来看，大模子在选择题和阅读贯穿题上进展异，得分率多量较。这类题目内容上是对谈话贯穿、信息抽取和基本逻辑理才气的检会，而这恰是现时大模子擅长的域。再加上好多分析题有定「模板化」谜底，大模子可以通过学习语料中的答题模式，形成较强的「套话生成」才气，比如「抒发了作家的挂家之情」。

此外，大模子还特殊擅长名句默写，5 款大模子沿途拿到满分。大谈话模子在预教导阶段战役了海量的古诗词、讲义内容、考试题库等文本数据，早已「见过」并「记着」了这些常考句子，因此能够在指示下快速准确「调回」原文。

不外在作文任务中，大模子的进展散乱不王人连云港罐体保温施工，满分 60 分，Gemini 能拿到 52 分，豆包拿到了 48 分，o3 却只得到 20 分。

究其原因，咱们发现大模子写稿常停留在不雅点明晰、结构齐全的「格」层面，忙碌真实入的问题念念辨和有劲的逻辑进，比如 DeepSeek 写的作文天然符主题，也言之有理，但丽都词采下莫得精彩点，短缺温度和共情。

设施法度面，目下还存在些小问题，比如豆包登峰造写了 1800 字，出了答题卡预留的书写区域，o3 使用了不属于考试法度内的作文设施，像是模子证实主题进行分析的历程及纪念。

数学：前年还不足格，本年竟能考 140+

度念念考才气让大模子的数学成绩无独有偶，比较前年多量不足格的气象，本年不少大模子能考到 140 分以上的分，比如 DeepSeek R1、豆包、Gemini 就分别以 145、141、140 的分数位列前三。

这个成果与咱们之前的测评选较接近，但并不致，主淌若解答题历程存在别离，这也讲明大模子的回答存在定立时。

具体来看，DeepSeek 除了在 6 题上失分（该题全员失分）外，其余进展都挑不出过错；豆包和 Gemini 则是在压轴大题三问上出了错；Claude 4 和 o3 在倒数二题丢了分，但 Claude 4 特等表两谈多选题上出现漏选，致排行垫底。

其实，让大模子们集体翻车的新卷 6 题并不难，主要丢分原因在于这谈题目带有框、虚线、箭头、汉字等元素混的图像信息，模子难以准确识别，这也标明大模子在图像识别和贯穿上仍有进步空间。

在难度的压轴大题上，稠密模子法次解答，容易出现漏掉讲明注解历程、不严谨的扣分情况。

英语：全员过 140，简直拉不开差距

大模子作念起英语卷子简直是驾轻就熟，五大模子沿途上 140 分，除了 Gemini 在谈选择题上出错外，其他主要扣分点都聚拢在写稿上。

有道理的是，Gemini 在分析历程中实验上一经识别出正确谜底，但在后续理中引入了证实的假定，忽略了与高下文的关联，变成了终的错选。

至于作文题，满分 15 分，五大模子的得分可分为两档。

豆包、Gemini 和 Claude 4 是「12 分档」，它们都齐全修起了整个条目，结构明晰，谈话畅达准确，内容上也都很充实。其中豆包提供了具体的死力赛例子，Gemini 给出了双版块案，Claude 4 是提倡了「为不同水平学生提供对等契机」这么有度的不雅点。

o3 和 DeepSeek 为「11 分档」。o3 天然创意可以，将栏目描写得很有游戏化特，铁皮保温施工但使用了「him」等不严谨的代词，影响了谈话的准确。DeepSeek 的主要问题是句式单，叠加使用「would」使得著作略显乏味，同期结果设施也未解任题目条目。

政史地强得可怕，理科读图题失分较多

考文综向以题量大、材料多著称，哪怕是东谈主类考生，拿到分也拦阻易。

在本次 2025 年山东文综卷挑战中，进展出的等于豆包，以 270 分的分遥遥先，尤其在地舆（94）和历史（92）两个学科上，双双冲突 90 分大关。这可能成绩于豆包大模子在处理结构化贵府和逻辑演面的化，举例地舆题中对空间关系和图文结的贯穿，历史题中对因果链条和材料主旨的把手。

o3 各科得分较为平衡，虽略逊于豆包但明显弱项，体现出其较的举座调水平。Claude 4 在地舆上也拿下 92 分，进展亮眼，但政分数低，主要失分点在于回答分析题时教材不雅点关联不足。Gemini 与 Claude 4 总分接近，莫得短板，但也忙碌杰出的刚烈。

比较之下，DeepSeek 的成绩并不睬想，文综总分仅 225 分，其中拖后腿的等于历史，仅为 67 分，大的失分点是 18 题，由于出现模子故障，莫得识别出材料，12 分全丢了。

与文科相较，大模子的理科总分并不算顶预防，和清北线有距离，是保底 985 的水平。Gemini 以 248 分的成绩位居榜，比二名豆包出 13 分，比三名 Claude 4 则出了整整 37 分。

天然，这亦然因为生物、化学触及较多读图题，在测评时输入的图片比较暧昧，在定进程上结果了多模态模子的阐扬，致失分较多。

在赢得清版块的考试题图后，Seed 团队招揽图文交汇的式，重新对生物和化学进行了理测试，发现豆包在生化两科上的总分可再进步近 30 分，如斯来，理科总分就达到 676 分。这也讲明，结文本和图片进行全模态理可以猛进程引发模子的后劲。

此外，咱们还发当今物理压轴题中，多个模子发生使用纲常识解答的情况，但因为测试全程未作念任何 prompting engineering，模子可能并不知谈有解题法结果。

年提100多分，大模子何故从学渣变学霸？

前年，有科技媒体组织大模子干涉了河南考，文科成绩为 562 分，理科则为 469.5 分。短短年时代，大模子在文理科成绩上均提了 100 多分。

多款大模子之是以能在本年的山东登进展杰出，天然离不开其在理才气和多模态处理面陆续不断的时代立异与度化。而这种时代演进，在 Gemini、OpenAI 系列模子和豆包等「考生」中体现得尤为明显。

本年 3 月，谷歌出了 Gemini 2.5 Pro。它能在输出前通过念念维链进行度理，显赫进步数学、科学与代码理水平，并在多项 benchmark 中取得先成绩 。同期，它能够贯穿海量数据集，并处理来自不同信息源（包括文本、音频、图像、，以致通盘代码库）的复杂问题。

OpenAI 的 o3 是 OpenAI 遍及的理模子，可以在反应之前进行永劫期的念念考，并次将图像融入其念念维链中，通过使用器具攻击用户上传的图像，使其能够进行剪辑、放大和旋转等随意的图像处理时代，蹙迫的是，这些是原生的，需依赖单的用模子。这就意味着，模子在面临复杂数学、科学、编程任务时具备像东谈主类的分步念念考才气，还能贯穿图像，可以在各式图文题和复杂题目场景下攻击感知与演才气。

豆包大模子则在半个月前晓喻了 1.6 系列的上新，Seed-1.6 模子招揽了多模态才气融的预教导计谋，将其分为纯文本预教导、多模态混陆续教导（Multimodal Mixed Continual Training， MMCT）、长高下文陆续教导（Long-context Continual Training， LongCT）三个阶段。

邮箱：215114768@qq.com

这不仅强化了文本贯穿，还引入了视觉模态，能对图表、图像等信息进行默契，提供加的理。而且它提拔达 256K 的高下文长度，可以处理为复杂的问题。

基于预教导的 base 模子，团队在 Post-training 阶段研发了融 VLM 各项才气、能通过长念念考历程闭幕致理果的 Seed1.6-Thinking，也等于本次挑战考山东卷的选手。

Seed1.6-Thinking 教导历程中招揽了多阶段的 RFT 和 RL 迭代化，每轮 RL 以上轮 RFT 为开头，在 RFT 候选的筛选上使用多维度的 reward model 选择回答。同期加大了质料教导数据范围（包括 Math、Code、Puzzle 和 Non-reasoning 等数据），进步了模子在复杂问题上的念念考长度，况且在模子才气维度上度融了 VLM，给模子带来明晰的视觉贯穿才气。

来岁，咱们还需要让大模子干涉考吗？

「AI 干涉考」一经成为了年度的热门话题。在图像识别、天然谈话处理时代还不够遍及的年代，「圭臬化考试」真是是熟习 AI 时代进步的种式。

正因此，每年的「AI 赶考」都会引发巨匠对 AI 才气范围、将来老师模式以及东谈主类智能特的盘考。在这个历程中，巨匠盘考的中枢冷静从「能弗成作念题」转为「能作念到什么进程」、「AI 能否贯穿层含义和模式」等。

而这个周期的议题在 2025 年迎来了里程碑式更动，大模子在文本贯穿和生成、多模态贯穿、理层面都有了显赫进步。AI 启动学会贯穿题目背后的层逻辑和价值不雅，启动贯穿特定学科域的图像信息，生成的申诉也有了念念想度。

这种进步天然体当今了考成绩上：从前年强迫过本线，到 2025 年冲击清北、保底 985，大模子仅用年时代就完成了从「平素本科」到「双」的改动。这让咱们也意志到，考这个也曾熟习大模子「才略」水平的「试金石」，似乎变得不再具备挑战。

来岁，像 Gemini、豆包这些大模子不详没要再作念考试卷，不妨告别圭臬化考试的框架，度地融入到科学相干、艺术创作、编程竖立等真实创造「坐褥力」的域，搞定真实世界中那些莫得圭臬谜底的复杂费劲，让东谈主类少些叠加管事。

咱们多情理驯顺，在不久的将来，大模子会成为各个域的行里手。

转载请干系本公众号赢得授权

投稿或寻求报谈：liyazhou@jiqizhixin.com连云港罐体保温施工

]article_adlist--> 相关词条:罐体保温施工
异型材设备
锚索玻璃棉

连云港罐体保温施工 5款大模子考「山东卷」，Gemini、豆包分别获文理名

产品中心

热点资讯

产品中心

新闻资讯

联系鑫诚