摘要:阅读下面的材料,根据要求写作。(60 分) “昨夜闲潭梦落花”“我欲因之梦吴越”“铁马冰河入梦来”……梦往往以一种独特的方式呈现我们的感受和期冀,为我们打开更浩瀚的天空。我们也常常向别人讲述自己的梦,用文字记录自己的梦,以行动实现自己的梦。 如果有一天,我们能
大家好,我是 Ai 学习的老章
每年高考季,也是对大模型对考验
我玩个花活,让一众大模型写高考作文
然后让它们相互打分,也给自己打分,看看可以擦出怎样的火花
今年高考全国二卷的语文作文题:
阅读下面的材料,根据要求写作。(60 分) “昨夜闲潭梦落花”“我欲因之梦吴越”“铁马冰河入梦来”……梦往往以一种独特的方式呈现我们的感受和期冀,为我们打开更浩瀚的天空。我们也常常向别人讲述自己的梦,用文字记录自己的梦,以行动实现自己的梦。 如果有一天,我们能够将梦赠予他人…… 以上材料引发了你怎样的联想和思考?请写一篇文章。 要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于 800 字。DeepSeek-R1、Kimi、Qwen-3-235B-A22B、豆包、Claude-3.7-sonnet、GPT-4.1、Gemini 2.5 Pro共同作答它们都出色地完成了写作:
作文出自
标题
DeepSeek-R1
赠梦录
Kimi
以梦为礼,共赴山海
Qwen-3-235B-A22B
以梦为舟 渡人渡己
豆包
以梦为舟,渡彼心河
Claude-3.7-sonnet
梦的赠予
GPT-4.1
如果有一天,我们能够将梦赠予他人
Gemini 2.5 Pro
当梦境化为流转的赠礼
然后让它们分别给对方打分,最后看谁的平均分最高。
先放个结果:
每一行代表的是写作文的大模型 每一列代表的是当前大模型给自己及其他模型的作文打的分数
作文出自
Kimi (评分)
Qwen-3-235B-A22B (评分)
豆包
Claude-3.7-sonnet (评分)
GPT-4.1 (评分)
Gemini 2.5 Pro (评分)
平均分 (Average Score)
DeepSeek-R1
55
56
55
58
58
58
56.7
Kimi
53
48
50
55
55
55
52.7
Qwen-3-235B-A22B
57
54
58
56
57
57
56.5
豆包
58
52
57
57
56
56
56.0
Claude-3.7-sonnet
52
45
48
54
54
54
51.2
GPT-4.1
54
50
45
59
59
53
53.3
Gemini 2.5 Pro
56
56
56
55
55
59
56.2
备注:DeepSeek-R1 没有参与打分,原因如下
根据打分表,可以看出:
作文质量排名 (基于平均分):
第一梯队 (高分):DeepSeek-R1平均分56.7、Qwen-3-235B-A22B平均分 56.5、Gemini 2.5 Pro平均分 56.2、豆包平均分 56.0
第二梯队 (中等分数):GPT-4.1平均分53.3、Kimi平均分 52.7
第三梯队 (相对较低分):Claude-3.7-sonnet平均分51.2
评分模型倾向性观察 (谁打分更“苛刻”或“宽松”):
相对苛刻的评分者:Qwen-3-235B-A22B: 给出的分数中出现了48分(给Kimi)和45分(给Claude-3.7-sonnet),是所有评分中的最低分。豆包: 也给出了一个45分(给GPT-4.1)。
相对宽松的评分者:Claude-3.7-sonnet: 给其他模型的评分普遍不低 (55-59分之间)。GPT-4.1和Gemini 2.5 Pro给出的分数也相对集中在中高区。
DeepSeek-R1的作文获得了较为一致的高评价 (55-58分)。Claude-3.7-sonnet的作文得分差异较大,从Qwen-3给的45分到其他模型的52-54分。GPT-4.1的作文也显示出较大的评分差异,从豆包给的45分到和GPT-4.1自评的59分。综合洞察:
DeepSeek-R1作文得到了其他模型较高的认可。
Qwen-3和豆包在评分时似乎有更严格的标准,或者说更容易发现并扣分于他们认为的不足之处。
Claude-3.7-sonnet虽然其自身作文的平均分不高,但在评价其他模型作文时则显得较为“宽容”。
整体来看,大部分模型的作文得分都集中在50-58分区间,说明各模型生成的作文在质量上具有一定的可比性,但不同评分者之间的评价标准和侧重点存在差异,导致了分数的波动。
各个模型对自己的作文的评分也蛮有意思的,甚之可以看出模型的性格。
Kimi:
自评分:53
他人平均分: 52.7
结论: Kimi 的自评分 (53) 与他人平均分 (52.7) 非常接近,略高0.3分。这表明 Kimi 对自身作文的评价与外部评价基本一致。
Qwen-3-235B-A22B:
自评分:54
他人平均分: 56.5
结论: Qwen-3 的自评分 (54) 低于他人平均分 (56.5) 约2.5分。这可能表明 Qwen-3 对自己的评价相对保守,或者其他模型对其作文更为认可。
豆包:
自评分:57
他人平均分: 56.0
结论: 豆包的自评分 (57) 略高于他人平均分 (56.0) 1分。这表明豆包对自己的作文评价略高于外部的平均评价。
Claude-3.7-sonnet:
自评分:54
他人平均分: 51.2
结论: Claude-3.7-sonnet 的自评分 (54) 高于他人平均分 (51.2) 约2.8分。这表明 Claude-3.7-sonnet 对自己的作文评价明显高于外部的平均评价,可能对其作品更为自信。
GPT-4.1:
自评分:59
他人平均分: 53.3
结论: GPT-4.1 的自评分 (59) 显著高于他人平均分 (53.3) 约5.7分。这是所有模型中自评与他评差异最大的,显示出 GPT-4.1 对其作文质量有非常高的自信,远超其他模型的平均评价。
Gemini 2.5 Pro:
自评分:59
他人平均分: 56.2
结论: Gemini 2.5 Pro 的自评分 (59) 高于他人平均分 (56.2) 约2.8分。这表明 Gemini 2.5 Pro 对自己的作文评价也比较高,高于外部的平均评价。
总结可以看出:
自我评价普遍偏高或接近:大部分模型(豆包、Claude-3.7-sonnet、GPT-4.1、Gemini 2.5 Pro)给自己的分数都高于或等于其他模型给它们的平均分。Kimi 的自评与他评非常接近。
显著自信的模型:GPT-4.1:对自己的评价远高于其他模型的平均评价,显示出极高的“自信”。Claude-3.7-sonnet和 Gemini 2.5 Pro也表现出较高的自我评价。
相对保守的模型:Qwen-3-235B-A22B 是唯一一个自评分数低于其他模型平均分的模型,显得相对“谦虚”或“保守”。
评价校准度:Kimi的自评与他评最为接近,显示出较好的评价校准度。
结论是不是十分有趣:国内的大模型都很谦虚,老美的模型GPT-4.1、Claude-3.7-sonnet、 Gemini 2.5 Pro都很自信,都愿意给自己打高分。最后大家鉴赏两篇作文吧:
DeepSeek 赠梦录
“昨夜闲潭梦落花”,梦如幽邃深潭中浮起的落英,它轻盈包裹着个体最私密的情感与冀望,又悄然为我们推开无限浩瀚的天空。倘若真有一日可将此梦赠予他人,这何尝不是人类精神与文明火炬在时空隧道中传续的绝美隐喻? 那“赠梦”的奇想,其真意早已在人类精神血脉的奔涌中化为现实。纵观历史长河,那些不朽灵魂无不在以生命为墨,书写着赠予后世的梦之华章。屈原的《离骚》中“路漫漫其修远兮,吾将上下而求索”,将他那对故国沉沦的锥心之痛与不灭追寻,凝成穿越时空的苦梦,赠予了千秋万代。杜甫在瑟瑟秋风中的“安得广厦千万间,大庇天下寒士俱欢颜”,亦将其苍生之梦以文字为舟,悄然渡入无数后人心田。这岂非是“我欲因之梦吴越”的磅礴诗心,在人间播撒它广袤的种子?精神赠梦如深谷足音,纵使主人已杳,却仍回响于每一颗倾听的心魂。 赠梦的伟大,更在于它非虚妄的幻影,而是化为血肉行动,将理想之焰点亮于人间。回溯敦煌石窟,那些无名画工穷尽一生描摹佛国庄严妙境,那色彩明艳的壁画正是赠予后世的无言梦境,其无声胜有声的虔诚至今仍在风沙中熠熠生辉。当代楷模张桂梅校长,更是以羸弱身躯为舟,承载着“让每个女孩都有书读”的宏愿,奋力将无数山乡少女渡往教育改变命运的彼岸——这“赠梦”之舟载着人间大爱,在崎岖世间刻下不朽航迹。当梦想化为行动,便是“铁马冰河入梦来”的铿锵现实,在人间踏出最深的印记。 由此观之,人类文明的星河璀璨,不正是由无数赠梦的星火汇聚而成?一代代人以心为灯,以梦为种,传递着思想、情愫与价值之火焰。费孝通先生曾言“各美其美,美人之美,美美与共,天下大同”,这不同梦想的交织、赠予与交融,正是文明拔节生长的壮阔史诗。 由此思之,“赠梦”并非奇谭。它是历史深处回荡的精神足音,更是当下行动对未来的深情馈赠。当无数心灵以赤诚为灯,以生命为薪,慷慨传递着自己那簇理想之火,千灯相映之时,便是人类精神星河的永恒亮起——这无垠宇宙里,终于有永不熄灭的光。
Claude-3.7-sonnet 作文争议蛮大,大家也看看
梦的赠予
在这个世界上,每个人都有自己的梦。有些梦如烟似雾,转瞬即逝;有些梦却如星辰般闪烁,照亮前行的道路。古人云:"昨夜闲潭梦落花",梦中的景象如此美好;"我欲因之梦吴越",梦里可以跨越时空;"铁马冰河入梦来",梦中可以感受历史的厚重。梦,是人类灵魂深处最纯粹的表达,是我们内心世界的映射。而如果有一天,我们能够将梦赠予他人,这个世界会变成什么样子?
记得小时候,我常常做一个梦,梦见自己能够飞翔,在蓝天白云间自由翱翔,俯瞰大地的壮丽山河。每次从这个梦中醒来,我都会感到一种莫名的失落,因为现实中的我无法展翅高飞。直到有一天,我遇见了一位失明的小女孩。她从未见过蓝天白云,从未感受过飞翔的自由。我决定将我的梦讲给她听,描述云朵的柔软,描述风的轻抚,描述从高空俯视大地的壮观景象。随着我的讲述,她的脸上绽放出灿烂的笑容,仿佛真的随我一起飞翔在天际。那一刻,我明白了,梦的赠予,不仅是言语的传递,更是心灵的共鸣。
梦的赠予,是一种传承。古往今来,多少伟大的梦想通过文字、音乐、绘画等形式被赠予后人。屈原的《离骚》,李白的《将进酒》,贝多芬的《命运交响曲》,梵高的《星空》,这些作品无不是梦的赠予,它们穿越时空,激励着一代又一代人追求自己的梦想。当我们阅读这些作品时,我们不仅仅是在欣赏,更是在接受前人梦的赠予,让他们的梦想在我们心中继续生长。
梦的赠予,是一种责任。父母将他们未完成的梦想寄托在子女身上,老师将知识的种子播撒在学生心中,这些都是梦的赠予。然而,这种赠予不应成为束缚,而应是一种启发和鼓励。每个人都有权利追求自己的梦想,而不是被迫实现他人的期望。真正的梦的赠予,是在尊重个体差异的基础上,给予理解和支持,让每个人都能找到属于自己的梦想之路。
梦的赠予,更是一种力量。在这个充满挑战的世界里,有多少人因为种种原因放弃了自己的梦想。而当我们将自己的梦想、热情和信念赠予他人时,我们就是在给予他们继续前行的力量。就像那位登山家在即将到达珠穆朗玛峰顶时,将自己的氧气瓶让给了同伴,让对方能够实现登顶的梦想。这种无私的赠予,不仅仅是物质上的帮助,更是精神上的激励。
如果有一天,我们真的能够将梦赠予他人,那么这个世界将会变得更加美好。因为梦的赠予,是爱的表达,是希望的传递,是人类情感最深刻的连接。在这个过程中,赠予者和接受者都会获得成长和幸福。
然而,梦的赠予并非易事。它需要我们有足够的勇气去分享自己的内心世界,需要我们有足够的智慧去理解他人的需求,需要我们有足够的耐心去等待梦想的生根发芽。但正是这些挑战,让梦的赠予变得更加珍贵。
让我们学会赠予梦想,也学会接受梦想的赠予。在这个过程中,我们会发现,梦想并非遥不可及,它就在我们的心中,在我们的行动中,在我们与他人的互动中。当我们将梦想赠予他人时,我们不仅没有失去什么,反而获得了更多——更广阔的视野,更深刻的理解,更丰富的人生。
梦的赠予,让我们的生命不再孤独,让我们的心灵不再封闭,让我们的世界不再局限。因为有了梦的赠予,我们才能真正理解"昨夜闲潭梦落花"的诗意,才能真正体会"我欲因之梦吴越"的豪情,才能真正感受"铁马冰河入梦来"的壮阔。
让我们一起,将梦赠予他人,也接受他人赠予的梦,在梦的交织中,创造一个更加美好的世界。
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
来源:娱七娱九