AI 写高考作文 AI 评，结果竟然……“满分”作文气笑语文老师

2025-08-20 03:02:06 阅览：312

【导语】2025年高考之际，我们进行了一场别开生面的AI作文大赛。7位AI考生在没有联网搜索辅助的情况下，完成了全国卷(juǎn)一(yī)作(zuò)文题(tí)。随(suí)后(hòu)，7位(wèi)AI考(kǎo)官(guān)对(duì)作(zuò)文进(jìn)行(xíng)了(le)评(píng)分(fēn)。结(jié)果(guǒ)令(lìng)人(rén)惊(jīng)讶(yà)：不(bù)仅(jǐn)AI考(kǎo)生(shēng)的(de)作(zuò)文水(shuǐ)平(píng)参(cān)差(chà)不(bù)齐(qí)，AI考(kǎo)官(guān)的(de)评(píng)分(fēn)标(biāo)准(zhǔn)也(yě)大(dà)相(xiāng)径庭(tíng)。其中，智言同学的作文荣获最佳，但人类考官的点评却揭示了AI在理解文本深度上的局限。这场测试不仅展示了AI写作与评分的现状，也引发了对AI教育应用的深思。快来看看这些AI的佳作与“翻车”现场，你会给出怎样的分数呢？

AI写作文早不是啥新鲜事了。比起几年前的稚拙，现在的AI写起文章来已经更加得心应手，只要给它的提示词合适，那它们还真能写出挺像模像样的文章。不仅如此，AI还能对文章做出品评，指出文章的优点和不足，还有学生根据AI的建议修改作文后，获得了老师的好评。

那么问题来了，如果让AI自己写作文，自己评分数，会出现什么情况呢？

今天是2025年高考第一天，我们拿高考作文题，让AI之间来个了大PK，并让它们互相评价，结果竟然出乎意料。

测验方法

本次测验选取了7位本地AI考生/考官，为了保障大家的隐私，这里全部使用了化名。AI考生写作文的时候，为了防止作弊，均关闭了联网搜索选项。为了保证考生的文章深度配得上高考题，均打开了类似“深度思考”类选项。

每位考生收到的考题均为全国卷一作文题，没有其他提示词。

每位考生收到的“全国卷一作文题”

每位考官收到的评分标准和提示词也是一样的，作文部分则直接粘贴各个AI考生的作文。

为防止干扰，每批改一位考生的作文，就新建一个对话。

每位考官收到的不同考生作文并要求打分

测验结果

经过我们的一番操作，所有AI考生均顺利完成了作文，所有的AI考官也都完成了批改！结果真的太好玩了！

注：每一列的分数，表示一位AI考官分别给每位AI考生的大作打的分数

结合各位“AI考生”的作文和“AI老师”给出的评分，我们来一一看看结果如何。

首先，我们来给AI考生颁奖。

最佳作文奖

获奖者：智言同学

智言同学作文的得分平均分为56.6分，这个分数是所有考生里最高的，实至名归的——全场最佳作文奖。

值得一提的是，全场唯一一个获得过一次满分的作文也是出自智言同学之手哦，文章最后我们也会放出满分作文，供大家阅读。

进步潜力奖

获奖者：K米同学

K米同学获得了50.6分的平均分，上升空间巨大，不过相比于人类考生……有百分之几的考生敢说能拿到更好的成绩？而且，说不定K米同学比较偏科，这次发挥不理想呢？

毫无争议奖

获奖者：心言同学

7位AI阅卷老师对心言同学的打分非常接近（方差仅2.4），所以它的作文成为了成绩争议最小的作文。

争议最大奖

获奖者(zhě)：通(tōng)问(wèn)同(tóng)学(xué)

7位(wèi)阅(yuè)卷(juǎn)老(lǎo)师(shī)对(duì)通(tōng)问(wèn)同(tóng)学(xué)的(de)作(zuò)文打(dǎ)分(fēn)差(chà)异(yì)非(fēi)常(cháng)大(dà)，欣(xīn)赏(shǎng)通(tōng)问(wèn)作文的老师，给出了58分的高分，而不欣赏的老师，给出了49分。

而且K米作为阅卷老师时候，拒绝给通问同学的作文打分（但并没有给出具体理由）。但无论如何通问同学毫无争议地获得了“争议最大奖”。

看完了AI作为考生时候的表现，接下来我们再对AI作为阅卷老师的表现，进行评价和颁奖。

铁面无私奖

获奖者：K米老师

K米老师给所有同学打出的分数平均分为51.7分，甚至对通问同学的作文拒绝评分，成为了最严厉的阅卷老师，大家最好不要落到它手上。

甚至 K米老师给自己的作文仅打出了47的分数，确实客观又铁面无私，真是“狠起来连自己都不放过”，因此，获得了“最铁面无私奖”。

大家都不容易奖

获奖者：心言老师

心言老师给所有同学打出的分数平均分是57.1分，算是非常仁慈了，你是不是也希望它是你的阅卷老师呢？

心如止水奖

获奖者：智言老师

智言老师给出(chū)的(de)分数波动最小（最高56，最低54），方差仅为0.6，或许在它看来，别太卷，大家都一样最好。

爱憎分明奖

获奖者：通问老师

通问老师给出的分数波动最大（最高58，最低47），方差14.7。或许正是这样的性格，才让它写出了连K米老师都拒绝打分的文章吧。

不过这里我们得说明一下，如果我们把拒绝打分视作0分，那爱憎分明奖非通问老师莫属。

慧眼识人奖

获奖者：DS老师

DS老师给智言同学打出了全场唯一一个满分60分，给到的是都认可的。

而且，DS老师还为智言同学写下了这样热情洋溢的评语：

图源：自己做的

金标准奖

获奖者：D包老师

针对每篇作文，D包老师给出的(de)分(fēn)数(shù)与(yǔ)平(píng)均(jūn)值的综合差距比其他老师要小（标准差1.6）。所以，它给出的分数，堪称打分的“金标准”。

品味独特奖

获奖者：K米老师

和金标准奖相对，对于每篇作文，K米老师给出的分数与平均值的综合差距比别的老师的大（标准差4.1），所以它给出的分数总是那么独特，就授予它品味独特奖吧。

最高、最低、最具争议

作文分享

先来看“满分作文”，来自智言同学。

图片：自己做的

接下来是“低分作文”：

图片：自己做的

当然，作文毕竟主观性很强，而且AI每次生成和评判，可能都会(huì)有(yǒu)一(yī)些(xiē)偏差。因时间有限，测试次数较少，本次结果无法全面体现参赛AI的能力，仅供参考。

为了严谨起见，我们还邀请了一位人类考官（苏哲伦上海市语文高级教师上海市徐汇区(qū)语(yǔ)文骨(gǔ)干(gàn)教(jiào)师(shī)），对(duì)这(zhè)次(cì)的(de)最(zuì)佳(jiā)作(zuò)文做(zuò)出(chū)了(le)锐(ruì)评(píng)：

苏(sū)老(lǎo)师(shī)：我(wǒ)给(gěi)这(zhè)篇(piān)作(zuò)文打(dǎ)45分(fēn)（满(mǎn)分60）。我对全国卷评分标准不大了解，但是既然第一则材料来自阅读II《鼓书艺人》，当然不能对阅读II的基本情节理解有很大偏差。然而，就我看到的《鼓书艺人》内容，AI作者恐怕是在一本正经地胡说八道，或者说出现了幻觉。老舍的原文中，鼓书艺人“开不了口”，是面对被战争摧残的孩子，想给他们唱一段，又唱不出。但这篇文章，变成了不知哪来的角色“白傻子”面对日寇的刀剑保持沉默。出现这样严重的失误，所以我无法给出高分。

截自本次AI最佳作文，然而老舍原文中主角名为方宝庆

看来，想让AI写好高考作文还是任重道远啊！最后，想问下：上面的高分和低分作文，你会打多少分呢？留言区告诉我吧～

策划制作

作者丨丁崝田(tián)达(dá)玮(wěi)

点(diǎn)评(píng)丨(gǔn)苏(sū)哲(zhé)伦(lún) 上(shàng)海(hǎi)市(shì)语(yǔ)文高(gāo)级(jí)教(jiào)师(shī)上(shàng)海(hǎi)市(shì)徐(xú)汇(huì)区(qū)语(yǔ)文骨(gǔ)干(gàn)教(jiào)师(shī)