被人工智能撕下的面具：为什么我们的评估系统正在“训练”学生停止学习？

如风一般自由野蛮生长，
你远比自己想象的更辽阔，
爱世界的宽广，也爱自己的棱角，
不妥协、不设限，无拘无束，
人生的标准答案，自己说了算。

WonkHE是英国当前最具影响力、最活跃的高等教育政策独立智库与专业媒体平台，以深度、敏捷、多元的视角主导英国高教政策讨论。

WonkHE成立于2011年，总部位于英国伦敦，由Mark Leach（MBE，主编兼CEO）创立，核心团队规模约2-10人，其性质为私营独立媒体/智库，WonkHE秉持非官方、非营利、非党派的原则，自称“英国高等教育辩论之家”（Home of the UK higher education debate），核心定位是连接学界、政府、监管机构与行业，凝聚全英“高教专家”（wonks），构建跨机构、跨领域的专业共同体，同时以独立、实证的分析为政策制定提供专业洞见，为传统主流之外的新声音、小众视角提供政策讨论空间，助力改善高教决策质量。

https://wonkhe.com/前些日子，WonkHE 发布了一个报告，题目叫做《被培训着去停止学习？在人工智能时代学生正在经历怎样的评估和学习》（Trained to Stop Learning? How Students are Experiencing Assessment and Learning in an Age of AI）作者是 WonkHE 的副主编 Jim Dickinson 和社区与政策官 Mack Marshall。

报告开篇指出，在当下的高等教育界，我们正面临一场“教学契约的系统性失效”。一个令人深思的现象是：学生们提交了逻辑严密、引用精准的作业，却在被要求脱离笔记解释其核心观点时，陷入了集体性的沉默与焦虑。

WonkHE在报告的开头，给出了十五个重要发现，这15个重要发现分别是：发现一：提交作业与真正掌握知识之间的差距早于人工智能出现，而考核设计正在拉大这一差距近半数学生担心自己的成绩无法反映真实学识水平，38% 的学生承认曾提交自己无法完整阐释思路的作业。人工智能只是扩大并加速了这一原本就存在的差距，而造成该差距的最关键因素是考核设计本身，而非人工智能的使用。发现二：人工智能的使用并非单一行为，将其一概而论只会让学生缺乏有效指导学生们至少会以六种截然不同的方式使用人工智能，从替代检索工具到加速完成作业，每种方式对学习的影响不同，伦理边界也不同。同一名学生在完成同一项作业时，常会在不同使用模式间切换，这意味着任何将人工智能使用简单归为单一行为的政策都将失效。特别有意思的是，在发现二中，报告作者清晰地勾勒出学生使用 AI 的六种动态模式：

搜索替代 (Search Replacement)：

作为交互性更强的信息检索系统，弥补图书馆系统体验的不足。

2. 结构支架 (Structural Scaffolding)：

在已有想法的基础上，请求 AI 提供组织建议，类似于“买好了家具请人设计摆放位置”。

3. 调试伙伴 (Debugging Partner)：

实时纠正代码或计算错误，学习发生在纠错的瞬间。

4. 全天候导师 (Always-on Tutor)：

提供无间断、非评判性的概念解释。

5. 前提补足 (Prerequisite Substitute)：

填补课程假设学生已掌握、但实际学校未曾教授的基础（如心理学课程中的统计学基础）。

6. 生产加速 (Production Accelerator)：

自动生成最终文本，这通常伴随着低理解度和低学习参与。

一个核心的专家洞察是：AI 的使用并非学生的静态人格特质，而是对环境的动态响应。同一个学生会根据任务的吸引力、时间压力以及作业说明的清晰度，在这些模式之间实时切换。目前院校“一刀切”的禁令，本质上是在用过时的管理逻辑应对复杂的动态行为。

发现三：学生清楚真正有效的考核应具备哪些特质，却极少体验到，甚至自行设计了替代方案仅有 21% 的学生认为自己的课程主要以考察思考与推理能力为导向，而各专业学生对 “真实考核” 的认知高度一致：能体现个人独立理解、知识应用、责任担当，以及能促进成长的反馈。不少学生已设计出可检验知识掌握程度的具体方案，但这些方案均与提交至虚拟学习平台的传统论文截然不同。发现四：可核验责任的公开环节正在消失且无人填补，学生在面临责任核验时，使用人工智能的方式会截然不同清楚自己需要当面展示知识掌握程度的学生，会用人工智能自测、推敲答案、检验推理逻辑；而当后续没有任何核验环节时，同一批学生则会机械依赖人工智能完成作业。责任核验环节的存在，改变的不是学生是否使用人工智能，而是如何使用人工智能。发现五：专业差异是结构性问题而非偶然现象，统一政策几乎在所有场景都会失灵创意艺术、计算机、医疗、人文等不同专业中，人工智能与学习的关联存在本质区别，这由职业定位、知识属性以及学生对专业的伦理坚守共同决定。高校一刀切的政策无法适配这种差异，在多数专业中只会沦为形同虚设的限制或毫无意义的许可。发现六：几乎所有高校都出台了人工智能相关政策，却几乎无一真正落地，人工智能使用声明甚至可能让情况更糟学生反映，同一专业不同导师的分级框架、声明表格、模块指导要求各不相同，没有任何一项规则具体到能指导学生完成作业时该如何操作。这类声明只会惩罚诚实的学生，却无法揪出高频使用者，本质是校方的责任规避手段，而非透明化监管机制。发现七：政策混乱引发分配公平问题，最认真的学生屡屡受罚，代价不仅关乎学业，更关乎心理人工智能政策模糊的后果，主要由最努力遵守规则的学生承担：部分学生因谨慎避开无法确认是否合规的工具，反而拿到更低分数。而敢于冒险的学生却无需承担同等压力，且 59% 的受访者担心人工智能会削弱自己的批判性思维能力。发现八：女性在考核中使用人工智能的概率远低于男性，许多未使用者仍因人工智能带来的竞争劣势倍感焦虑数据显示，人工智能使用上的性别差异是所有人口统计差异中最大的，差距超 20 个百分点，且在控制其他变量后依然存在。在担心人工智能造成竞争劣势的非使用者中，74% 为女性 —— 她们身处人工智能普及的环境，承受着心理压力，却并未使用相关工具。发现九：残疾学生借助人工智能满足需求，而正规院校的调整措施在他们看来并未解决实际问题患有读写障碍、多动症及相关病症的学生表示，人工智能是他们用过最有效的认知辅助工具，效果往往优于高校提供的任何正规便利措施。以学术诚信为名全面限制人工智能，可能剥夺这一重要支持，而现有正规体系显然未能提供同等替代方案。发现十：反馈时效失效，考核的育人功能被破坏，进而倒逼学生依赖人工智能反馈往往在学生开始下一项作业后才送达，无论课程手册如何表述，考核流程实质上都只重结果、不重过程。当评分标准模糊不清时，学生便会将人工智能当作理解要求的工具 —— 高校对考核预期的不透明，似乎直接推动了人工智能的使用。发现十一：人工智能正在弥补高校教学供给中显而易见却长期未解决的短板本研究显示，若高校能解决自身可控的问题，如图书馆检索资源不足、任务要求模糊、教学内容难以获取、实践准备薄弱、学术支持响应缓慢等，相当一部分人工智能使用行为都会消失。每一例高频使用人工智能的情况，都在反映高校供给的缺失。发现十二：时间匮乏是推动使用人工智能的结构性原因，却被归咎于学生态度不端、缺乏投入需要兼顾有偿工作、照护责任与超负荷阅读任务的学生表示，面对自己提不起兴趣的作业，人工智能是最高效的完成工具。当人工智能被要求或鼓励使用时，付费与免费工具的质量差距正演变为社会经济层面的准入问题，而高等教育本应缩小而非扩大这一差距。发现十三：同伴学习是实现真正知识掌握的可靠途径，却远未被充分利用焦点小组中，所有真实学习的场景都离不开同伴互动；当被问及向同学讲解知识是感到压力还是获得力量时，所有学生无一例外地选择了后者。非官方的学习经验通过社交网络传播，不受高校管控，而将同伴学习规范化，能让学习资源分配更公平。发现十四：对职业发展有信心的学生，优势不在于考核形式，而在于课程是否重视思考能力与职业信心关联最强的并非职业导向型考核形式，而是学术诚信：反馈是否能提升思考能力、宣称的教育理念与实际评价标准是否一致、考核是否检验真实理解。口试与职业信心的正相关性最强，而实习成果考核的相关性则偏弱。发现十五：有归属感的学生更少依赖人工智能，因为课程本身已能提供人工智能所替代的价值数据显示，归属感是影响学习体验最关键的因素之一，归属感更强的学生，在考核中使用人工智能的概率明显更低。缺乏归属感时，学生会把课程当作流水线任务，进而求助人工智能 —— 因此，缺乏体系化的同伴学习支持，是推动人工智能使用的结构性原因。

报告指出，AI 的普及给高等教育提出了一个终极命题：评估的本质究竟是看学生“生产了什么”，还是看学生“成为了什么”？

现有的、依赖单一文本产出的评估体系已经崩塌。为了重建教学契约，我们必须转向具有“真实性”和“过程可见性”的评估方案。最后，报告向所有教育工作者抛出一个问题：
如果一个评估任务可以被 AI 完美地、毫无破绽地完成，那么这个评估任务本身是否还有存在的价值？或许，被 AI 撕下遮羞布后的高等教育，才真正获得了回归“思考与成长”本质的契机。
从人工智能教育研究维度来看，WonkHE 的这个报告突破了以往众多的“AI 使用即学术不端” 的单一化批判思维，回归教育本质与制度根源展开分析，具备重要的实证价值与实践指引意义。您说，是这个理不？！

几年前的某大学的教师工作坊

忘记是哪个大学了 🙁