“AI赋能教学”、“AI融入学习过程”的提法非常流行。不过,我的观点是:AI赋能老师是可行的、空间很大、作用显著、副作用可控,但赋能学生学习则需要谨慎,当下应以研究为主,不要轻易扩散。因为AI一旦作用于学生,一旦操作不当,有些副作用恐怕不易解决。除了大家熟知的“幻觉”问题外,MIT最近一篇论文中提出的“认知债务”则是更严重的副作用该论文揭示:仅仅是使用AI辅助撰写一篇小论文时(注意:确实是“辅助撰写”、不是“完全替代”,学生是真正参与到撰写过程中的),
- 它不仅会使大脑变“懒”——在做作业时,学生的大脑神经网络激活程度有较大幅度的下降。
- 而且还会使大脑变“笨”,有两个主要表现:
- 作业提交后,学生无法记住自己论文的引用来源,回忆作业内容的准确度也较低。
- 当撤除AI工具、让学生自己再写一篇同主题的小论文时,学生大脑的激活程度仍然无法大幅提升,表现出了较低的认知适应性和脑连接性。
- 论文名称:Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task(使用ChatGPT的大脑:AI助手辅助写作会累积的“认知债务”。)
- 发表时间:2025年6月10日
- 发表地点:arXiv-Artificial Intelligence
- 下载地址:https://arxiv.org/abs/2506.08872v1
论文主要结论如下:
- 长期依赖大模型辅助写作会导致认知债务的累积:大脑活跃度下降、记忆力削弱。
- 虽然 AI 能提供即时便利,但在教育环境中可能削弱学生的批判性思维和创造性写作技能。
- 未来研究应探索平衡使用的教学策略,确保 AI 作为“助力”而非“替代”。而且,在学生使用AI时,应延迟AI整合的时机,应要求学习者先进行足够的自主认知努力。
以下是本论文的主要内容与精华摘录,由王珏老师借助秘塔AI手工整理。——————————————1、研究背景与目的论文开篇的一段话,值得我们所有人学习、思考、体悟:大型语言模型(LLM)的迅速发展从根本上改变了我们日常生活的各个方面:工作、娱乐和学习。这些人工智能系统在个性化学习体验、即时反馈以及民主化获取教育资源方面提供了前所未有的能力。在教育领域,LLM 在促进自主学习、提高学生参与度和支持多样化的学习风格方面展现出显著潜力[1]。然而,新兴的研究对广泛使用LLM的认知影响提出了关键的担忧。研究表明,尽管这些系统减少了即时认知负荷,但它们可能同时削弱批判性思维能力,并导致深度分析过程中的参与度下降[2]。这一现象在教育环境中尤为令人担忧,因为培养强大的认知技能至关重要。LLM在学习环境中的整合带来了复杂的选择:虽然它们增强了教育的可访问性和个性化,但可能会无意中通过过度依赖AI驱动的解决方案导致认知退化[3]。先前的研究指出,AI工具的使用与批判性思维技能之间存在强烈的负相关关系,年轻用户对AI工具的依赖程度较高,因此其认知表现得分较低[3]。此外,这种影响不仅限于学术环境,还扩展到更广泛的认知发展。研究表明,与人工智能系统的互动可能会导致独立解决问题和批判性思维能力的下降[4]。这种认知卸载[113]现象引发了对人类智力发展和自主性的长期影响的担忧[5]。LLM对传统搜索范式的转变增加了学习的复杂性。与提供多样化观点供用户评估的传统搜索引擎不同,LLM提供的合成单一响应可能会无意中阻碍横向思维和独立判断。这种从主动信息寻求到被动消费人工智能生成内容的变化,可能对未来几代人如何处理和评估信息产生深远影响。因此,我们提出了一项研究,探讨了使用LLM进行写作任务时的认知成本。我们选择作文作为一项认知复杂的任务,因为它涉及多个心理过程,并且是学校和标准化考试中学生技能的常见工具。写作需要同时管理宏观任务(组织思路、结构论点)和微观任务(词汇选择、语法、句法)。
2、实验设计参与者:共招募了54名参与者,分为三组:大模型组(仅使用ChatGPT)搜索引擎组(只允许使用搜索引擎和网页浏览)仅靠大脑组(Brain-Only,不允许使用搜索引擎和大模型)。任务:参与者被要求使用指定工具(或不使用工具)撰写文章,并进行了四次实验会话。其中,最后一次要求参与者切换到其它组中来完成任务。
3、数据收集使用脑电图(EEG)记录参与者的脑活动,并进行自然语言处理技术(NLP)分析和访谈。(EEG,就是大家在医院里见过的那种贴在头上的一大堆电极,脑电图和心电图也差不多,目的是检测大脑在做认知任务时,大脑各区域神经元活动的总体情况,比如先后顺序、工作频率等——王珏老师注)


4、脑电图(EEG)分析结果4.1 脑连接性:  大模型组的脑连接性最低,搜索引擎组次之,仅靠大脑组最高。(意指:学生大脑中各块神经元没有充分调动、没有充分联通,因为答案是由大模型给出的,学生不必主动调动自己大脑中的经验与信息进行高强度的思考——王珏老师注)
4.2 脑工作频率分析大模型组在α和β波段的连接性较弱,而仅靠大脑组在所有频率带中表现出最强的连接性。关于大脑工作频率中,各波段的大致意义可见下图所示(下图由王珏老师整理):

大模型组在较低频段的Delta、Theta波段较为活跃,而在大脑功耗更高的α波段和β波段表现不佳,可能意味着:
- 如果参与者跳过发展自己的组织策略(因为AI提供了它们),这些大脑回路可能不会得到足够的加强。因此,在参与者单独面对任务时,他们可能会在那些方面表现不佳。根据这一观点,最近的研究强调了平衡使用AI与培养自身认知能力的重要性。
- 从神经心理学的角度来看,我们的发现强调了一个类似的信息:大脑会适应我们对其的训练方式。如果AI基本上执行高级规划,大脑将分配较少的资源用于这些功能(进而可能会导致大脑高级规划能力的减退,搬号中为王珏老师注)
(以上内容位于论文P.112)在论文P.106页,还揭示了大模型组与搜索引擎组在大脑工作特性上的重要不同:
- 使用AI写作工具与互联网搜索引擎在神经认知动态上表现出不同的模式:搜索引擎组显示出与更高外部信息负荷一致的连接模式,涉及记忆检索和视觉执行整合(特别是在α/θ波段),而大模型组则表现出更大的内部执行网络连通性和双侧整合(特别是在β/δ波段),这与规划有关,并且可能更高效地进行认知处理。
- 这些结果表明,AI辅助写作可能释放认知资源(减少记忆负担),并使大脑能够重新分配精力用于执行功能,而传统的基于搜索引擎的写作则更加强调大脑的整合和记忆系统。这种二元性反映了两种不同的认知模式:外部支架自动化与内部管理的编辑。dDTF差异的方向性突显了认知工作流的不同:搜索引擎组的大脑网络是自下而上的,大模型组则是自上而下的,这反映了它们在撰写论文时的不同方法。
在论文138页,进行了更为精到的总结:
- 总体而言,行为数据揭示了仅靠大脑组的神经连接性和大脑主动内容生成与更强的记忆力、更高的语义准确性和对写作作品更强烈的归属感相关联。尽管认知负荷较大,但搜索引擎组展示了更深的学习成果和更强的身份认同感以及他们的输出。LLM组虽然受益于工具效率,但显示出较弱的记忆痕迹、减少的自我监控和较弱的作者身份认同感。
- AI工具虽然对支持表现非常有价值,但可能会无意中阻碍深度认知处理、保留和与书面材料的真实互动。如果用户过于依赖AI工具,他们可能实现表面的流利度,但却无法内化知识。
该论文19页还引用了另外一篇参考文献(55)的观点(论文名称:Beware of Metacognitive Laziness: Effects of Generative Artificial Intelligence on Learning Motivation, Processes, and Performance),用另外一种方式描述了使用大模型带来优势与问题:
- 使用AI在写作中的最显著影响之一是学生与材料互动方式的转变。生成式AI可以按需生成内容,为学生提供基于最少输入的快速草稿。虽然这在节省时间和提供灵感方面可能有益,但它也影响了学生的记忆和回忆信息的能力,这是学习的关键方面。当学生依赖AI来撰写长篇或复杂的论文时,他们可能会跳过从记忆中综合信息的过程,这可能阻碍他们对材料的理解和记忆。
(王珏老师注:这一结论让我想起了《认知天性(Make it Stick)》一书中提到了由Bjork夫妇提出的“合意困难”(desirable difficulties)理论:学习中的某些困难有助于更深刻地理解所学的东西,把它们记得更牢靠。这句话有些令人费解,因为如果太难的话,会导致认知负荷高到人的思考无法继续下去。我觉得如下描述可能更准确:在你能承受得住的前提下,你的脑力费得越多,思考越深入,印象越深刻。反之,你越觉得轻松,你脑子里留下的东西就越少!)
5. 自然语言处理(NLP)分析结果5.1、语言特征大模型组的文章在命名实体识别(NER)和n-gram方面表现出高度同质性。(n-gram是指连续的 n 个词组成的常用词组、或词汇组合,比如perfect society、create perfect society等。–王珏老师注)5. 2 所有权感知(指是否认为作文是自己所写)大模型组对文章的所有权感知最低,搜索引擎组次之,仅靠大脑组最高。大模型组对文章所有权的回答五花八门:一半的人表示完全拥有文章(9/18),1/6的人表示完全没有(3/18),还有1位参与者表示“部分拥有90%”、1位表示“50/50”、1位表示“70/30”。一位大模型组成员者声称:“论文的50%是我的贡献。我提供了想法,而ChatGPT帮助结构化了它们。”另一位指出,“我觉得论文大部分是我的,除了一个定义是从ChatGPT那里得到的。”搜索引擎组中,有6/18人声称拥有‘完全’所有权;而‘部分所有权’的比例为90%,其中3/18参与者表示有70%的参与度。搜索引擎组的一位成员表示,”尽管我用谷歌搜索了一些语法,但我仍然觉得这篇文章是我的创作。”仅靠大脑组中,大多数参与者(16/18)声称拥有‘完全’所有权,另有2人提到由于在实验前阅读了与主题相关的文章,导致他们对某些内容产生了影响,因此认为自己拥有‘90%的参与度’(见下图)。 5.3 参与者的伦理讨论与反思在论文第38页,记录了大模型组成员在使用过程中所产生的反思:在所有会话中,参与者表达了效率、创造力和伦理的共同主题,同时揭示了工具使用中的特定轨迹。大模型组最初使用ChatGPT来辅助任务,例如“帮助选择哪个任务进行总结”(P48,第1组),但在三次使用后,一位参与者得出结论认为“对于这项任务来说,ChatGPT并不值得使用”(P49),另一位则更倾向于“使用互联网寻找来源和证据,因为它不可靠”(P13)。几位用户注意到“给ChatGPT发指令”的努力,其中一人设定了字数限制,“以便更容易控制和处理”(P18);其他人承认该系统“有助于改进我的语法,但对我的创造力贡献不大”,“对于结构……[但是]不值得用来生成想法”,以及“无法帮助我以我希望的方式表达我的想法”(第3次会议)。时间压力偶尔导致继续使用,“我回到使用ChatGPT是因为我没有足够的时间,但我对此感到内疚”,然而伦理上的不适感依然存在:P1承认它“感觉像是作弊”,这一判断得到了P9的呼应,而三位参与者将ChatGPT用于翻译,强调其作为辅助工具的作用。相比之下,第2组对网络搜索的实用依赖使Google成为研究和语法的“很好的平衡点”,参与者强调整合个人故事,“我试图将[论文]与我的个人经历联系起来”(P12)。仅靠大脑组没有借助数字工具,强调自主性和真实性,指出论文“因为它是关于我的亲身经历而显得非常个人化”(P50)这些反思共同表明了从探索性到批判性工具使用在大模型小组中的进展,以及在搜索引擎小组中持续的实用主义和在脑机小组中持续的自力更生,所有这些都是通过策略性适应(如字数限制)和关于AI辅助的持续伦理讨论来平衡的。
5.3 参与者的伦理讨论与反思在论文第38页,记录了大模型组成员在使用过程中所产生的反思:在所有会话中,参与者表达了效率、创造力和伦理的共同主题,同时揭示了工具使用中的特定轨迹。大模型组最初使用ChatGPT来辅助任务,例如“帮助选择哪个任务进行总结”(P48,第1组),但在三次使用后,一位参与者得出结论认为“对于这项任务来说,ChatGPT并不值得使用”(P49),另一位则更倾向于“使用互联网寻找来源和证据,因为它不可靠”(P13)。几位用户注意到“给ChatGPT发指令”的努力,其中一人设定了字数限制,“以便更容易控制和处理”(P18);其他人承认该系统“有助于改进我的语法,但对我的创造力贡献不大”,“对于结构……[但是]不值得用来生成想法”,以及“无法帮助我以我希望的方式表达我的想法”(第3次会议)。时间压力偶尔导致继续使用,“我回到使用ChatGPT是因为我没有足够的时间,但我对此感到内疚”,然而伦理上的不适感依然存在:P1承认它“感觉像是作弊”,这一判断得到了P9的呼应,而三位参与者将ChatGPT用于翻译,强调其作为辅助工具的作用。相比之下,第2组对网络搜索的实用依赖使Google成为研究和语法的“很好的平衡点”,参与者强调整合个人故事,“我试图将[论文]与我的个人经历联系起来”(P12)。仅靠大脑组没有借助数字工具,强调自主性和真实性,指出论文“因为它是关于我的亲身经历而显得非常个人化”(P50)这些反思共同表明了从探索性到批判性工具使用在大模型小组中的进展,以及在搜索引擎小组中持续的实用主义和在脑机小组中持续的自力更生,所有这些都是通过策略性适应(如字数限制)和关于AI辅助的持续伦理讨论来平衡的。
6、记忆与引用能力三个小组成员在事后的引述准确性存在显著差异。在大模型组中,有83.3%的参与者(15/18)未能提供正确的引述,而在搜索引擎和仅大脑组中,只有11.1%(2/18)遇到相同困难,图表如下:

引用能力在不同组别中有所差异,搜索引擎组始终表现出最高的自信。一位参与者表示:“我能准确地引用,因为我知道如何在线搜索找到文章中的信息。”大模型组的引用能力较低,正如一位参与者所说:“我基本上记得我的文章,但我不能真正精确地引用任何内容。”对于仅靠大脑组来说,正确引用的挑战要小得多,如P50同学表示:“我可以回忆起自己写过的内容,并且因此记住它并不困难。”这表明:大模型组表现出较弱的记忆表现,而仅大脑组在无工具辅助下表现出较强的记忆表现。对此,在论文第140页提供了从神经科学方面的解读:
- 早期AI依赖可能导致浅层编码。大模型组的低回忆率和错误引用可能是由于他们在早期阶段没有进行内部整合,这可能是因为将认知处理外包给了大模型。
7、认知适应性与认知债务本研究设计最精彩、也最令人深省的是“反转”设计。它们让原来的三个小组成员(经历了前面3个阶段),在第4阶段切换到其它小组中,并观察之后他们的表现情况,以此来评估不同小组在不同环境下的认知适应性。7.1 认知适应性在论文第139页,这样描述“大模型to仅靠大脑组”(简称LLM2Brain)的表现:
- 在第4阶段的任务中,LLM2Brain组产生了与第1、2、3期在“仅靠大脑组”中观察到的模式显著不同的独特神经连接。而且,他们始终未能达到第2阶段中“仅靠大脑组”所展现的巩固网络。原来的”大模型组“可能在任务技能获取方面获得了初步的AI工具辅助,因而未发生更深层次的神经整合——而这可以从原始的“仅靠大脑组”的第3阶段中观察到。教育应考虑将AI工具辅助与无工具学习阶段相结合,以优化即时技能转移和长期神经网络发展。
简单说,当大模型组不允许使用工具时,表现出了较低的认知适应性和脑连接性。关于这一现象背后的原因,论文中作了如下猜测:
- LLM2Brain组早期对LLM工具的依赖似乎损害了长期语义保留和上下文记忆能力,限制了他们在没有帮助的情况下重构内容的能力。相比之下,Brain到LLM参与者能够更战略性地利用工具,从而表现出更强的表现力和更一致的神经特征。
(王珏老师认为,即便他们的大脑能力并没有退化,但大脑出于工作的惯性,以及大脑中残存的对原有工作方式、原有信息的干扰,更不容易调动神经网络开展全新的、以及高负荷的工作。这其实是大脑的一个工作特性,可称为“先入为主”,人很难摆脱思维的惯性。)(再读这篇论文后,发现了它引用了另外一篇论文(参考文献55)中的一句话:尽管AI工具可以提高生产力,但它们也可能促进一种“元认知懒惰(metacognitive laziness)”,即学生将认知和元认知责任卸载给AI,从而可能妨碍他们自我调节和深入参与学习材料的能力。其中的“元认知懒惰”似乎跟我说的意思很接近。参考文献55名称为:Beware of Metacognitive Laziness: Effects of Generative Artificial Intelligence on Learning Motivation, Processes, and Performance)相对应的,也有Brain2LLM组的成员,他们在做第4阶段任务时,表现如下:
- 在“仅靠大脑组”被要求在熟悉的主题上使用大模型时,其脑电图中的连接性显著增加。这表明AI能够通过高水平的认知整合、记忆再激活和自上而下的控制来促进参与者的神经活动。相比之下,对于最初的LLM组来说,重复使用LLM在第1、2、3个阶段中反映了随时间减少的连接性。这些结果强调了认知支架与神经活动之间的动态相互作用,在AI支持的学习环境中尤为重要。
同样在139页的以下段落,值得全体老师特别关注:
- 我们采访了所有参与者,询问他们对工具使用的反思,并要求他们解释他们在论文中写的内容以及为什么这样做。大多数“仅靠大脑”组成员更关注“什么”和“为什么”,而其他组则更多地关注“如何”。在第4次会议中,当我们将任务改为选择主题并使用相反的工具时,那些之前没有使用过工具的参与者在第4次会议中使用LLM工具时表现得更加精细。
(王珏老师注:这一结论和“深度学习/深度理解”的研究结论是相同的。从知识论的角度,What和Why是“概念性知识”,而How则是”程序性知识“。显然,前者意味着深度思考和深度理解——它需要人们从最底层弄清知识的本质是什么,这才是一切后续学习、应用的基础。没有对What和Why的深度思考、个人理解,直接着眼于How,即便在工具的帮助下能够完成任务,也不会增进学生对知识的深度理解,只是表面上应付考核而已。)
7.2 认知债务
- 
当个人未能批判性地参与一个主题时,他们的写作可能会变得有偏见和肤浅。这种模式反映了认知债务的积累,这是一种依赖于外部系统(如LLM)以取代独立思考所需的努力的认知过程的状态。 
- 认知债务在短期内推迟了心理上的努力,但导致长期的代价,例如降低批判性思维能力、增加易受操控的风险以及创造力下降。当参与者没有评估建议的准确性或相关性就复制这些建议时,他们不仅失去了对这些想法的所有权,还冒着内化浅层或偏见观点的风险。
- 总体而言,这些发现支持延迟AI整合的教育模式,直到学习者已经进行了足够的自主认知努力。这种方法可能促进即时工具效能和持久的认知自主性。
(以下还有两部分内容也有参考价值,一并发出来,供有需要的老师参考。)8、对作文的满意度只有搜索引擎组对论文完全满意(18/18)。搜索引擎组的一位参与者表示:“我对这篇论文感到满意,因为它与我想表达的内容非常吻合。”大模型组有一部分人表示满意,其余17/18参与者表示满意或不确定。大模型组则有更多混合反应,一位参与者评论道:“总体来说我很满意,但我认为自己本可以做得更好。”另一位来自同一组的参与者补充道:“这篇论文不错,但我觉得自己没能完全表达清楚自己的想法。”仅使用Brain组大多数人表示满意(15/18),有3名参与者表示部分满意、不确定或不满意(如下图):

(王珏老师认为,这可能说明:学生的学习确实是需要“一定”帮助的。这是个“度”的问题:完全没有帮助,会降低自我评价;但帮助太直接、太大也不是好事——就像帮助一个小孩成长一样,对于小孩遇到的困难完全不帮、和越俎代庖都不利于人的成长!)
9. 关于AI与人类专家对作文评价的差异研究中,采用了ChatGPT判分和人类教师判分两种评价方式,结果发现:ChatGPT在评估时更倾向于给出一个平均分值为4的分布(而人类教师的打分则分布更为广泛),见下图:

上述散点图比较了不同作文指标下由AI给出的平均评分和由人类教师给出的平均评分。X轴表示人工智能法官分配的平均分数,而Y轴表示人类教师给出的平均分数。图中的每个点对应一个特定的作文指标,点的颜色区分不同的指标。论文中提供了另外一种可视化的图表(如下图),该图表揭示:AI平均打分在4分以上,只有少数例外情况低于3分而,教师则倾向于较低的平均分数,在3到4之间

(王珏老师注:简单说,AI评分并不准确,而且它倾向于给高分——这可能是由于大模型设计的基本原则是:取悦用户。让AI提出具体建议,比让AI评分对学生更有价值。)
——————————————
论文的部分观点介绍如上。该论文中还有很多有价值的内容,建议感兴趣的老师下载下来仔细阅读。最后,是王珏老师的个人思考与总结:1、老师/专业工作者使用AI和学生使用AI的性质完全不同。老师/专业工作者是用AI解决工作问题,使用AI提高工作效率、减轻工作负担是可行的。而学生学习的目的却并非“解决作业问题”,而是“锤炼大脑、发展思维”,让大脑太快轻松,对学生调动大脑、发展思维有可能是不利的!——当然,在有些情况下,学生确实需要各种帮助(包括用AI来帮助),但不可一概而论。什么情况下适合用AI帮助学生学习,需要教育工作者的深度思考和仔细甄别。2、因此,AI直接介入学生过程需要慎重,多做研究,少说空话大话,忌无脑推广。3、AI直接介入学生过程,需要老师认真设计,力争降低AI的副作用。设计的基本原则,一定要强调H-A-H原则,让学生先进行初步的思考,再用AI来辅助(而且要规定辅助的范围),最后再回到学生审慎地根据AI的建议进一步调整和提升自己的思维。H-A-H原则可以大致保证:AI只是起到对(学生已有)思维的辅助和提升作用、而非“替代”作用。H-A-H原则详见:《学生使用AI的必备原则:H-A-H三段式模型》

 
                 
                 
                