


正月初七,人日,是所有人的生日。剪彩为人胜,凭楼寄远情。春风有信,花开有期。衷心祝愿您:远方有回响,近处有暖阳。


Li, Andy Tao and Liu, De and Ye, Teng, Is ChatGPT a Boon or a Bane for Learning? Experimental Evidence Across Task Formats and Chatbot Designs (January 15, 2026).Available at SSRN:https://ssrn.com/abstract=5533921 orhttp://dx.doi.org/10.2139/ssrn.5533921这项研究通过田野实验深入探讨了大型语言模型(LLM)对学生学习效果的影响,指出其作用取决于人机交互设计与任务类型。该研究在真实教育环境(Field Setting)两所中国大学的12门分析类(Analytics)课程(包括本科和研究生水平)。实验跨越了四个学期(2024年春季至2025年秋季),确保了研究结果在不同学术背景和时间维度下的普遍性。参与研究的对象为583名大学生,其中包括本科生和研究生。参与者在性别(42%为女性)、年龄(平均22.06岁)、信息技术自我效能感及大模型使用经验等方面具有多样性。研究采用了预注册的、组间随机现场实验(Pre-registered, between-subjects randomized field experiment)。学生被随机分配到三组,每组使用不同的学习工具:1. BING组(对照组):使用基于Bing的搜索引擎。2. BASE-GPT组:使用标准ChatGPT机器人(模拟GPT-4的默认行为,直接提供答案)。3. GD-GPT组:使用“引导式发现”(Guided Discovery)机器人。该机器人通过零样本提示(Zero-shot prompting)设计,不直接提供答案,而是通过分解问题、提供背景知识和暗示来引导学生独立思考。在研究中所采用的任务类型,练习题包含客观题(选择题)和主观题(构建响应题/计算题)两种形式,以测试AI在不同任务下的效果差异。每个实验环节时长约1.5小时,严格遵循以下五个阶段:第一阶段:前测调查收集人口统计学信息、技术使用频率及对课程主题的熟悉度。第二阶段:教师授课由讲师进行常规的课堂知识点讲解。第三阶段:辅助练习(干预阶段)学生在电脑上完成一系列练习题。他们可以自由选择是否使用分配给他们的工具(BING, BASE-GPT 或 GD-GPT)。系统会记录所有的搜索轨迹和对话历史。第四阶段:后测调查收集学生对工具的使用体验评价、内在动机及认知负荷(包括内在负荷、外在负荷和有效负荷)。第五阶段:独立考试学生参加闭卷纸笔考试,题目与练习题一一对应(知识点相同但具体内容不同),以衡量真实的知识习得效果。研究者利用OpenAI的GPT-4 API开发定制界面,通过零样本提示词工程(Zero-shot Prompting)将教育学原则植入AI交互逻辑中。研究者使用固定效应模型(Fixed Effects Models)来测试不同工具对练习成绩和考试成绩的处理效应,并控制了题目间的异质性。通过分析练习时间、对话轮数、文本相似度指标(如BERT分值、ROUGE和BLEU分值),研究者探讨了“批判性参与”和“互动深度”如何作为中介变量影响学习结果。在稳健性检验方面,研究者进行了第二个实验,移除了初次实验中的“自动粘贴问题”按钮,以排除界面设计差异带来的偏差,并追踪了学生的长期课程表现(如后续作业和期末考试成绩)。
研究发现,虽然标准版 ChatGPT 能显著提升练习时的答题速度和表现,但会导致学生在后续独立考试中的得分降低,尤其是在选择题这种容易诱发“认知卸载”的格式中。相比之下,基于启发式教学(Guided Discovery)原则定制的聊天机器人通过拒绝提供直接答案,而是给予引导和提示,显著增强了学生的批判性参与度、练习时长及对话深度,从而有效提升了学习成绩。此外,实验揭示了学生对 AI 存在“学习幻觉”:尽管标准 AI 削弱了真实掌握能力,学生在主观评价中却倾向于过度依赖并高估其教学价值。研究最终强调,教育者应针对不同性别和知识储备的学生群体,设计能促进深度认知加工而非简单替代思考的 AI 辅助工具。
在自留地君看来,实验设计科学严谨。研究者采用了预注册的随机现场实验,样本量大且覆盖广,涵盖了两所大学的12门课程,涉及583名学生和超过7,600个练习题目,保证了结论的统计效力和普遍性。对照组设置合理,评估手段客观。该研究最重要的贡献之一是证明了大语言模型(LLM)对学习的影响不是固有的,而是取决于其设计方式、任务格式及个体特征。研究通过将传统的引导式发现(Guided Discovery)教育原则引入AI设计,为开发教育专用大模型提供了成功范式。研究揭示了一个扎心的真相:当我们习惯性地将思考过程“外包”给AI时,我们不仅在节省时间,可能也在悄悄关闭大脑的成长窗口。这种现象在学习科学中被称为“认知卸载(Cognitive Offloading)”。为什么AI有时是补药,有时却是毒药?研究发现,任务的格式(Task Format)起到了决定性作用。研究给出了另一个极具启发性的答案:关键不在于是否使用AI,而在于如何设计AI。

北江夕照 Photo by Johnnie Walker研究的局限性也是显而易见的。该研究仅针对大学生群体进行。目前的结论是否能推广到 K-12(基础教育)阶段或其他教育水平尚不明确。研究中使用的任务格式有限(仅限于客观题和主观题),未能涵盖项目式学习(Project-based)或协作任务等更复杂的教学形式。研究主要聚焦于形成性练习(Formative practice assignments)。对于课堂教学、完全自主学习或协作学习等其他学习过程,该研究结论的适用性仍需进一步验证。
熟悉百年教育科技史的人都知道,这个研究基本上可以说是最新技术形式的“媒体功效比较研究”,因而研究结果也必然会陷入“非显著性差异现象”(NSDP)。总而言之,这个研究是一项兼具理论深度和实践指导意义的研究。它通过严密的实验数据,理性地驳斥了“全面禁用AI”或“无条件拥抱AI”的极端观点,转而强调“基于教育原则的AI设计”和“针对不同任务的负责任集成”。该研究为教育机构、一线教师教师及AI开发者提供了一份清晰的行动指南:即如何将AI从一个“答案分发器”转变为真正的“智慧引路人”。在这方面,未来的路还很长很长。让我们一起为之努力!


英西峰林.峰林晓镇Photo by Johnnie Walker
