
《教育强国建设规划纲要(2024—2035年)》提出全面构建“自强卓越的高等教育体系”,指明了我国高质量高等教育体系的建设方向。在一个以技术快速突破、社会需求不断变化、全球市场竞争日益激烈为特征的时代,世界各地的高校均面临不仅要保持高标准,而且要根据社会发展持续提高其教育教学质量的改革任务。站在高校的角度来看,实现自强卓越的核心任务更多体现在建立科学有效的教育教学质量自我评价体系,牵引教育教学质量不断追求卓越,始终保持高校教育教学与经济社会发展的相关性、有效性。智能技术赋能教育评价是我国近十年来智能教育应用研究的重点内容之一[1]。以生成式人工智能为代表的新一代人工智能的快速发展为更好地重塑、优化教育评价体系提供了新契机。在持续深化教育评价改革的新阶段,面对技术的不断突破,如何在教育评价设计中科学引入、应用人工智能,增强教育评价的合理性、有效性和真实性,是当下持续深化教育评价改革,促进教育综合改革面临的迫切任务,也不断吸引着国内外更多组织和学者的关注和讨论。 总部位于新加坡的数字教育委员会(Digital Education Council,DEC)是一个由100多家机构组成的全球性实践社区,致力于在高等教育和劳动力发展领域推动可持续创新与人工智能应用。DEC成立以来,秉持“通过技术与协作革新全球教育与就业领域”的发展愿景,汇聚高校与企业力量,不断发起和推动教育创新的全球性运动。2025年7月,DEC与培生集团(Pearson)联合发布《评价新纪元:AI在评价设计中的全球回顾》(The Next Era of Assessment:A Global Review of AI in Assessment Design,以下简称《报告》)[2]。《报告》聚焦高等教育评价领域,汇聚来自全球多个机构对人工智能赋能高等教育评价改革的多元视角、丰富知识及实践经验,全面梳理全球教育工作者如何利用人工智能重塑评价体系,重点分析了人工智能对评价各环节的影响、评价体系的系统性重构,并提出具体的实践指南,对推动其他国家或地区高等教育评价改革有着重要的借鉴价值。

图1 五阶段评价闭环 阶段1:设定学习成果,即为学生在课程结束时应掌握的知识与应具备的能力设定清晰、可衡量的目标。《报告》认为,人工智能的应用能够分析劳动力市场数据、技能框架等大型数据集,从而识别技能缺口,并为制定相关且与时俱进的学习成果提供依据。同时,还可通过将常规任务自动化,使学生能够将更多时间、精力投入到高阶认知任务中,将评价重心更多地聚焦于批判性与复杂技能的培养。人工智能相关知识、技能等已成为职场中的普遍需求,对学生学习成果的评价中应适当纳入与人工智能相关的核心能力,如对人工智能输出结果进行评价、负责任地使用人工智能的能力等。同时,对学生学习成果应明确区分两类技能:一类是必须独立培养的技能,另一类是通过使用人工智能提升的技能。 阶段2:规划课程体系,即组织课程内容、设计评价方式与优化学习体验,助力学生达成预期学习成果。人工智能的应用不仅可以根据预期学习成果生成或推荐课程地图和课程顺序安排,还可以依据学生档案或学习分析数据,协助设计个性化学习路径。但与以往课程体系规划相比,为推动人工智能的深度融入,课程规划应全面系统考虑。在整个课程期间,要明确学生在评价中使用人工智能工具的时间节点,以及允许、鼓励或限制学生使用这些工具的具体方式。在课程实施环节,应创设相关学习机会,帮助学生掌握如何高效、审慎且合乎伦理地使用人工智能工具。在课程目标设计上,应确保学生同时培养核心人类技能与人工智能相关技能。 阶段3:设计评价方案,即设计作业、考试及评分标准,以有效衡量学生学习目标达成的进展情况。在该环节,人工智能不仅可生成测验、案例分析、评分标准等评价材料,也可通过充当写作工具、模拟器或反思指导工具,成为评价设计的一部分,还可将人工智能融入评价,模拟现实场景,提升评价的真实性。在设计评价时,应对评价体系进行重构,以降低学生对人工智能的依赖,确保学生作业的真实性,并将评价重点从注重结果转向注重过程与推理能力。此外,应更新评分标准,以对学生的原创性能力、批判性分析能力、人工智能的有效运用能力进行发展性评价。 阶段4:评价组织实施,即实施评价流程,支持学生参与,并维护评价活动的完整性。人工智能的应用能够实现在评价过程中提供实时反馈以指导学生学习,以及监督并监控考试,同时还可借助人工智能“角色扮演”或实时问答功能,提升口头评价或情境式评价效果,从而让学生在不可预测、贴近现实的互动中展现自身技能。但在具体实施过程中,教师应明确告知学生在每项评价活动中可使用人工智能的时间节点及具体方式,以及通过课堂活动或实时互动活动来确保评价的公正性与真实性。此外,评价实施方式要能够记录学生完成作业的过程,而非仅仅是最终成果。 阶段5:评价反馈复盘,即收集反馈并系统性复盘评价任务,以提升其有效性、清晰度以及与学习成果的匹配度。人工智能的应用能够协助学生评分,并提供个性化反馈,以及对评价数据进行大规模分析,识别学生的困惑点,为教师教学改进提供针对性建议,同时还能生成班级表现总结,并为评价设计提出改进建议。为了有效适应和发挥人工智能赋能效应,该阶段应定期审查并更新评价内容,以确保随着人工智能的发展,评价始终具备有效性和“抗人工智能干扰”能力,以及及时了解人工智能在评价各阶段的影响。 (二)重新审视人工智能时代的评价 在人工智能时代,高等教育评价设计既包括单个任务,也涵盖多个任务、多个环节、多门课程的整体评价组合,这就增加了高等教育评价设计中引入和应用人工智能的复杂性。《报告》重点从评价类型、设计原则、评价组合等三个关键维度,对人工智能时代高等教育评价进行重新审视和反思。 1.评价类型 《报告》认为,为应对人工智能带来的机遇与挑战,根据人工智能在评价中助力学生学习成果达成所扮演的不同角色或发挥的不同作用,高等教育领域普遍存在三种评价类型,即无人工智能评价(AI-Free Assessment)、人工智能辅助评价(AI-Assisted Assessment)和人工智能融合评价(AI-Integrated Assessment)。每类评价均有明确的特定目的,且聚焦学生学习的不同方面。这些评价类型在构建均衡且具备未来适应性的评价策略中,均发挥着重要作用。但在具体实践中,应根据特定的学习成果,以及使用人工智能对这些成果的支持或削弱程度,来判定一项评价应采用哪种类型。 无人工智能评价在设计时有意要求教学活动在无人工智能辅助的情况下完成,在评价体系结构设计时会自然排除或最大限度地减少人工智能的使用,重点关注学生的独立思考能力与基础技能培养。人工智能辅助评价,要求学生可在明确限制条件下,将人工智能用于特定的、有限的任务,如头脑风暴、拟定提纲等,将人工智能作为辅助工具,鼓励将基础人工智能技术用于获取帮助或反馈,同时确保以学生为主导的学习始终处于核心地位。人工智能融合评价,是有意将人工智能融入学习与评价过程,使其成为该过程的一部分,要求学生将人工智能作为任务核心部分进行有意义的运用,包括在自身学科领域内应用、评判人工智能,并对其进行反思等。 2.设计原则 明确设计原则是高等教育评价设计中保障人工智能应用的合理性以及评价活动真实性、有效性的前提。对此,《报告》提出“抗人工智能干扰”的设计原则,用于保障各类评价的有效性与公正性。其核心要义是合理使用人工智能,避免技术崇拜,抵御人工智能负面影响,保障教育教学核心目标不被人工智能干扰。在具体实践中,该原则突破以规则约束学生使用人工智能的局限,通过精心设计学习任务,确保核心学习成果无法轻易通过人工智能实现,以维护评价任务的真实性与严谨性。要增强高等教育评价设计中“抗人工智能干扰”的属性,仅靠更新规则或技术远远不够,还需对高等教育评价体系进行结构性重构[3]。对此,《报告》提出四项构建具备“抗人工智能干扰”评价体系的指导性策略。 一是在课堂中保留核心人工任务。将学习任务拆分为多个部分,将允许使用人工智能的任务安排在课外完成,而将批判性思考、讨论等任务保留在结构化、有监督的环境中进行。二是将关注点从结果转向过程,重点了解通过评价促成最终成果的推理、规划与决策过程。在教学设计时,要更多鼓励学生元认知参与,如要求学生记录并反思对其作品产生影响的人工智能交互过程,或在最终提交材料中说明其解决方案的合理性依据等。三是嵌入检查节点,使学生发展过程可追踪。有目的地引入关键任务节点,如阶段性提交、现场讨论、反馈循环、规划成果等,以体现学生的渐进式思考过程。四是从任务层面的验证转向单元层面。按照学习循序渐进的原则,要确保一项评价建立在学生先前学习成果之上,以学生学习成果为纽带,在一个单元或一门课程内,通过一系列相互关联的评价,综合验证学生的学习成果。在这种情况下,评价的有效性来源于多次学习任务的连贯性与递进性,而非单一任务本身。 3.评价组合 培养学生人工智能素养已成为世界各国的普遍共识。在此背景下,《报告》认为在高等教育评价设计中应用人工智能,应重点把握两个优先事项:一是确保人类智能,即培养学生基础知识、批判性思维、学科专业知识和独立技能。二是培养人类与人工智能的协作技能,即培养学生有效和合乎道德地使用人工智能的能力,以及创设支持反映未来工作场所需求的形成性和真实性评价。面对教育教学活动的复杂性,多种评价类型的有效、合理组合是全面统筹两个优先事项的关键。为此,《报告》提出一种双重优先方法,帮助教师在评价中有意平衡两个互补的目标。对于无人工智能评价,应主要聚焦于人类能力培养。对于人工智能辅助评价,应在聚焦人类能力培养的同时,注重培养学生基本的人工智能技能。对于人工智能融合评价,需要精心设计以支持学生人类能力培养,同时要重点聚焦人机协同能力培养。 教学是一个涵盖多阶段、多环节的循序渐进的过程。《报告》认为,在具体实践中教师不应机械孤立地应用一种评价类型,而应有目的地对评价类型进行排序组合,以全面覆盖两个优先事项。比如,课程初始评价阶段,可通过无人工智能任务优先考查学生的综合能力,从而培养其独立思考能力与学科核心知识;课程中期与期末,可适当将人机协同能力作为重点,通过引导学生在问题解决过程中使用人工智能工具来实现教学目标。但这类项目需精心设计,以确保在培养学生人工智能协作能力的同时,人类的主导作用始终得以保持;在整个课程期间,可通过反思练习和课堂活动来强化人类能力的培养;终结性总结评价以人类能力培养为重点,高度强调学生独立完成任务的表现,以检验学生能力发展水平。 (三)人工智能时代评价设计指南 1.无人工智能评价设计 无人工智能评价设计旨在培养或检验学生独立思考能力与人类基础技能,关键在于通过评价设计本身的结构性调整,增强评价“抗人工智能干扰”的属性,杜绝学生使用人工智能的可能性,而非外在的规则约束,如发布禁止使用人工智能的相关规定等。实现这种结构调整的最有效方式是将评价从“异步模式”转为“同步模式”,如口头答辩、课堂演示、汇报等,在学习活动中降低学生违规使用人工智能的可能性。然而,教与学是一项复杂的系统工程,并非所有评价都能或都应在受控环境中进行。因此,除了在评价过程中从物理层面排除人工智能的使用外,教师应将精力更多地投向学习任务的设计,使人工智能难以代替学生完成任务,或使这种人工智能代劳的行为失去意义。如设计情境化应用任务,要求学生将知识或技能应用于时事热点或近期课堂讨论中;强化过程记录,要求学生提交能证明其思考过程的材料,以展示其思路的演变等。 2.人工智能辅助评价设计 在允许学生在评价中使用人工智能时,教师必须审慎决策人工智能使用的适宜场景与受限场景,以确保人工智能能够支持而非削弱预设的学习目标。《报告》认为人工智能可在评价流程的多个阶段参与其中,并以学生完成作业为例,提供了人工智能使用图谱(见表1),概述了学生可能与人工智能产生交互的关键节点。教师可借助该图谱,将人工智能的使用与特定学习目标相匹配,并确定人工智能在哪些环节被允许使用、在哪些环节需受限制、在哪些环节需要明确的指导说明等。对于评价中应限制人工智能使用的部分,教师应重新设计这些内容,以确保其具备“抗人工智能干扰”的属性,而非单纯依赖学生的自觉遵守。表1 学生完成作业场景中人工智能使用图谱

3.人工智能融合评价设计 与无人工智能评价、人工智能辅助评价相比,人工智能融合评价更侧重于培养学生人工智能素养,如表2所示。此外,人工智能为变革评价实践带来巨大的潜力,可引入评价学生学习进度的新方式,增强评价与现实场景的关联性,并助力学生人工智能素养培养。当下,全球范围内高校教师正积极尝试将人工智能融入评价设计。《报告》基于101个新兴人工智能融合评价案例的分析,发现其核心目标主要包括人工智能赋能传统评价、人工智能作为核心研究对象两类,并概述了14种新兴的人工智能融合评价设计方法,每种方法都映射到特定的学习成果和人工智能素养。表2 人工智能融合评价重点培养学生的人工智能素养概述

在人工智能赋能传统评价的活动中,人工智能被用作支持学生掌握特定学科知识与技能的一种工具,评价的核心仍聚焦于学科领域本身,但人工智能可通过优化评价流程或强化评价结果,为其增添价值。 主要有以下八种方法:一是人工智能引导学生自我评价与反思。学生通过与人工智能工具进行结构化对话,来检验、阐释、评价自己对某个概念或论点的理解。人工智能扮演对话伙伴的角色,提出探究性问题、提供反馈,并促使学生进行解释说明。二是人工智能先行,人工修订后续。学生在评价之初,先使用生成式人工智能工具生成初稿或解决方案。随后,由学生主导对人工智能生成的内容进行评价、修订,并在此基础上进一步完善。三是人工先行,人工智能复核。学生首先独立完成一项任务,随后使用生成式人工智能工具对自己的成果进行检查和完善。人工智能扮演“二次意见审核者”的角色,提出修改建议、指出内容漏洞或提出疑问。学生需批判性评价人工智能给出的反馈,决定采纳或拒绝哪些建议,并反思人工智能的输入如何影响自己的最终成果。四是用于分析的人工智能生成材料。人工智能生成供分析用的样本材料,如案例研究、情景设定或人工制品,学生随后会运用所学学科知识对这些材料进行分析。五是作为模拟协作者或角色扮演者。学生与模拟特定角色、专家或现实世界相关方的人工智能进行互动。在对话中,人工智能会代入预设角色,让学生得以练习沟通技巧、决策能力、共情能力、访谈技巧等。六是用于沉浸式学习。学生利用生成式人工智能工具打造丰富的体验,以深化对学科概念的理解。通过构建模拟场景、虚拟环境、角色或叙事内容,学生得以置身于所学内容对应的世界之中。其目标是将人工智能作为叙事或可视化伙伴,促进学生更深入地参与学习、开展创造性探索,并与复杂概念建立个性化的关联。七是人工与人工智能的工作对比。学生针对同一任务,对人工生成成果与人工智能生成成果进行分析和对比。评价的目的并非评价人工智能本身,而是将这种对比作为一种视角,以强化特定学科领域的专业技能。八是作为辅助工具的人工智能。学生将人工智能工具作为协作者,在任务的一个或多个阶段加以运用。评价重点在于考查学生如何将人工智能融入自身工作流程,以提升成果质量、创新性或见解的深度,同时仍需体现学生自身的主导创作地位与批判性思维能力。 将人工智能作为核心研究对象的活动,旨在帮助学生理解人工智能的工作原理、局限性、潜在风险以及社会影响。主要有六种方法:一是对人工智能生成内容进行评价。学生需从准确性、偏见性、相关性、整体质量等维度,对人工智能生成的内容进行批判性分析与评价。此环节的核心在于理解人工智能为何会生成特定内容,以及如何对这些内容的质量进行评价。该方法也是乔安娜(Joanna)等提出的评价性判断能力——“对自己和他人的工作质量作出决策的能力”[4]在人工智能时代的进一步强化。二是提示词工程与过程分析。学生需参与人工智能提示词的设计、优化与测试。该评价侧重于分析提示词设计的差异如何影响人工智能的输出结果,并理解人工智能的底层机制、潜在偏见或运行逻辑。三是人工智能伦理、政策与社会影响。学生需批判性地审视人工智能在伦理、政策及社会层面的影响,尤其聚焦其带来的益处与风险。此类评价旨在帮助学生深入且全面地理解人工智能对社会的影响,并培养其以负责任的态度运用人工智能的意识与能力。四是建设性误用。在可控、符合伦理的情境下,学生通过有意“误用”人工智能工具,探索其能力边界与薄弱环节。该方法旨在帮助学生深入理解人工智能可能被用于有害目的的方式,进而培养对人工智能潜在风险的批判性认知,并为制定负责任的人工智能使用策略提供参考。五是作为情境案例研究。学生将人工智能作为特定实例或现象,用于研究某一特定学科领域内更广泛的概念。六是作为人工制品。学生设计、开发或策划一件可感知的人工智能人工制品(如聊天机器人)。该评价侧重于考查学生对人工智能实际应用的理解,以及他们在特定情境下对人工智能的优势、挑战和伦理考量所进行的批判性反思。
(一)强化育人导向是技术赋能教育评价体系重构的逻辑起点 在激烈的国际竞争下,世界各国对高质量高等教育体系建设的需求比以往任何时候都更为迫切。评价是一种与质量紧密关联的价值判断活动。质量是最为常见但又是一个让人对其内涵很难达成共识的概念,这就增加了评价设计的复杂性。但从以往的研究来看,把握质量的主体性、时代性、情境性特征,对思考评价活动中“谁来评”“用什么方式、手段或方法评”“评什么”等要素改革有着重要的指导意义[5]。近年来,与主体性、情境性特征相比,质量时代性特征的演变使技术赋能评价改革引起国际学者的广泛关注,对人工智能在院校发展、课程教学、学生发展等不同层面引发的评价主体协同性改革、评价客体变革性改革、评价工具创新性改革、评价原则破坏性改革等展开全面讨论[6]。 与现有学术研究更多倾向于注重发挥技术优势推动评价改革的“技术先入为主”的特点相比,DEC借助全球性实践社区的独特优势,聚焦教师课程教学层面,更加侧重评价先行的改革理念,凸显了人工智能的应用导向,对高等教育评价设计中科学、合理地引入和应用人工智能进行了全面、系统的梳理和分析,创新性地提出五阶段评价闭环,以学生学习成果为起点,全面剖析人工智能对教育评价的影响,对深化教育评价设计中人工智能价值的深度认知有着重要的理论指导价值。同时,《报告》又以人工智能在评价实践中促进学生发展的角色或作用不同,创新性地提出无人工智能评价、人工智能辅助评价、人工智能融合评价三种评价类型,并基于“抗人工智能干扰”为核心的关键设计原则,提出在教育评价设计中引入和应用人工智能,既要注重学生人类基本技能的培养,同时也要注重人工智能素养养成的两个优先事项。整个报告清晰且显著地表明,推动学生发展是在评价设计中引入并应用人工智能的逻辑起始点。这与当前众多高校过度崇尚技术,在评价改革中盲目追求新技术,导致存在“技术至上主义”的风险,如过于关注易于测量且最终可评价的指标,而非真正具有重要意义的指标,导致技术性效度取代规范性效度,评价改革技术性突破与科学性突破的逻辑关系错乱,甚至出现以技术性突破作为科学性突破等不良现象[7]。在此导向下,《报告》结合实践案例,提出各种评价类型的实用设计指南,对在高等教育评价中充分发挥人工智能赋能效应,增强评价科学性、真实性,促进学生全面发展有着重要的实践指导价值。 (二)人工智能与OBE理念融合是高等教育评价改革发展的新取向 《报告》对教育评价设计中引入和应用人工智能的讨论,核心聚焦教师课程教学层面。这与国际学者普遍将推进教学评价改革作为人工智能助力教学改革重要切入点的观点一致[8]。与已有研究相比,《报告》重点以OBE理念为指导,对教师在课程教学评价设计中引入和应用人工智能进行了全面梳理。《报告》不仅以OBE理念为指导,设计了评价五阶段环形模型,并以此为框架分析了人工智能对高等教育评价设计的影响,还以人工智能在学生学习成果取得中扮演的角色或作用发挥情况为依据划分了三种类型。这充分体现了OBE理念对高等教育教学模式改革的重要影响,也对在高等教育评价设计中科学、合理地融合人工智能有着重要的指导价值。 学习成果评价是教育质量管理的关键环节之一[9]。学生学习成果不仅体现在作业和考试中,更蕴含于其课堂参与、协作讨论、情绪状态等行为表现中。在数字时代,传统的、以终结性考试为主要形式的学生成果评价方法,因其时效性差、维度单一、无法提供及时诊断性反馈等,已难以满足个性化教育和持续教学改进的需求。人工智能时代,机器学习、深度学习技术、多模态数据分析技术的崛起,为破解这一难题提供了前所未有的机遇。如沙基布(Shakib)等提出六阶段“AI 赋能认知:面向成果导向学习”框架(AI-Enhanced Cognition for Outcome-Based Learning,ACE),助力生成式人工智能赋能学生非结构化学习成果的评价,更好地促进大学生高阶认知能力的发展[10]。 近年来,在人工智能的技术支持和OBE理念的理论指导下,基于成果导向的评价(Outcome Based Assessment,OBA)为教育教学评价体系优化,推动教育教学各层面动态联动和质量持续改进提供了新的思路,引发国际学者的广泛讨论。如纳扎尔(Nazar)等通过自然语言处理技术,实现课程学习成果到专业学习成果的自动化映射和验证,以及课程与专业质量联动,并基于整体、协同的视角为课程及专业建设提供了针对性改进建议[11];威多瓦蒂(Widowati)等运用包括机器学习算法和自然语言处理在内的人工智能技术,对海量教育数据进行分析,充分表明人工智能在识别学习差距、预测学生学习成果、推荐个性化学习路径,进而全面提升教育体验方面具有显著优势[12]。 与现有的学术研究相比,《报告》更多注重为高等教育评价设计中人工智能的应用提供方法论指导,而现有研究成果则更多聚焦于技术上的实现。总之,以OBE理念为指导,在高等教育评价设计中合理引入、应用人工智能,其根本价值不仅在于提升评价本身的效率与信度,更在于通过数据的实时流动与智能分析,成为连接教育教学活动各要素、驱动各主体协调联动的核心枢纽,推动教育系统向数据驱动、个性化、协同化的方向演进。将人工智能与OBE融合,是推动高校教育教学质量持续改进的前沿话题,也成为当下优化高等教育教学评价体系的新取向。
(一)推动人工智能与成果导向相结合是优化高校教育教学评价体系的现实需要 推进人工智能与OBE的深度融合是有效解决我国高校教育教学改革现实问题的迫切需要。从陕西32所高校新一轮审核评估数据的分析来看,现阶段高校OBE理念落实普遍不够深入,主要集中表现在以下三个方面: 在设计层面,对培养目标、毕业要求、课程目标等之间关联性矩阵的设计不够紧密,相互支撑度低;在实施层面,对各环节教育教学数据的动态采集、集成存储和关联分析深度普遍不够;在持续改进层面,受限于实施层面关键环节数据分析深度不够,导致对课程目标、毕业要求及培养目标的达成度评价不够精准有力,评价结果对设计层面各维度持续优化的支撑度不够,持续改进机制不够健全,改进效果不佳。这些问题是我国加快建设“自强卓越的高等教育体系”亟须解决的短板。因此,以人工智能技术为支撑,以成果导向评价理念为指导,以质量持续改进为核心,持续优化完善现有教育教学评价体系,是增强高校教育教学自我评价能力的需要,也是以成果导向评价为牵引,推动OBE理念在高校教育教学改革中深度落实的迫切之策。 (二)大学生学习成果的设计要全面统筹人类智能与人工智能技能的培养 从《报告》提出的五阶段评价闭环来看,高质量学习成果的设计是科学规划设计人工智能在各环节应用的前提和先导,对推动无人工智能评价、人工智能辅助评价、人工智能融合评价等多种类型的合理组合有着重要的指导作用。 在学习成果设计中,全面统筹批判性思维、沟通协作、创造力、伦理决策、跨文化理解等人类智能,以及数据素养、机器学习基础、自然语言处理、AI工具应用、伦理治理能力等人工智能素养,是大学生适应和引领经济社会发展变革的必然要求。为推动该理念的有效落实,高校应立足本校实际,建立健全人才培养方案审核机制,加大对培养目标、毕业要求、课程体系等不同层面对大学生人类智能、人工智能素养全面统筹培养的覆盖度;鼓励教师开展单元式、项目式的教学模式改革,推动教学流程再造,为人工智能在教育教学评价各环节、各阶段的全面规划、设计和应用创设可能空间;研制教师在教育教学评价设计中合理引入、应用人工智能的指导性框架,鼓励、引导教师合理规范、创新性地应用人工智能;变革教育教学督导标准,吸引行业企业人员、技术专家等参与日常教学督导,优化督导队伍结构,提升督导素养,以外部评价改革保障教师在全面培养学生人类智能与人工智能素养的同时,确保人工智能工具应用的合理性、有效性。 (三)全方位打造与高等教育改革相适应的教师发展生态 教师是在高等教育评价设计中引入和应用人工智能的核心人物。《报告》提出“抗人工智能干扰”是高等教育评价设计中应用人工智能的关键原则。其对优化和完善高等教育评价中人工智能工具应用的核心启示在于:将改革焦点聚焦于设计层面,如教学模式设计、学生学习任务设计等,提高学生应用人工智能的挑战度,为人工智能作用的发挥创设包容性生态,而不是通过“人工智能禁令”等强硬举措保障学生学术诚信。这种改革也对教师专业素养提出更高的要求。在我国加快推进高等教育数字化改革、持续深化教育评价改革的双重背景下,要加快建立健全与我国高等教育改革相适应的教师发展生态。对此,应鼓励本土化试点与案例研究,进一步优化设立国家级或省级“人工智能+高等教育评价”改革试验区和试点校,鼓励不同类型、不同地区的高校根据自身定位和条件,探索各具特色的人工智能融合评价模式,系统收集并推广成功案例和实践经验。适度优化拓展“人工智能+高等教育”典型应用场景案例遴选,聚焦人工智能赋能教育评价场景,根据人工智能在人才培养成效达成中的作用发挥情况、扮演角色等,分类遴选人工智能优化教育教学评价的典型案例,多方向引领教师合理应用人工智能工具,适度扭转“不应用人工智能就不算改革,就没有创新”的过度技术崇拜。同时,强化技术应用育人导向,全面改革高校教师教学创新比赛,深化技术创新应用内涵,为教师在教育教学评价中合理规划人工智能应用创造良好的生态。
人工智能为优化教育教学评价提供了重要的机遇和可能。但教育教学评价改革是一项复杂的系统工程。发挥人工智能技术优势,推进教育评价改革,关键不在于技术的堆砌,而在于以人为本的制度设计与文化重塑。从评价的演变来看,随着教育评价理论研究和实践的深入开展,有学者提出以自我评价为中心的第五代评价[13]。这与我国现阶段持续强化高校教育教学质量自我保障能力建设的院校评价实践不谋而合。面向未来发展,我国高等教育体系应以积极、审慎、开放的态度,聚焦高校教育教学自我评价,拥抱人工智能带来的变革,将技术创新与立德树人根本任务紧密结合,构建一个既能激发学生潜能,又坚守教育公平与伦理底线的新一代评价体系。
[1]刘邦奇,姚兰婷,郭涛歌,等.2015—2025年我国智能教育应用研究的重点领域与主要进展[J].中国教育信息化,2025,31(9):25-37. [2]Digital Education Council. The next era of assessment: A global review of AI in assessment design[EB/OL]. (2025-07-07)[2025-10-11]. https://www.digitaleducationcouncil.com/post/the-next-era-of-assessment-a-global-review-of-ai-in-assessment-design. [3]CORBIN T, DAWSON P, LIU D. Talk is cheap: Why structural assessment changes are needed for a time of GenAI[J]. Assessment & Evaluation in Higher Education, 2025,5:1-11. [4]JOANNA T, ROLA A, DAVID B, et al. Developing evaluative judgement: Enabling students to make decisions about the quality of work[J]. Higher Education, 2018,6(3):467-481. [5]李运福,徐菲.专业与课程联动评估探析[J].上海教育评估研究,2025,14(4):12-16. [6]李运福.人工智能赋能高等教育评价改革的国际借鉴[J].电化教育研究,2025,46(2):32-40. [7]李运福,张萍.大模型赋能高校自我评价研究[J].中国电化教育,2025,10:87-94. [8]李运福,徐菲,李婷.国际教育领域人工智能研究热点分析与启示[J].中国教育信息化,2023,29(2):27-41. [9]马凤岐.我国高校教学质量管理中的僭越[J].大学教育科学,2020(2):97-104. [10]SHAKIB S S, ZISHAN A, AKINUL I J. A proposed framework for achieving higher levels of outcome-based learning using generative AI in education[J]. Educational Technology Quarterly, 2025,1:1-15. [11]NAZAR Z, TURAEV S, SHUAIB K, et al. Automating the mapping of course learning outcomes to program learning outcomes using natural language processing for accurate educational program evaluation[J]. Education and Information Technologies, 2023,28:16723-16742. [12]WIDOWATI P, HERI N. Utilization of artificial intelligence in Outcome-Based Curriculum evaluation and development[J]. Journal of Research in Social Science And Humanities, 2024,4(1):131-133. [13]GUSTAVO A, RAMON A. The fifth generation of evaluation: Evaluating for quality[EB/OL]. (2017-06-08)[2025-10-11]. https://artshumanitieshawaii.org/wp-content/uploads/2017/08/Mata-Toledo-Ramon-A.-2017-STEAM-HUIC.pdf.
Integration of AI and OBE: A New Orientation for the Reform of Teaching Assessment in Higher Education—Based on the Analysis of The Next Era of Assessment: A Global Review of AI in Assessment Design
Yunfu LI(West China Higher Education Evaluation Center, Xi’an Jiaotong University, Xi’an 710049, Shaanxi)

