王佑镁,郭府宁,王旦,等.数据全生命周期:教育数据伦理风险防范新视角[J].中国教育信息化,2026,32(01):74-83.

大数据、人工智能等新一代信息技术正在深刻重构着教育的组织和服务模式,推动人类教育向“智慧教育”阶段演进[1]。然而,在提升教学效率与个性化服务的同时,这些技术也伴随着隐蔽性、诱惑性的伦理风险[2]。高校作为数据产生、拥有和使用的主体,在利用数据时,难以实现关联、统计、分析、挖掘,无法形成整体视图,数据的价值得不到充分开发利用,管理水平难以提升,重要决策难以支撑,导致教育数据隐私侵害、利益失衡、责任失守、数据服务偏见等教育数据伦理问题日益凸显[3]。 学术界对智慧教育环境下教育伦理问题的批判性反思较少[4],尚未形成公认且可操作的教育数据伦理规范准则[5]。现有治理规范缺乏操作性与细节性,监管执行机制模糊,且覆盖面有限,难以有效应对复杂多变的风险问题。因此,如何从方向性治理转向实践型治理,构建系统、全面且具有明确操作路径的治理方案是当前亟须解决的核心问题。本研究从数据全生命周期的视角出发,剖析了当前高校教育数据伦理风险识别现状,设计了教育数据伦理风险框架,以识别潜在的教育数据伦理风险,并提出教育数据伦理风险管理与防范措施,为优化教育数据服务、赋能科学决策、推进教育信息化建设提供新的思路和路径。
无论是基础教育还是高等教育,数据采集可能涉及更为敏感的信息,如研究成果、实验数据等,这些信息对数据安全提出更高的要求;随着数字教育的推进,学生有更高的个人权益保护意识,在教育数据知情权和自主掌握权方面有着更严格的要求[6]。因此,在数据使用目的、数据主体的成熟度、数据处理的复杂性等方面,要求学校在教育数据管理上采取更为专业和严格的措施,以保障教育数据的安全和合理利用。 综上所述,本文从教育数据全生命周期整体,以及教育数据全生命周期易发生的伦理问题的各阶段切入,深入分析智能时代教育数据伦理风险治理现状,主要表现如下: (一)教育数据伦理监管制度缺失,数据责任难以落实 在智慧教育环境中,涉及教育数据隐私的安全问题屡有发生。其根源在于系统性、制度化保障的缺失。教育数据包含大量个人敏感信息,如学生的成绩、课程选择、学习行为等。这些信息的泄露或滥用可能会对学生和教师的个人权益、教育公平和教育机构的声誉造成严重损害。学校因缺乏相应的教育数据伦理监管机制,教育数据的收集与使用常欠缺透明度、明确目标以及合法依据,在操作层面存在随意性与模糊性。 建立有效的伦理制度保障是解决教育数据伦理问题的第一步。伦理制度是消除和破解伦理风险的最有效举措,它是以“强制性”的形式面向人类教育实践中人机关系和社会行为的一种制度性约束和规范[7]。然而,覆盖教育数据全生命周期的、细化的伦理监管框架尚未形成。现有的伦理规范制度过于原则化和碎片化,无法为数据全生命周期的各个环节提供清晰、可操作的行为准则,导致风险防范陷入“无章可循、无责可追”的困境。 (二)教育数据利益博弈失衡,开放共享诉求难以实现 教育数据具有重要的研究和应用价值,通过对教育数据的分析,可以发现教育的有效性和不足之处,为教育政策的制定和改进提供了依据。此外,教育数据还可以用于教学评估、学生个性化辅导、教学实验等领域,促进教育的发展和提高教育质量。但其价值的充分释放面临严重的结构性障碍,一些部门将教育数据视为重要的战略资产,严格限制数据的开放流动。在数据利益和数据开放之间寻求有效的平衡,是目前数据治理面临的核心难题。数据垄断尽管在一定程度上避免了数据泄露,但究其原因是现有的治理体系未能有效调和数据价值开发与隐私保护、部门局部利益与教育公共福祉之间的深刻矛盾。如何科学界定数据的使用权限、如何公平规范地分配数据利益、如何建立数据共享机制、如何提供可靠安全保障等问题亟待解决。 (三)忽视师生意见,教育数据主体地位弱化 教育数据分析作为一种教学决策的支持工具,在教育过程中被广泛使用。它可以帮助教育机构更好地了解学生的学习需求和教师的教学效果,进而优化教学方法和资源配置。但在实际的教育数据分析过程中,教育机构往往过于重视科技、数据和算法,却忽视了师生的实际需求和意见,师生作为数据生成的核心源头和直接应用对象,其主体地位被系统性弱化。弥合技术开发者与教育实践者之间的认知鸿沟,是摆脱该困境的关键所在。但目前的智能教育开发结构呈现出一种“技术中心主义”偏差,缺乏对数据主体基本权利的保障,以及数据主体实质性参与数据治理决策的方式。师生在教育数据全生命周期的各环节中缺失话语权,反馈难以被系统性地倾听、采纳和回应,最终导致数据分析结果可能偏离教育目标。
(一)教育数据伦理风险及其表现 教育数据伦理风险是指在收集、存储、分析、使用和共享教育数据的过程中,损害或侵犯教育数据主体或其他社会利益的风险问题。随着智慧教育的持续推进,大规模生成的教育数据在提升教学质量、优化资源配置等方面具有重要价值,也引发一系列伦理风险。 1.隐私保护与数据利用的相互制约 在智慧教育环境下,学生的个人信息、学习行为、学习结果记录等数据被广泛收集,用于教学分析等情况。由于教育数据伦理规范在操作性和细节性方面存在明显不足,导致教育数据的隐私保护与数据信息的有效利用之间存在明显的不平衡性[8],这也是隐私保护制度缺失的一种体现。现有制度多停留在原则性层面,在具体操作环节比较模糊,本质上是治理规则对数据技术应用的快速迭代与复杂性适应性不足、前瞻性设计缺位的体现。 2.算法分析对学习主体个性发展的压制 随着人工智能和大数据的发展,推动了以数据驱动为基础的个性化教学的实现,数据驱动的教学模式呈现出科学化、精准化、智能化、个性化等特征[9]。但这些个性化教学方案,其本质是算法的逐层筛选,这在一定程度上束缚了学习主体的知识接受面,导致学习主体的自主性被压制[10]。从根源来看,当前治理体系未能将“学习者中心”理念融入技术开发,对算法在教育中的角色定位、干预程度与边界界定缺乏审慎评估与制度性约束。这也反映了教育数据治理在调和技术逻辑的“刚性”与教育过程的“柔性”之间的价值冲突。 3.监管体系和治理结构存在明显滞后性 伴随着人工智能、大数据技术在教育中的广泛应用,教育技术变革与监管制度调适之间存在的步调差异造成不可忽视的治理鸿沟,对现有的监管体系和治理结构提出严峻的挑战[11]。数据处理过程透明度不足,导致利益相关者对数据管理者的信任度降低。同时,对于数据管理者来说,由于缺乏有效的监督和问责机制,在数据管理出现问题时,难以追踪责任人和及时补救。现有监管架构与治理模式规则制定周期长、更新慢,监管手段往往单一、被动,主要是事后响应,缺乏贯穿整个数据全生命周期的、权责利明晰的动态责任认定、追踪与落实框架,导致治理效能低下,风险持续存在。 4.算法偏见与歧视影响教育公平与包容性 在使用算法和数据分析工具进行教育活动时,由于算法设计、数据来源或处理过程中的偏差,智慧教育场景下的算法歧视现象层出不穷,其主要歧视对象为教育受众中的弱势群体,从而导致诸如“学历歧视”“性别偏见”等问题,成为社会对教育信息化诟病的主要原因[12]。算法偏见本质上是社会结构性不平等与认知偏见在教育数据采集、处理、应用等环节中的映射。现有治理未能有效识别和解构社会不平等结构,对算法可能加剧社会不公的风险警惕性不足,面向弱势群体的保护性、补偿性措施严重缺失。 (二)教育数据伦理风险防范 人工智能、5G等技术的迅速发展,改变了传统的教学方式,推动高校智慧教学模式和教学手段的变革。在智慧教育建设过程中,教育数据对教育价值观形成冲击,过度依赖数据、隐私泄露、监管制度缺乏等数据伦理挑战接踵而来,成为制约智慧教育发展的关键要素。祝智庭从人本教育人工智能视角,归纳了教育数据的隐私和安全监管的伦理问题[13];邹太龙从舍恩伯格的大数据教育应用思想出发,总结了教育数据使用过程中出现的教育鸿沟现象[14];其他教育数据伦理问题还包括教育数据隐私权与开放共享冲突、教育数据利益博弈失范、治理主体数据素养不足、数据服务偏见等[15]。学术界对于智慧教育环境下存在的教育数据伦理困境给予较多关注,但缺乏基于伦理风险和风险管理视角的研究,并且其关注多从现象或问题出发[16],缺乏针对性地进行风险治理与防范的研究。 教育数据的价值取决于教育数据的治理能力[17],智慧教育环境下的教育数据伦理问题也与规范可靠的治理机制密切相关。随着高校智慧教育建设的推进,教育数据风险治理有助于实现智慧教育环境下从原则到真正实践的“伦理转向”[18]。但现有的教育数据伦理治理规范往往给人一种“倡导性”而非“遵守性”的印象,缺乏操作性与细节性。刘三女牙等从教育数据伦理本体论与价值论出发,提出提升治理者教育数据素养的重要性[19];戚万学等从数据主体和数据客体两方面综合提出教育数据伦理诉求[20];谢娟从数据收集阶段的伦理嵌入、分析阶段的伦理调适和教育决策阶段的伦理评估三个方面构建数据伦理治理框架[21]。其他治理规范还包括:多层责任分配制度、问责制和自我监控降低算法偏差等[22]。从中可以看出,大多数教育数据伦理治理规范缺乏操作性与细节性,如何从方向性治理转向实践型治理,还需要探究系统、全面、明确的操作性解决方案。 近年来,一些国际组织和各国政府已经开始探讨并相继发布有关人工智能伦理治理倡议,提出教育伦理问题的合理边界与积极举措,呈现出数据全生命周期模型的雏形。联合国教科文组织(UNESCO)在人工智能伦理标准的关键原则中提出,要在人工智能系统的整个生命周期中进行伦理保护[23]。《北京共识——人工智能与教育》也指出应在整个价值链全过程中监测并评估人工智能对人和社会的影响。作为人工智能伦理的相关维度,教育数据显然也存在生命周期,即教育数据全生命周期[24]。 从教育数据全生命周期的视角切入来看,教育数据伦理贯穿数据全生命周期的每个阶段。研究者认为,从数据全生命周期角度切入,能够提高数据管理效率,降低隐私泄露等伦理风险,不仅可以识别有害且不符合伦理道德的数据处理行为,还能确定其是否符合法律框架和标准[25]。显然,数据全生命周期与教育数据伦理问题密不可分。
(一)数据全生命周期模型 典型的数据全生命周期模型主要包括数据规划、收集、处理、保存、发现、获取等阶段[26]。由于教育数据的数据价值巨大,且涉及的类型繁多、时效性强、主体范围大等,其安全问题备受关注。相较于当前多数研究聚焦数据全生命周期的特定阶段(如存储或应用环节)[27],本研究认为隐私泄露与伦理风险实质贯穿教育数据从生成到消亡的全过程,必须构建覆盖全生命周期的系统性治理视角[28]。通过伦理嵌入设计等技术手段,建立多层责任分配制度,从教育产品开发、部署到使用全过程进行伦理风险监督,这也符合教育数据全生命周期全过程监督的概念。 (二)教育数据全生命周期的六个阶段 教育数据全生命周期是指教育数据从产生到消亡的全过程。本研究根据周以真教授的数据全生命周期模型和高校教育教学数据特点,将教育数据全生命周期核心进行了六段划分,包括数据收集、数据处理、数据储存、数据管理、数据可视化、数据应用。由于教育数据伦理风险问题存在于数据全生命周期的每个阶段。因此,从各数据阶段入手分析教育数据伦理风险的生发逻辑,能够为教育数据安全提供内生的、全方位的伦理保障。 一是数据收集阶段。主要包括师生信息采集、学习行为记录、教学效果数据等。在此过程中,涉及知情权、选择权、压抑学习主体主观表达等一系列教育数据伦理问题。二是数据处理阶段。主要是将重复、低质量的数据进行修正处理,提高后续数据存储效率,使数据从原始状态转换为更易访问和使用的形式,便于有效储存。该阶段涉及的主要数据伦理问题是数据脱敏。数据脱敏不彻底容易引发个人信息泄露等数据安全问题。三是数据储存阶段。由于教育数据的体量庞大,该阶段通常使用云端储存模式,平台的安全程度决定了数据隐私保护水平。同时,随着技术的发展,永久数据也逐渐从概念变为现实,部分数据标签可能会成为学生特征的一部分。四是数据管理阶段。在数据收集、存储、处理、分析、使用等过程中,需要数据管理者对其进行规划、监督和控制,确保数据的有效利用和安全保护。如何平衡数据效用与个人隐私之间的关系,如何最大化地发挥数据效用等伦理问题,与管理者的伦理素养息息相关。五是数据可视化阶段。该阶段对收集到的教育数据进行处理和展示,以发现教学过程中的规律变化。在使用算法进行数据分析时,算法偏见、数据利益等伦理问题频繁发生。六是数据应用阶段。主要是将分析后的教育数据用于实际的教学、管理、决策支持等场景中。在此阶段会涉及多方利益冲突,如何保证教育数据价值公正分配等问题亟待解决。因此,教育数据全生命周期各阶段的伦理问题需要通过综合考虑隐私保护、数据利用的合理性、责任担当、制度保障、利益博弈、数据素养、服务偏见等方面来妥善处理。 (三)教育数据全生命周期与PDCA循环的融合 针对现有治理模式普遍存在的“静态性”与“碎片化”缺陷,本研究创造性地融入PDCA循环理念。PDCA循环理念是由美国质量管理专家沃特·阿曼德·休哈特(Walter A.Shewhart)首先提出的[29],主要分为四个阶段:计划(Plan)、执行(Do)、检查(Check)和处理(Act),是项目质量管理和持续改进的重要手段。PDCA循环理念具有封闭循环、环环相扣、递进式发展三重特性。基于上述三个特性,在项目管理过程中,各项工作都依照部署计划、执行计划、检查执行效果,随后将成功案例文档化保存,存在的问题进入下一循环。通过多次循环处理,可以使项目内容螺旋递进至最佳目标点。PDCA 循环在多个领域都具有明显成效,尤其是在教育管理领域[30]。 PDCA循环理念下的教育数据全生命周期体系是一个由若干个环节构成的有机整体(见图1),横向包括数据全生命周期的六个阶段,每一阶段都需要相应的风险管理保障,并且数据生成全过程中,每一阶段都具备独立性。纵向通过PDCA循环理念进行各阶段的管理。教育数据全生命周期的每个阶段都需要制定可执行的、细化的制度保障(计划阶段);之后,由于各阶段的独立性,在数据运行过程中,各阶段需要根据不同特点进行分工实施(执行阶段);根据不同阶段需达成的数据运行效果,分阶段进行风险评估分级处理(检查阶段);最后针对各阶段存在的案例,将成功的案例予以文档化保存,失败的案例进入下一循环(处理阶段)。将PDCA循环理念应用于教育数据全生命周期管理,可将数据全生命周期各阶段存在的风险项分门别类处理;同时,PDCA循环具备动态响应能力,其闭环检查与处理机制构建了强约束力的问责链。数据全生命周期视角通过其全域覆盖性和动态闭环性,为教育数据伦理风险治理提供了兼具系统性、操作性及前瞻性的解决方案。

图1 PDCA循环理念下的教育数据全生命周期体系
智慧教育为教育过程监控、精准诊断和个性化指导提供了机遇。在智慧教育环境下,教与学的行为都会留下数据,利用数据直观表达教学实践的本质和规律,有助于提升教育决策的科学性、准确性。但产生数据的同时,也伴随着教育数据产权模糊、数据安全隐患、师生隐私泄露等问题[31]。教育数据的价值取决于教育数据的治理水平,在众多治理方法中,风险管理是应对人工智能伦理问题最有潜力的路径。在明确教育数据伦理风险的基础上,通过分析实际教学过程中存在的风险问题,结合风险管理方法在教育方面的应用潜力,本研究参照ISO/IEC 27001和ISO/IEC 27005相关标准[32],依据教育数据全生命周期各阶段中存在的伦理风险问题,建构同时适用于数据全生命周期六大核心阶段的伦理风险循环治理体系。 本研究根据ISO/IEC 27001和PDCA循环模型,结合戚万学等提出的教育数据伦理诉求[4],针对教育数据伦理风险所面临的问题以及希望达成的教育数据伦理期望,从伦理风险降低、伦理风险保持、伦理风险回避和伦理风险转移四个层面提出风险处置方法,并构建PDCA循环模型在教育数据伦理领域的应用方案,共包括四个阶段,如图2所示。

图2 PDCA循环模型在教育数据伦理方面的应用 (一)计划阶段 引入ISO/IEC 27005信息安全风险管理标准,在风险识别和评估后,提出相应的风险处置计划。首先,针对目前智慧教育中数据伦理风险的结果进行分析,就目前存在的监管制度缺失、数据责任落实、开放共享程度等伦理风险,应针对其在教育数据全生命周期各个阶段可能出现的伦理风险进行逐次分析,在进行数据采集前做好各阶段的预防措施。已有的研究表示,在计划阶段,从参与者管理和设备硬件升级两个方面进行切入是最有效的风险处理措施[33]。因此,在计划阶段主要对以下两个方面进行处理: 1.增强网络系统安全保障设备,定向升级技术防护 通过增加网络安全设备投入量,可最大程度地降低网络攻击和数据泄露的风险。同时,也应建立起有效的数据监控机制,对数据全生命周期进行及时检测并阻止数据泄露事件。 2.分层设计数据素养提升培训,强化网络安全意识教育 围绕管理层面“数据应用—隐私保护”的平衡难点,为数据管理者、教师、技术开发者定制差异化培训课程,保证其均具备相应的数据安全意识。除定期开展相关培训学习外,还要进行内部审核和评估,对第三方的行为进行及时审核,提高其责任意识。 (二)执行阶段 根据目前智慧教育中存在的监管制度缺失、数据安全保障、教育数据主体地位弱化等数据伦理风险问题,在执行阶段应重视以下几个方面: 1.建立教育数据伦理规章制度,重视全面覆盖性和可操作性 应尽快制定和完善覆盖数据全生命周期的教育数据法律法规,制定明确的教育数据管理规范,包括数据采集、存储、处理、分析、应用等各个环节的操作规程。在有法可依的基础上,要同时建立有效的监督机制,确保教育数据伦理规章得到严格执行。 2.增加数据安全设备投入量,对教育数据全生命周期进行监测 在计划阶段已经对教育数据全生命周期中存在的潜在风险进行全面评估,根据风险评估等级,在各阶段选择投入适当的数据安全设备,实现对教育数据全生命周期的实时监控,及时发现并应对教育数据伦理风险问题。 3.定期收集师生意见反馈,尊重数据主体需求 贯通主体反馈通道,设立涵盖教育数据全生命周期的反馈平台,提供方便师生进行快速反馈的渠道,并定期对其进行二次反馈,跟踪其需求变化,识别目前教育数据处理过程中存在的主要问题和师生的教学需求着重点,更好地了解师生的需求和期望,优化教育数据管理流程,提高数据的使用效率和满意度。 (三)检查阶段 此阶段主要是对教育数据的各阶段数据利用进行全程跟踪并进行风险估测分级,检查处理阶段措施是否有效,并识别新的潜在风险。在检查阶段,主要重视以下几个方面: 1.定期进行数据安全审计,建立数据安全管理流程 对学校教育数据系统和管理制度进行定期考核,邀请专家评估数据系统存在的风险和缺陷,并为其制定或更新教育数据保护政策和程序,确保数据安全管理能得到长期推行。 2.完善风险评估机制,量化和质化双重分析 为避免评估结果过于依赖算法处理,应从质化角度入手,收集教师和学生对教育数据生成各阶段的风险考量点作为评估依据进行分级,尊重师生的数据主体地位和使用需求。 (四)处理阶段 对于成功经验加以肯定并文档化,以便之后学习借鉴;对于存在的问题及时处理;对于没有解决的问题,应在多方讨论下,进入下一个PDCA循环继续解决。在处理阶段,主要强调解决数据全生命周期每一阶段出现的问题,从而促进数据全生命周期整体进行滚动式持续性前进,实现构建数据安全伦理共同体的最终目标。该阶段以最佳实践制度化、遗留问题攻关化为核心策略。 PDCA循环模型为数据治理提供了一种动态、连续治理的新思路,为教育数据伦理风险治理建立了一个完整的框架结构,促进教育数据治理持续改进。通过循环迭代,可对教育数据风险问题进行多次评估和优化,不断调整和完善治理策略,能够使教育数据风险治理体系逐渐完善,解决风险问题,提升风险治理水平,以实现教育数据安全伦理共同体的期望。
随着大数据、云计算、人工智能等技术的广泛应用,智慧教育已成为推动教育现代化、提高教育质量的重要手段。本研究首先分析了智慧教育环境下数据伦理风险的发生形式和问题挑战,并在此基础上提出一种全新的治理视角——数据全生命周期治理,探讨数据全生命周期在教育伦理问题方面的治理潜力。通过调查研究等方式,了解浙江某地高校教育数据使用过程中存在的伦理问题现状,从数据全生命周期的治理视角切入,并结合ISO/IEC 27001和ISO/IEC 27005相关标准,设计PDCA循环模型在教育数据伦理方面的应用,搭建完整的教育数据伦理治理框架,以确保教育数据的合理、安全、有效使用,同时保护学生和教师的权益,维护教育的公平性和公正性。本研究可为教育数据伦理问题的治理提供坚实的理论基础和方法指导,为深化教育综合改革、办好人民满意的教育、推动每个人终身发展提供重要的载体和工具。

