2022-01-23 08:25

不忠实可能意味着有效的教育策略永远不会见天日

woman scientist

一项研究警告说,有希望的新的教育干预措施可能被“不必要地废弃”,因为测试其有效性的试验可能不够忠实于最初的研究。

研究人员对1.1万多项研究试验进行了大规模计算机模拟,以检验“逼真度”对结果的影响有多大。在科学和社会科学中,“忠实度”是指评估新创新的测试在多大程度上坚持创新所基于的原始实验的设计。

就像科学家会在一种新药获得批准前对其进行测试一样,提高学习能力的新策略在推出之前通常要在学校或其他环境中进行全面评估。

许多创新在这个阶段被拒绝,因为试验表明,这些创新很少或没有取得学习进展。然而,一段时间以来,学者们一直担心,在某些情况下,失信可能会影响审判。在许多情况下,保真度的测量或报告并不一致。

这项新研究对这一理论进行了检验。剑桥大学(University of Cambridge)和卡耐基梅隆大学(Carnegie Mellon University)的研究人员进行了数千次计算机模拟试验,以数百万名模拟参与者为特征。然后,他们研究了保真度的变化在多大程度上改变了干预的“效应大小”。

他们发现,即使是在保真度上相对细微的偏差也会产生显著的影响。在模拟的后续测试中,每损失5%的保真度,效应量相应下降5%。

在现实生活中,这可能意味着一些高潜力的创新被认为不适合使用,因为低保真度扭曲了结果。该研究指出:“人们越来越担心,教育干预中大量的无效发现……可能是由于缺乏忠诚,导致可能健全的项目被不必要地取消。”

这些发现可能对英国的教育捐赠基金会(EEF)或美国的What Works Clearinghouse等组织特别有用,这两家组织都对新的教育研究进行评估。EEF在其网站上报告了项目试验的结果。目前,超过五分之三的报告表明,正在测试的干预措施对学生没有取得任何进展,或产生消极的进展。

剑桥大学教育学院认知科学教授米歇尔·艾勒夫森说:“在这些试验中投入了大量资金,所以我们应该仔细观察它们对忠诚度的控制有多好。”研究的可复制性非常重要,但危险在于,我们可能会因为违反忠诚而抛弃有前途的干预措施,并在教师和研究人员之间造成不必要的信任差距。”

学者们经常提到“复制危机”,正是因为这么多研究的结果难以复制。在教育领域,试验通常由教师和研究人员共同进行。特别是,更大的研究,可能会因人为因素(如研究指示被误读)或研究环境的变化(如测试的时间或条件)而造成无意的保真度损失。

Ellefson和来自卡内基梅隆大学的Daniel Oppenheimer教授开发了一个基于计算机的随机控制试验,首先,在40个教室中,每个教室有25名学生,模拟了一个假想的干预。他们反复进行这个实验,每次都调整一组变量,包括干预的潜在效应大小、学生的能力水平和试验本身的保真度。

在随后的模型中,他们添加了可能进一步影响结果的额外的混杂因素——例如,学校资源的质量,或者更好的老师可能有更好的学生。这项研究结合了他们引入的具有代表性的变量排列,共模拟了11,055个试验。

引人注目的是,在整个数据集中,结果表明,在试验中每损失1%的保真度,干预的效应大小也会下降1%。这种1:1的对应意味着,即使是一个试验,例如,保真度为80%,也会看到有效大小的显著下降,这可能会使人们对所测试的干预的价值产生怀疑。

然后,一个更细粒度的分析显示,当预期的效应大小更大时,保真度损失的影响往往更大。换句话说,最有前途的研究创新对失信行为也更敏感。

尽管混杂因素削弱了这一整体关系,但在研究人员进行的所有测试中,保真度对效应大小的影响是最大的。

Ellefson和Oppenheimer建议,进行研究试验的组织可能希望建立更严格的程序来确保、衡量和报告保真度,以便他们的建议尽可能地可靠。他们的论文指出,2013年的一项研究发现,只有29%的课后干预研究测量了保真度,而2010年的另一项研究发现,只有15%的社会工作干预研究收集了保真度数据。

奥本海默说:“当老师们被要求尝试新的教学方法时,他们想要调整教学方法以适应特定学生的需要,这是很自然的,甚至是令人钦佩的。”“然而,要有可靠的科学测试,就必须精确地遵循指示;否则,研究人员无法知道这种干预是否会广泛有效。为了能够得出有效的结论,研究团队在研究中监测和测量保真度真的很重要。”

Ellefson说:“许多组织在独立评估研究方面做得很好,但他们需要确保忠实度是衡量和严格检查的。有时候,当发现无法复制时,正确的反应可能不是全盘否定该研究,而是退一步,问问为什么它在一个案例中有效,而在另一个案例中无效?”

研究结果发表在《心理学方法》杂志上。