没有一个模型能够达到100%的准确度

2020-07-31 08:44:53 编辑：来源：国际品牌资讯

导读在预印本服务器Arxiv org上发表的一篇论文中，西弗吉尼亚大学和加利福尼亚州立理工大学的研究人员调查了机器学习算法的使用，以识别入门物

在预印本服务器Arxiv.org上发表的一篇论文中，西弗吉尼亚大学和加利福尼亚州立理工大学的研究人员调查了机器学习算法的使用，以识别入门物理课中的高风险学生。他们声称这可能是教育者和挣扎中的大学生的有力工具，但批评家认为，类似的技术可能会对有偏见或误导性预测的学生造成伤害。

物理和其他核心科学课程在大学生涯的早期就构成了科学，技术，工程和数学(STEM)专业的障碍。(研究表明，大约有40%的计划工程和自然科学专业的学生最终转而攻读其他学科或没有获得学位。)虽然物理教学法已经开发出了一系列基于研究的实践来帮助学生克服挑战，但有些策略却具有实质性意义一流的实施成本。而且，并非所有人都适合每个学生。

研究人员断言，这需要一种识别危险学生的算法方法，特别是在物理领域。为此，他们以以前的工作为基础，这些工作使用ACT分数，大学GPA和物理课中收集的数据(例如功课成绩和考试成绩)来预测学生在第一学期和第二学期将获得A还是B 。

但是研究表明，即使接受大型语料库的训练，人工智能在预测复杂结果方面也相对较差-并且存在偏差问题。例如，词嵌入是一种常见的算法训练技术，涉及将词链接到向量，不可避免地会拾取(并且最糟糕的是放大)源文本和对话中包含的偏见。据报道，亚马逊的内部招聘工具(接受了十年期提交的简历的培训)被报废了，因为它表现出对女性的偏见。

尽管如此，研究人员还是从东方两家大型学术机构的基于演算基础的物理课程中抽取了样本，以训练学生预测性能的AI算法。第一语料库和第二语料库包括在一所大学的物理科学和工程学学生，为大约21,000名本科生提供服务，样本量分别为7,184和1,683名学生。三分之一来自主要是本科生和西班牙裔服务的大学，在美国西部约有26,000名学生

样本在构成和人口统计方面非常不同。第一个和第二个是在不同的时间范围(2000-2018年和2016-2019年)收集的，其中大多数是白人学生(占80%)，第二个反映了2011年和2015学年的课程变化。相比之下，第三次为一年(2017年)，主要是西班牙裔(46%)和亚洲人(21%)，学生们既参加讲座又参加主动学习风格的课程。

研究人员在样本上训练了所谓的随机森林，以预测学生的最终物理成绩。在机器学习中，随机森林是一种集成方法，可构建大量决策树并输出单个树的均值预测，在这种情况下，学生很可能会获得A，B或C(ABC学生)或D， F或退出(W)(DFW学生)。

根据研究人员的说法，在第一个样本上训练的算法预测“ DFW学生”的准确性仅为16%，这可能是因为训练集中DFW学生的比例很低(12%)。他们指出，在对

标签：模型