查看原文
其他

基础教育数字化发展研究|王柏琦 付立军 周晓磊 等:新高考志愿推荐算法研究

编辑部 中国教育信息化 2023-08-13

引用格式

王柏琦 付立军 周晓磊 高思达 张永宏.

新高考志愿推荐算法研究[J].中国教育信息化,2023,29(4):112-120.DOI:

10.3969/j.issn.1673-8454.2023.04.014

基础教育数字化发展研究

新高考志愿推荐算法研究

王柏琦 付立军 周晓磊 高思达 张永宏


摘 要: 新高考政策的推行和逐步落实,使志愿填报由以往院校为主体且志愿可服从调剂、变为“专业+院校”组合更突出专业的模式。目前实行新高考的省份可填志愿数为80个、96个或112个,而且志愿间不再存在服从调剂选项。针对新高考志愿填报要求,以考生分数能否被院校专业录取作为评价标准,结合专业类型、选科要求、院校属性、学费等多维数据,使用长短时记忆网络算法,可以预测出该分数在当年录取位次,再根据一定报考规则形成志愿填报方案。使用考生报考当年前3年的专业录取位次和当年录取位次作为输入,得到当年考生被各专业的录取概率,并基于该录取概率为考生进行志愿推荐。在河北省2021年新高考中,使用该算法进行志愿填报实践,结果表明:基于长短时记忆网络的新高考预测算法,为新高考考生志愿填报提供了有效支持,既帮助其进行专业选择,又能很好地发挥其考分的价值,做到科学填报。该研究可以为新高考考生个性化填报提供有益帮助,帮助实行新高考省份的学校对学生进行科学填报指导。

关键词: 长短时记忆网络;LSTM;志愿推荐;新高考;推荐算法

中图分类号: G434

文献标志码: A

文章编号: 1673-8454(2023)04-0112-09

作者简介: 王柏琦,中国科学院大学沈阳计算技术研究所硕士研究生(辽宁沈阳 110168)付立军,通讯作者,山东大学大数据技术与认知智能实验室主任,中国科学院沈阳计算技术研究所研究员(山东济南 250100)周晓磊,中国科学院大学沈阳计算技术研究所研究员(辽宁沈阳 110168)高思达,中国科学院大学沈阳计算技术研究所硕士研究生(辽宁沈阳 110168)张永宏,山东大学大数据技术与认知智能实验室工程师(山东济南 250100)

一、引言

  2014 年,国务院印发《国务院关于深化考试招生制度改革的实施意见》。至此,中国高考开始进行改革,并进入新高考阶段。新高考政策实施后,考生要填报的志愿数量急剧上升。例如,在2020、2021年分别首次采取新高考志愿填报的山东、河北两个高考大省,考生最多可以填报96个志愿。

  新高考采取“专业+院校”组合的志愿模式,即“1个专业+1个院校”为一个志愿项,且平行志愿间不可调剂,在进行投档时按照志愿顺序依次进行。这种方法改变了传统以“院校+多个该院校专业”,且专业间可选择服从调剂的模式。这种以专业为牵引的志愿模式,有助于增强考生兴趣能力与专业的匹配,从志愿填报角度来看,意味着对专业投档线的预测需要更精准,并进行科学排序,才能既达到专业投档线,又满足学生的个性化需求。

  在新高考志愿填报时,还要根据考生选科的不同对专业进行筛查[1]。新高考采取自主选科的方式,即除语文、数学、外语三科外,学生根据各省的要求,在物理、化学、生物、地理、历史、政治这6门课程中进行选择。例如,山东省采取“3+3”模式、河北采取“3+1+2”模式,因此带来了少则12种、多则20种的选科组合。高校的每个专业有对应的选科要求,不满足选科要求的考生,在填报志愿时不能选择该专业。因此,学生应按照与选科匹配的专业进行填报。

  而在划取分数线的方法上,也有相应的变化。由于在专业志愿填报的模式下,无法面对所有专业统一划定一条本科线和专科线,因此将本科、专科分数线改为划分一段线、二段线。以山东省为例,在原有的政策下,没有达到本科线是无法填报本科院校专业的;而在新的划线办法下,分数未达到一段线的考生,虽然不能参加第一次本科志愿填报,但是可以参与第二次、第三次志愿填报,选报剩余本科计划以及填报专科计划。

二、新高考志愿填报存在的问题

  高考政策的变化导致新高考志愿填报存在以下问题:一是新高考填报数量大幅增加,考生在选择志愿时需要选择大量院校和专业;二是新高考是按照专业招生,考生冲击某一个院校的难度会更加大,这样能够引导考生选择自己喜欢的专业;三是对于第一年执行新高考的省份,一些院校的录取分数会有较大的变动,给考生带来较大的填报风险。

  为解决高考志愿填报的问题,于超等人基于大数据技术,使用支持向量机(Support Vector Machine, 简称SVM)、最近邻集合、灰色关联分析法等方法,通过对考生的一百一十道问答题目答案收集,找出考生答案的最近邻集合,进而,通过支持向量机计算构建高考志愿填报模型,从而大大提高志愿推荐的准确性[2];余奎锋等人提供了一个基于C均值模糊聚类分析法的多特征权重模糊均值聚类算法,该方法考虑了院校的历年投档线对应到省排位次、院校的社会影响力排序等各种因素,而这些因素均可能影响院校投档线的变动,同时也充分考虑了考生个性化特征权重选取,利用C均值模糊聚类分析法,形成冲、稳、保三种推荐结果,最后基于提出的算法,建立了一个能将分数最大化利用、并满足个性化的志愿需求的高考志愿推荐系统[3];刘福伟等人运用人工智能等技术,使用BP神经网络模型,利用近三年院校专业的录取分数,预测当年院校专业的录取位次,再通过测评得到考生的偏好信息,利用这些信息构造出考生的兴趣特征向量表,运用基于考生的协同过滤推荐算法,对考生进行志愿推荐[4];王宏利等人进行了基于长短时记忆网络(long short-term memory, 简称LSTM)的高校录取分数预测研究,将LSTM与线差法、平均排位法进行对比,发现LSTM在进行高考分数预测时表现更好[5];魏然等人提出针对新高考模式的数据合并方案,以招生人数作为权重,将院校专业文理分科历史数据合并,并利用线性回归模型来预测专业录取分数[6][7]

  因此,针对上述新高考存在的问题,结合现有针对高考志愿填报的研究,本文提出一种基于LSTM的新高考志愿推荐方法,以解决考生无法准确利用分数,以及无法准确选择专业等问题。

三、长短时记忆网络特点分析

  SVM算法能够解决基于超平面分类的二分类问题。在高考预测中,使用SVM算法区分能否被录取则可以看为一个二分类问题[8]。LSTM是一种特殊类型的RNN,可以学习长期依赖信息,作为一种特殊存在的循环网络结构,它能够较好地处理神经网络中的长期依赖情况。

  与使用SVM、最近邻集合、灰色关联分析法等方法相比,获取最近邻集合需要人工标注大量数据,工作量较大且依赖人工数据准确性。灰色关联分析法具有主观性强的特点,对各项指标的最优值需要实时进行确定,而且一些指标难以确定最优值。与聚类算法相比,使用LSTM模型进行位次预测时,对于同一年份数据,只需要进行一次训练,保存模型后可以重复预测,减少了训练量。模型训练时将学校位次与学生高考位次整合后映射为N维的向量,将两位次的关系进行高维表示,计算时信息更加丰富。在位次预测问题中,位次与年份关联较大,年份顺序中包含位次变化趋势等信息。LSTM擅长处理时序信息[9],相较于其他模型,更能捕捉到位次变化的时序信息[10],即变化趋势。与其他模型相比,LSTM具有依赖数据量少、训练简便、泛化性好、捕捉时序信息能力强的优势,更适合被用于高考院校位次预测。

  上文中研究使用的数据集,多为第三方网站的数据,数据来源并非第一手数据,所以并不能保证数据的准确性。在创建预测模型时,引入多个对高校录取投档线有影响的参数。例如,院校历史分数线、专业投档线,以及各个专业录取分数和对应的省排名;院校属性以及院校的综合实力等。但非官方数据集具有不准确性,会存在数据缺失或数据不准确的情况,导致预测算法的训练不准确。因此,本文使用基于行为模拟的数据采集平台,从省考试院以及各高校官方网站获取数据,并结合人工校验来确保数据的准确性。

  目前,针对高考志愿推荐算法的研究大都针对传统高考,相关算法的研究、预测的粒度基本在院校层级。新高考志愿填报更加注重引导考生选择自己喜欢的专业,因此对于志愿的推荐需进一步细化到专业层级。如果考生选择的专业为热门专业或高分专业,单独看某个院校的投档线会导致意向专业无法被投档,因此,需将志愿推荐的粒度细化到专业层级,这样可以更加精准地为考生推荐出符合意向的志愿填报方案。

四、数据采集与治理

  本研究使用山东和河北两省的数据。数据均从省招生考试院以及各高校招生网站上获取;采用自研数据采集和标注平台,使用Selenium模拟考生行为批量采集官方数据,并进行统一入库处理。

  本研究构建出以下数据集:选科要求共75481条;一分一段表7858条;2018—2021年招生计划,共计300366条;2017—2020年录取分数,共计198873条;全国各高校数据2942条,包含院校类型、院校等级(985、211、双一流)、办学性质等多个数据维度;专业分类等相关数据。总数据量近60万条。

  (一)数据预处理

  1.归一化处理

  本研究采集到的数据格式有PDF、图片以及表格。以表格形式直接发布的数据,可以直接入库;以PDF格式发布的数据无法直接进行使用,可先使用识别工具IrfanView将PDF识别为图片;以图片形式发布的数据可以使用工具将多余的信息进行裁剪,只留核心数据。最后,使用OCR技术将带有核心数据的图片转换为表格,再将所有数据归一化处理为表格形式,以便有序使用。

  2.关键信息抽取

  招生考试院发布的招生计划专业名后方带有多种附加信息。其中,大类招生以及试验班类的专业会标注包含哪些具体专业;医学、化学生物学等相关专业会限制不招色觉异常(含色盲、色弱)考生;中外合作办学专业,以及收费过高专业会进行标注;分校区的学校,招生专业会标注授课校区;一些语言类相关的专业,会限制考生的外语为英语或俄语等,且对于外语的分数会有要求;对于一些地方专项计划,仅限于部分考生才能够报考,也会进行标注。这些信息在推荐过程中,都会作为一个数据维度进行使用,因此,需要将这些附加信息从专业名中进行抽取标注,以方便后续利用这些数据进行推荐。

  3.数据合并

  全国高校的选科要求数据同样来自各省的招生考试院,且选科要求根据不同省份的考试模式进行划分。在“3+3”模式下,选科要求是直接给出的,而在“3+1+2”模式下,选科要求是按照首选要求和再选要求给出。各个高校根据招生省份的招生政策以及招生考试院提出的要求,向各省提交其针对该省招生计划的选科要求。因此,需要将选科要求数据与招生计划按照省份进行对应,保证后续推荐的所有志愿都满足考生的选考科目。

  依据各省的政策情况对历年录取分数进行处理。对于刚执行新高考的省份,历史录取分数是划分文理科的,且因为文理科试卷不同、报考人数不同,历史录取分数及其位次,在文理科之间都有一定的差距。而新高考不区分文理科,因此需要将文理科的历史录取分数进行合并,进而预测出最新一年的录取分数及位次。

  针对“3+3”以及“3+1+2”两种选科模式,也要进行区分。以河北的“3+1+2”为例,由于考生需要在物理和历史两科中选考其中一科,且之前的理科专业一般都会限制选考物理,而文科专业一般都会限制选考历史,因此对于这些专业,可以直接使用过去几年的文理科录取分数进行预测。而对于选考物理和历史均可的专业,则需要对应到过去的文理科分数及位次进行合并。而对于“3+3”选科模式来说,需要将文理科分数及位次,以文理科考生的人数比例为权重,将过去历年的录取分数进行合并,最终预测出最新一年的录取分数和录取位次。

  此外,很多高校会采用大类招生,或通过文科、理科试验班来进行招生,而在学生入学半年或一年后再进行细分专业。因此,对于刚刚执行大类招生或者试验班招生的专业,一条招生计划会对应多条历史招生专业。这些专业的录取分数,需要以一对多的方式来对应,这样进行大类招生以及试验班招生专业的历年分数才能够准确。数据预处理后的结果如图1、图2所示。

图1 招生计划原始数据

图2 招生计划处理后结果

  本研究在预测最新一年录取分数及位次时,使用历史三年的录取分数数据。通过分析采集的历史数据发现,录取分数存在大小年的情况,如果使用录取分数作为预测数据的话,会不准确。鉴于一分一段表的考生总量整体平稳,因此先分别根据历年的一分一段表,将录取分数转换为录取位次。在数据年份跨度的选择上,如果使用年份较少的话,可能会有一些专业的录取结果存在偶然性,导致最终的预测结果不够准确。由于高考数据具有时效性,具体专业的录取分数会随着教学水平、教育水平以及相关行业发展的情况有对应变化,所以如果使用比较久远的历史数据,会导致预测结果的时效性难以保证,进而也不够准确。综上情况分析,本研究在参考一些历史填报经验以及相关统计结果的基础上,最终使用三年、两年、一年前的录取分数,以1∶2∶3的比例作为权重,将三年的历史分数取加权平均值,将平均值作为最新一年的预测的录取分数及位次。

五、算法设计与实验

  新高考的志愿清单由100个左右院校专业组成,且院校数量和专业数量都没有限制,即考生可以每个志愿都填报不同院校、不同专业;或院校很少,而每个院校都填报很多专业。传统高考中,考生如果想填报某个学校,可以仅关注院校的最低分,同意专业调剂,则可以被录取到该学校;而新高考专业不能够调剂,因此需要细化到专业分数的预测。

  本研究的专业推荐算法分为召回和排序两个部分。根据山东和河北两省的新高考政策,最终填报时需要填写96个专业志愿,因此专业推荐算法的目标就是得出一个包含96个专业的志愿填报清单。

  1.召回

  在召回阶段,首先根据考生的分数和位次,得出一个位次范围,预测位次在此范围内的招生计划,该考生都有一定的概率能够录取。若高于这个范围,则考生录取概率过低,会浪费志愿,而如果低于这个范围,则会导致浪费分数。位次范围的确定,也需要根据分数、位次的高低进行调整。通过分析历年发布的一分一段表可以得出:对于高分段,每一分的考生分布较少,考生相差一分所带来的位次变化也相对较小,因此,高分段在确定位次范围时,上下限对应的分数差会较大;对于中低分段的考生,一分的分差会带来近千人的位次差距,因此在确定位次范围时,上下限对应的分数差也会较小。

  在得到位次范围后,则从预测位次在此范围内的招生计划中,根据考生的条件进行筛选。筛选条件包括考生选考科目、考生专业意向、院校意向、省份意向、学费高低等。以上工作可以得到一个基础的专业推荐池。

  2.专业相关性推荐

  以上根据考生意向推荐出来的专业,在新高考中可能会导致专业数量不足96个,因此需要根据专业相关性为学生推荐出更多的专业。

  一方面,本研究从语义分析的角度,得出各个学科的相关专业。此外,根据国家颁布的《学位授予和人才培养学科目录》,本研究根据考生的意向专业,会推荐出与意向专业同属一个一级学科的二级学科。以表1中的一级学科哲学为例,若考生的意向专业中包含中国哲学,则会为其推荐马克思主义哲学、外国哲学等同属哲学(一级学科)的专业。

表1 哲学学科目录

  另一方面,本研究依据各个专业的授课教程,以及专业的就业岗位,将授课教程相似、就业岗位相似的专业定义为相似专业。还可以根据相似专业,为考生推荐更多专业。表2为进行专业相关性推荐后得出的专业相关性示例。

表2 专业相关性示例

  以上专业相关性推荐,仅限于考生意向较少,或考生所处分数段招生专业较少,导致仅根据考生意向无法推荐出96个志愿,则会根据专业相关性为考生推荐更多专业,保证能够推荐96个志愿,方便考生进行志愿填报。

  3.排序

  排序阶段需要训练LSTM模型[11]。首先将2020年的录取专业进行数据制作,对于每个专业的录取位次,分别向上向下以位次的2%为间隔,作为学生当年位次,并将录取标签标注,能录取为1,不能录取为0,将每条录取专业扩展成10条训练数据。2017—2019年的录取位次数据,用学生位次/专业位次;2020年的录取位次数据,用专业位次/学生位次。最终形成的X为n*4*1的三维数据。而录取标签形成的Y为n*1的2维数据。将X、Y放入LSTM模型中,并划分训练集/验证集为4∶1进行训练。

  训练完成后,使用LSTM模型[12]进行考生录取概率预测,模型如图3所示。pass_input的输入为2018—2020年的专业录取位次,分别为考生当年的位次/历史录取位次;curr_input的输入为当年预测位次/学生当年位次。通过LSTM进行计算,并将最后一个LSTM单元的隐藏层输出,得到近三年院校录取位次的100维特征向量;通过Dense全连接层,将学生位次表示(近三年院校平均位次/学生位次)映射为100维的特征向量。Subtract层将两个n*100的向量相减,并最终通过Dense层将n*100的数据映射为n*1的数据。Dense层的输出表示考生当年位次与预测位次的差距,将所得的位次差距输入sigmoid函数。

图3 推荐模型

  之后,使用Sigmoid函数,将学生位次与专业位次的差距,映射为0-1之间的数值,也就是最终给出的录取概率,数值越接近1表示被录取的概率越大,越接近0表示被录取的概率越小。

  以考生为50000名为例,最终对于不同专业位次的录取概率进行预测。可以发现,专业位次越大(分数越低),考生的录取率越高;专业位次越小(分数越高),考生录取概率越低。而在50000名附近,录取概率在50%左右。

六、实践验证

  依据基于LSTM的推荐算法,本研究建设实现了一套志愿填报平台[13],并在河北省进行填报实践验证。考生进行志愿填报的最终结果如表3所示。表3 志愿填报结果

  通过分析全部真实填报案例,录取专业在志愿表单中的位置分布较为平均,且最大值为75,所有考生都被成功录取。虽有个别同学按照意愿调整了部分志愿,但都根据系统所推荐出的志愿清单进行优化。

  将该算法真正投入使用,从真实使用结果,可以得出该算法的可行性以及优势,以便于后续的优化。

七、结论与展望

  研究和实践显示,本研究的方法为新高考考生的志愿填报提供了有效支持,既帮助其进行专业选择,又能很好地发挥其考分的价值,达到了科学填报的目的。

  后续工作中,针对不同考生对填报风险策略及录取风险的需求不同,系统可以在现有基础上,对更多条件进行筛选,包括健康状况、外语语种的选择、院校与考生家庭之间的距离等多种条件,针对不同的填报需求,给出不同的志愿清单,使其更加智能化。

参考文献:

  [1]刘海峰.高考改革新方案的顶层设计与实践推进[J].中国教育学刊,2019(6):1-5.

  [2]于超,刘国柱.基于大数据分析的高考志愿填报算法[J].青岛科技大学学报(自然科学版),2020,41(2):113-118.

  [3]余奎锋,段桂华,时翔.基于多特征权重模糊聚类的高考志愿推荐算法[J].中南大学学报(自然科学版),2020,51(12):3418-3429.

  [4]刘福伟.高考志愿智能填报系统设计与实现[D].杭州:浙江理工大学,2020.

  [5]王宏利,边帅,孙全亮,等.基于LSTM的高校高考录取分数预测研究[J].经济师,2020(2):160-162.

  [6]边帅,王宏利,吕震宇,等.基于异常剔除平均排位法的高校录取分预测[J].经济师,2019(11):179-180,182.

  [7]魏然,孙全亮,吕震宇.新高考“6选3”模式下预测高校录取分数的方法[J].现代信息科技,2021,5(2):188-190,195.

  [8]金秀玲,卓艳如.基于遗传算法和支持向量机模型的高考成绩预测[J].河南工程学院学报(自然科学版),2020,32(2):62-65.

  [9]HOCHREITER S, SCHMIDHUBER J. Long Short-Term memory[J]. Neural Computation, 1997,9(8):1735-1780.

  [10]白盛楠,申晓留.基于LSTM循环神经网络的PM_(2.5)预测[J].计算机应用与软件,2019,36(1):67-70,104.

  [11]HUANG L, WANG D, LIU X, et al. Double LSTM structure for network traffic flow prediction[C]. ICPCSEE Steering Committee.Abstracts of the 6th International Conference of Pioneering Computer Scientists,Engineers and Educators(ICPCSEE 2020)Part I, 2020.9.

  [12]LI Y R. Data prediction model in wireless sensor networks based on bidirectional LSTM[J]. Eurasip Journal on Wireless Communications and Networking, 2019(1):1-12.

  [13]李顺,林建栋,杨明霞.高考改革环境下志愿填报平台的新设计构想[J].信息系统工程, 2018(10):11-16.



Algorithm for New College Entrance Examination Volunteer Recommendation

Baiqi WANG1,2, Lijun FU1,3, Xiaolei ZHOU1,2, Sida GAO1,2, Yonghong ZHANG3

(1.Shenyang Insitute of Computing Technology, Chinese Academy of Science, Shenyang 110168, Liaoning;

2.University of Chinese Academy of Science, Beijing 100049;

3.Artificial Intelligence and Cognitive Intelligence Laboratory, Shan Dong University, Jinan 250100, Shandong)

Abstract: The introduction and gradual implementation of the new college entrance examination policy has changed the pattern of “major + college” into one where the major is more prominent, instead of the former one that colleges are the main body and the voluntary application is subject to adjustment. In provinces where the new college entrance examination is currently implemented, the number of applicants for the new college entrance exam is 96 or 112 , and there is no longer need to be subject to adjustment. Based on the new college entrance examination volunteer reporting, the article uses the candidates’ scores as the evaluation criteria to be admitted to the major of the college. Combined with multi-dimensional data such as major types, subject selection requirements, college attributes, tuition fees, etc., the long Short-Term Memory (LSTM) algorithm is used to predict the results. The score is in the admission ranking of the year, and then a volunteer reporting plan is formed according to certain application rules. The article uses the admission ranking of majors in the past three years and the admission ranking of candidates in the current year as input to obtain the admission probability of candidates for each major in the current year, and based on the admission probability, it makes volunteer recommendations for candidates. In the new college entrance examination in Hebei Province in 2021, this algorithm was used for volunteer reporting. The practical results showed that the new college entrance examination prediction algorithm based on LSTM performed well in the field. The research can not only provide useful help for students’ personalized application, but also help schools provide scientific guidance for students of the new college entrance examination candidates.

Keywords: Long short-term memory; Volunteer recommendation; New college entrance examination; Recommendation algorithm

编辑:王晓明 校对:李晓萍



点击此处 在线投稿


期刊简介

《中国教育信息化》创刊于1995年8月,是由中华人民共和国教育部主管,教育部教育管理信息中心主办,面向国内外公开发行的国家级学术期刊。期刊内容力求全面深入地记录我国教育信息化的建设进展、研究与应用成果和行业发展状况,开展我国教育信息化发展状况调研和教育信息化国际比较研究,服务于国家教育宏观决策;力求全面准确地把握教育信息化相关的方针政策和标准规范,及时追踪ICT前沿技术的发展趋势及其与教育的融合,深度挖掘教育信息化建设与应用的体制、机制创新,服务于我国教育信息化实践。


●RCCSE中国核心学术期刊

●中国人文社会科学(AMI)扩展期刊

●中国期刊全文数据库收录期刊

●中文科技期刊数据库收录期刊

●国家哲学社会科学学术期刊数据库收录期刊

●中国核心期刊(遴选)数据库收录期刊

●龙源期刊网收录期刊


一年12期,每月20日出版

20元 / 期,邮发代号:82-761

编辑部邮箱:mis@moe.edu.cn

通讯地址:北京市西城区华远北街2号921室

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存