所有由contributor发布的文章

原子化知识点掌握程度

问题:

如何通过观察学生的做题记录(Y)来估计学生隐知识点的掌握程度(X)。

Route 1:Hidden Markov Model

Definition

Y_it 。 i是学生id,t是做题时间。Y_it为观测到的0/1做题结果

X_is。i是学生id,s是推测时间,X_is为推测的0/1事件。事件1为学生掌握了该知识点。

* s和t可能不是同步的。即可能出现在某个时刻我们没有观察到Y,依然想查询X的状态。e.g.,周一和周五做了题,问周四学生的掌握状态。

我们希望估计的最终参数是P(X_is),即学生i在时间s点上掌握该知识点的概率。推测时间和做题时间并不重合。

P(Y_it = 1|X_is=0)为猜测参数,即学生未掌握该知识点但是猜对的概率。

P(Y_it = 0|X_is=1)为失误参数,即学生已掌握该知识点但是做错的概率。

Data Generating Process

【A】Output Probability

P(Y_it = 1) =

P(Y_it = 1|X_is=1)P(X_is=1) +

P(Y_it = 1|X_is=0)P(X_is=0)

 

P(Y_it = 0) =

P(Y_it = 0|X_is=1)P(X_is=1) +

P(Y_it = 0|X_is=0)P(X_is=0)

【B】State Transition

我们进一步假设隐状态的演化符合martingale process(艾宾浩斯曲线可以认为是一种特例)

P(X_is|X_is-1,X_is-2,X_i1) = f(X_is)

 

Route 2:Hierarchical Bayesian Clustering

Thanks to 边士珈

优点:更加接近于前端业务需求

缺点:缺乏动态过程

Definition

Y_it 。 i是学生id,t是做题时间。Y_it为观测到的0/1做题结果

G_is。i是学生id,s是推测时间。G是学生所属的组别(例如学渣-学中-学霸)

L_it。i是学生id,t是做题时间。L_it为观察到的做题时长

 

Data Generating Process

假设学生是从所属组别中生成的,不同组别有不同的P(Y,L|G)。

现在的问题是反推P(G|Y,L)的后验概率。

 

 

非认真作答筛选

部分用户存在刷题的行为,即用户通过不论对错的快速猜题来获取平台的做题奖励。

这是个非经典测量误差(non-classical measurement error)问题,因为水平较差的孩子更有可能采取刷题的策略。这种误差会削弱IRT模型的样本外预测能力,并且影响用户画像(user profile)的质量。

我们在考虑两种解决方案。方案一是如Wixon et al(2012)那样进行大规模实地观测,并利用观察数据来训练分类器。方案二是通过产品设计来引导学生自曝是否在刷题。

 

参考文献

Wixon, Michael, Ryan SJ d Baker, Janice D. Gobert, Jaclyn Ocumpaugh, and Matthew Bachmann. “WTF? detecting students who are conducting inquiry without thinking fastidiously.” In User Modeling, Adaptation, and Personalization, pp. 286-296. Springer Berlin Heidelberg, 2012.

Item Response Model优化

1 . 整体目标

提高IRT模型的准确性和运行效率,提高平台关键参数的更新速度

2. 高性能optimization

经典IRT模型依赖于optimization solver来求解特定的logistic模型。需要编写一个适合于稀疏数据结构、海量数据和分布式运算的constrained optimizer

3. 高维度参数估计

在刻画多能力维度时,参数数量为n^d,其中n是每个能力的测量尺度,d是能力维度。在高维度参数估计时,EM算法的收敛性较差;需要改进算法

优秀人才选拔

1 整体目标:

通过平台的数据分析,筛选出能力超常的学生;17作业平台将配套优秀教学资源,从而促进教育公平

2 能力模型的构建:

  • 文献综述,哪些技能可以预测未来20年的成功
  • 这些能力应该被如何量化测试
  • 如何将这些能力加权平均为一个考核指标(或者说是否应该以单维度分数排名)

3 测评工具的构建:

3.1 线上筛选:

  • 隐蔽性。以防这个项目影响扩大后家长恶意博弈筛选系统
  • 公平性。测评手段应该不涉及特殊仪器。付费产品的数据可以作为辅助参考因素,但是不应该成为决定性因素。

3.2 线下筛选:

  • 如何设计纸笔测试或者其他形式的能力测试
  • 如何设计面试、群组面试以及其他形式的行为测试

 

4. 后续追踪

  • 如何建立学生成长的长期追踪机制和追踪曲线
  • 如何从历史数据中改进能力构建和线上、线下测试系统

性格建模

1 总体目标:

找出塑造学习行为的性格特征,构造这些性格特征的测评方法,评估性格养成方案的效果

2 性格特征构建

我们希望测评的三个非智能力

  • 毅力(grit/perseverance):面对挫折时继续尝试的能力
  • 耐性(impulse control):为长期目标牺牲短期享受的能力
  • 创造力(creativity):?

我们也可以接受基于其他性格模型所构建的性格特征体系;但是需要说明其和学习行为的联系以及相应的学术文献支持

3. 测评工具的构建

我们鼓励从以下几个角度来讨论测评工具的构建和相互验证

  • 问卷:包括学生自测问卷,教师测评问卷和家长测评问卷
  • 行为日志:包括学生做题日志(包含具体答案、解答结果和时间)和学生游戏日志(如何从录屏数据中抓取和抽象行为)
  • 专项测试:例如NLSY的coding speed test
  • 其他有效方法

在构建测评工具时,请从以下几个角度考虑:

  • 重复测试的可行性。因为需要测量学生的成长曲线或者用于项目评估
  • 效度测试,即对于特定行为的预测能力或者是否与经典心理学问卷的结果相符合
  • 可解释性,是否能够用简单的语言向非专业人士阐释

4. 性格养成方案的评估

在上述性格特征构建和测量的基础上,探索性格养成方案(例如使用学豆奖励特定行为,或者推送特定产品)的绩效评估方式。这种评估可能更多基于模型化的观察,而非实验。

在非智慧能力的评测过程中,我们需要进一步分产品来做能力的提升——产品划分纬度和数据基础都有一起作业提供。但我们期望上述评测能够得到类似于下面的一个描述:

一起作业所有产品在用户非智能力提升的极值
能力项 产品1 产品2 …… …… 产品n
毅力(grit/perseverance)
耐性(impulse control)
创造力(creativity)

在线教育效果测评

1. 项目总体目标

评估在线作业对于学生英语学习效果的影响,是否实现“减负不减质”

2. 项目目标分解

2.1 基础问题:

在控制练习数量(或练习时间)的前提下:在线作业是否提高了学生的学习成绩

2.2 中级问题:

  • 在控制练习数量和练习难度(知识点)的前提下,在线作业的形式是否影响学生的学习成绩提高。这个问题的核心是在能力建模时,需不需要把知识点和题型分开。例如,在知识点相同的前提下,连线题和选词填空是否是两种能力。
  • 在控制练习数量和练习形式的前提下,在线作业的难度是否影响学生成绩的提高。这个问题的核心是依据难度的个性化推送策略是否有效

2.3 高级问题:

  • 在基础和中级问题的基础上,区分听说读写四种能力
  • 在基础和中级问题的基础上,区分词汇、句型和语用三级能力

3. 项目研究方法

3.1 实验方法:

核心问题是回答如何设置干预类型和实验最小单元。例如,如果干预类型是“是否使用17作业网”,那么最小实验单元可能是班级或者是学校。抽样到个人很难保证实验组和对照组之间不发生“污染”,而且存在严重的执行可行性(家长可能不会满意自己的孩子不能使用免费教育产品)

3.2 非实验方法:

核心问题是如何控制学生能力、家庭背景以及教师固定效应。

4. 测评工具

4.1 标准化测试

  • 测试题如何应对不同地区教学大纲的不同
  • 取决于回答的问题,测试题如何反应不同层次的评测目标
  • 如何测量标准化测试和当地考试间的相关关系。如何保证测试的外部效度

4.2 当地测试

  • 如何保证不同时间和不同区域间的可比性
  • 取决于回答的问题,测试题如何反应不同层次的评测目标

5. 测试实施的方式

5.1 线上测试:

  • 如何保证参与率
  • 如何控制学生的认真程度(学生可以故意提交错误答案)

5.2 线下测试:

  • 如何进行数据搜集(谁监考、谁打分;是否进行抽样)
  • 测试的合规性(是否违反素质教育的相关规定)

6 测评采样

  • 测评样本规模及其原因:需要预先估计评测的误差大小
  • 测评样本的采样方法及其原因:需要评估样本的区域代表性和年龄代表性

个性化学习系统的评估

Shin, Namsoo, et al. “Effects of game technology on elementary student learning in mathematics.” British Journal of Educational Technology 43.4 (2012): 540-560.

测评目标:基于Gameboy的小学数学游戏

内容:数学

年龄段:7-8

人数:41/50

时长:13~18周

方法
【1】控制组:卡片游戏+Gameboy;实验组:Gameboy+Gameboy
【2】组1:每周使用3次;组2:每周使用4词;组3:每周使用超过4次
【3】分析方法:DID

结论
【1】实验1表明虽然教学内容相同,但是游戏性较强的Gameboy比卡片更有效。
【2】实验2表明GB游戏增进了基础知识的掌握,但是没有增进高级知识的掌握。并且,游戏对于高能力和低能力的孩子都有效。

Brusilovsky, Peter, Charalampos Karagiannidis, and Demetrios Sampson. “Layered evaluation of adaptive learning systems.” International Journal of Continuing Engineering Education and Life Long Learning 14.4 (2004): 402-421.

测评目标:基于动态超链接的自适应学习课程,InterBook

内容:数据库

年龄段:本科

人数:25

时长:4周

方法
【1】控制组:InterBook无动态链接;实验组:InterBook有动态链接
【2】分析方法:T-test (没有pre-test)

结论
【1】总评估:两组在测试成绩上无显著差异。
【2】分层评估:
用户建模层是有效的,以为内用户在未熟悉的页面上停留时间的确长。
自适应决定层是无效的,因为用户在未熟悉页面上的停留时间没有转化为学习成果,可能需要额外辅助。

备注:

Adaptive Hyperlink的理念在个性化学习系统的设计中有介绍。

Limongelli, Carla, Filippo Sciarrone, and Giulia Vaste. “LS-Plan: an effective combination of dynamic courseware generation and learning styles in web-based education.” Adaptive Hypermedia and Adaptive Web-Based Systems. Springer Berlin Heidelberg, 2008.

测评目标:基于学习风格调整的动态链接教程LECOMPS

内容:意大利新现实主义电影

年龄段:高中及以上

人数:45

时长:45分钟

方法
【1】控制组:无动态链接;实验组:有动态链接
【2】分析方法:DID

结论
【1】总评估:实验组比控制组掌握了更多的内容
【2】分层评估(这个分层评估没有利用实际的学习数据):
用户建模层是有效的,因为用户的自我汇报(self-report)表明用户同意系统对于他们学习风格的刻画。
自适应决定层是有效的,教师对于动态链接的生成内容表示满意。

个性化学习系统的设计

Brusilovsky, Peter, and Julita Vassileva. “Course sequencing techniques for large-scale web-based education.” International Journal of Continuing Engineering Education and Life Long Learning 13.1 (2003): 75-94.

Cited by: 246

摘要

本文解决的问题是如何将静态课程设计在教学过程中转化为动态自适应系统。

文章以CoCoA(Concept-based Courseware Analysis)系统为例,阐述了基于领域知识模型(domain knowledge model)和内容标记(content index)的课程设计方法。领域知识模型是构建一张基于知识点的导向图(directed graph),而内容标记则是把内容挂载到知识点上(本文只介绍了单点挂载,即一个内容挂载一个知识点)。
CoCoA会自动检验挂载内容的前置要求(pre-requisite)是否被满足。具体而言,讲授(presentation)、提问(question)、案例(example)和练习(exercise)的前置要求是否都已经被先修课程覆盖。CoCoA还会检测是否讲授搭配了足够的案例与练习,以及其他课程设计要求。

在完成课程设计后,课程内容可以根据用户的表现进行动态生成(DCG, Dynamic Course Generation)。生成规则由系统预先设定,根据用户表现执行。

评论

CoCoA和DCG主要依赖于专家知识,而非算法执行。因此,它对于人力投入的要求是很高的。1小时的教学内容需要18小时的编辑时间。如果内容较多,或者增删改的频率较高,成本会很高。
此外,如何利用学习数据来评估和改善专家知识所构建的课程体系,本文在这个方面也语焉不详。
这个理念的教学效果在“个性化学习系统的评估”中有实验度量。

相关文献

Limongelli, Carla, et al. “Adaptive learning with the LS-plan system: a field evaluation.” Learning Technologies, IEEE Transactions on 2.3 (2009): 203-215.

 

Chen, Chih-Ming, Hahn-Ming Lee, and Ya-Hui Chen. “Personalized e-learning system using item response theory.” Computers & Education 44.3 (2005): 237-255.

Cited by: 299

摘要

本文研究如何用IRT模型估计学生能力并进行学习路径的推荐。
关键的难题是:
(1)如何进行内容难度的冷启动
(2)如何利用IRT模型进行路径优化

作者提出的解决方案是:
(1)预先设定材料难度等级。专家投票进行难度评级的冷启动,用户投票进行难度的后续更新
(2)估计用户水平后,计算各个模块的information function,并推荐数值最高的项目

评论

Information function是用标准差来估计某个量度(measurement)信度(reliability)的方法,而不是估计某个模块对于学生的信息含量。在Rasche模型下,information最高的模块是概率最接近0.5的模块。

这种推荐方法的好处是可以较为精准地估计学生能力,但从教育学的角度来看,这并不一定是最优的推荐策略。

相关文献:

Baylari, Ahmad, and Gh A. Montazer. “Design a personalized e-learning system based on item response theory and artificial neural network approach.”Expert Systems with Applications 36.4 (2009): 8013-8021. [使用神经网络来实现路径优化]

Wauters, Kelly, Piet Desmet, and Wim Van Den Noortgate. “Adaptive item‐based learning environments based on the item response theory: possibilities and challenges.” Journal of Computer Assisted Learning 26.6 (2010): 549-562.

Huang, Mu-Jung, Hwa-Shan Huang, and Mu-Yen Chen. “Constructing a personalized e-learning system based on genetic algorithm and case-based reasoning approach.” Expert Systems with Applications 33.3 (2007): 551-564.

Cited by: 116

摘要

本文解决的问题是如何使用技术手段实现Bloom(1968)所提倡的精熟学习(mastery learning)。本文选取遗传算法(Genetic Algorithm)来生成最优路径,并使用案例推理(case based reasoning)来提供错误后的纠正材料(corrective activities)。

遗传算法各轮的适性评分(fitness score)是由内容间的文本相关性(tf-idf+ cosine vector)和难度(IRT)生成的。

案例的选择基于近邻算法(nearest neighbor),其特征既包括学习者的基本信息(性别、年龄,etc)也包括错误事件的信息(知识点,做题时间,目前进度,etc)。

评论

遗传算法的适性得分综合了初始学生水平所对应的难度,而没有考虑学生动态水平所对应的难度。如果学生增长速度不同,以初始水平的排序来替代动态水平的排序可能并不合适。

相关文献

Chen, Chih‐Ming. “Ontology‐based concept map for planning a personalised learning path.” British Journal of Educational Technology 40.6 (2009): 1028-1058.

Chen, Chih-Ming. “Intelligent web-based learning system with personalized learning path guidance.” Computers & Education 51.2 (2008): 787-814.

 

 

Hwang, Gwo-Jen, et al. “A heuristic algorithm for planning personalized learning paths for context-aware ubiquitous learning.” Computers & Education 54.2 (2010): 404-415.

Cited by: 97

摘要

本文解决的问题是如何在物理世界的教学(例如访问一个植物园)中解决个性化学习路径的问题。
关键的难题是:
(1)权衡拥挤度(即学生不能同时访问一个地点)和学习路径优化
(2)在知识图谱上相邻的知识点往往在物理上相邻,因此学生可以同时学习多个知识点。如何对多目标同时学习进行优化?