分类目录归档:开放研究项目

原子化知识点掌握程度

问题:

如何通过观察学生的做题记录(Y)来估计学生隐知识点的掌握程度(X)。

Route 1:Hidden Markov Model

Definition

Y_it 。 i是学生id,t是做题时间。Y_it为观测到的0/1做题结果

X_is。i是学生id,s是推测时间,X_is为推测的0/1事件。事件1为学生掌握了该知识点。

* s和t可能不是同步的。即可能出现在某个时刻我们没有观察到Y,依然想查询X的状态。e.g.,周一和周五做了题,问周四学生的掌握状态。

我们希望估计的最终参数是P(X_is),即学生i在时间s点上掌握该知识点的概率。推测时间和做题时间并不重合。

P(Y_it = 1|X_is=0)为猜测参数,即学生未掌握该知识点但是猜对的概率。

P(Y_it = 0|X_is=1)为失误参数,即学生已掌握该知识点但是做错的概率。

Data Generating Process

【A】Output Probability

P(Y_it = 1) =

P(Y_it = 1|X_is=1)P(X_is=1) +

P(Y_it = 1|X_is=0)P(X_is=0)

 

P(Y_it = 0) =

P(Y_it = 0|X_is=1)P(X_is=1) +

P(Y_it = 0|X_is=0)P(X_is=0)

【B】State Transition

我们进一步假设隐状态的演化符合martingale process(艾宾浩斯曲线可以认为是一种特例)

P(X_is|X_is-1,X_is-2,X_i1) = f(X_is)

 

Route 2:Hierarchical Bayesian Clustering

Thanks to 边士珈

优点:更加接近于前端业务需求

缺点:缺乏动态过程

Definition

Y_it 。 i是学生id,t是做题时间。Y_it为观测到的0/1做题结果

G_is。i是学生id,s是推测时间。G是学生所属的组别(例如学渣-学中-学霸)

L_it。i是学生id,t是做题时间。L_it为观察到的做题时长

 

Data Generating Process

假设学生是从所属组别中生成的,不同组别有不同的P(Y,L|G)。

现在的问题是反推P(G|Y,L)的后验概率。

 

 

非认真作答筛选

部分用户存在刷题的行为,即用户通过不论对错的快速猜题来获取平台的做题奖励。

这是个非经典测量误差(non-classical measurement error)问题,因为水平较差的孩子更有可能采取刷题的策略。这种误差会削弱IRT模型的样本外预测能力,并且影响用户画像(user profile)的质量。

我们在考虑两种解决方案。方案一是如Wixon et al(2012)那样进行大规模实地观测,并利用观察数据来训练分类器。方案二是通过产品设计来引导学生自曝是否在刷题。

 

参考文献

Wixon, Michael, Ryan SJ d Baker, Janice D. Gobert, Jaclyn Ocumpaugh, and Matthew Bachmann. “WTF? detecting students who are conducting inquiry without thinking fastidiously.” In User Modeling, Adaptation, and Personalization, pp. 286-296. Springer Berlin Heidelberg, 2012.

Item Response Model优化

1 . 整体目标

提高IRT模型的准确性和运行效率,提高平台关键参数的更新速度

2. 高性能optimization

经典IRT模型依赖于optimization solver来求解特定的logistic模型。需要编写一个适合于稀疏数据结构、海量数据和分布式运算的constrained optimizer

3. 高维度参数估计

在刻画多能力维度时,参数数量为n^d,其中n是每个能力的测量尺度,d是能力维度。在高维度参数估计时,EM算法的收敛性较差;需要改进算法

优秀人才选拔

1 整体目标:

通过平台的数据分析,筛选出能力超常的学生;17作业平台将配套优秀教学资源,从而促进教育公平

2 能力模型的构建:

  • 文献综述,哪些技能可以预测未来20年的成功
  • 这些能力应该被如何量化测试
  • 如何将这些能力加权平均为一个考核指标(或者说是否应该以单维度分数排名)

3 测评工具的构建:

3.1 线上筛选:

  • 隐蔽性。以防这个项目影响扩大后家长恶意博弈筛选系统
  • 公平性。测评手段应该不涉及特殊仪器。付费产品的数据可以作为辅助参考因素,但是不应该成为决定性因素。

3.2 线下筛选:

  • 如何设计纸笔测试或者其他形式的能力测试
  • 如何设计面试、群组面试以及其他形式的行为测试

 

4. 后续追踪

  • 如何建立学生成长的长期追踪机制和追踪曲线
  • 如何从历史数据中改进能力构建和线上、线下测试系统

性格建模

1 总体目标:

找出塑造学习行为的性格特征,构造这些性格特征的测评方法,评估性格养成方案的效果

2 性格特征构建

我们希望测评的三个非智能力

  • 毅力(grit/perseverance):面对挫折时继续尝试的能力
  • 耐性(impulse control):为长期目标牺牲短期享受的能力
  • 创造力(creativity):?

我们也可以接受基于其他性格模型所构建的性格特征体系;但是需要说明其和学习行为的联系以及相应的学术文献支持

3. 测评工具的构建

我们鼓励从以下几个角度来讨论测评工具的构建和相互验证

  • 问卷:包括学生自测问卷,教师测评问卷和家长测评问卷
  • 行为日志:包括学生做题日志(包含具体答案、解答结果和时间)和学生游戏日志(如何从录屏数据中抓取和抽象行为)
  • 专项测试:例如NLSY的coding speed test
  • 其他有效方法

在构建测评工具时,请从以下几个角度考虑:

  • 重复测试的可行性。因为需要测量学生的成长曲线或者用于项目评估
  • 效度测试,即对于特定行为的预测能力或者是否与经典心理学问卷的结果相符合
  • 可解释性,是否能够用简单的语言向非专业人士阐释

4. 性格养成方案的评估

在上述性格特征构建和测量的基础上,探索性格养成方案(例如使用学豆奖励特定行为,或者推送特定产品)的绩效评估方式。这种评估可能更多基于模型化的观察,而非实验。

在非智慧能力的评测过程中,我们需要进一步分产品来做能力的提升——产品划分纬度和数据基础都有一起作业提供。但我们期望上述评测能够得到类似于下面的一个描述:

一起作业所有产品在用户非智能力提升的极值
能力项 产品1 产品2 …… …… 产品n
毅力(grit/perseverance)
耐性(impulse control)
创造力(creativity)

在线教育效果测评

1. 项目总体目标

评估在线作业对于学生英语学习效果的影响,是否实现“减负不减质”

2. 项目目标分解

2.1 基础问题:

在控制练习数量(或练习时间)的前提下:在线作业是否提高了学生的学习成绩

2.2 中级问题:

  • 在控制练习数量和练习难度(知识点)的前提下,在线作业的形式是否影响学生的学习成绩提高。这个问题的核心是在能力建模时,需不需要把知识点和题型分开。例如,在知识点相同的前提下,连线题和选词填空是否是两种能力。
  • 在控制练习数量和练习形式的前提下,在线作业的难度是否影响学生成绩的提高。这个问题的核心是依据难度的个性化推送策略是否有效

2.3 高级问题:

  • 在基础和中级问题的基础上,区分听说读写四种能力
  • 在基础和中级问题的基础上,区分词汇、句型和语用三级能力

3. 项目研究方法

3.1 实验方法:

核心问题是回答如何设置干预类型和实验最小单元。例如,如果干预类型是“是否使用17作业网”,那么最小实验单元可能是班级或者是学校。抽样到个人很难保证实验组和对照组之间不发生“污染”,而且存在严重的执行可行性(家长可能不会满意自己的孩子不能使用免费教育产品)

3.2 非实验方法:

核心问题是如何控制学生能力、家庭背景以及教师固定效应。

4. 测评工具

4.1 标准化测试

  • 测试题如何应对不同地区教学大纲的不同
  • 取决于回答的问题,测试题如何反应不同层次的评测目标
  • 如何测量标准化测试和当地考试间的相关关系。如何保证测试的外部效度

4.2 当地测试

  • 如何保证不同时间和不同区域间的可比性
  • 取决于回答的问题,测试题如何反应不同层次的评测目标

5. 测试实施的方式

5.1 线上测试:

  • 如何保证参与率
  • 如何控制学生的认真程度(学生可以故意提交错误答案)

5.2 线下测试:

  • 如何进行数据搜集(谁监考、谁打分;是否进行抽样)
  • 测试的合规性(是否违反素质教育的相关规定)

6 测评采样

  • 测评样本规模及其原因:需要预先估计评测的误差大小
  • 测评样本的采样方法及其原因:需要评估样本的区域代表性和年龄代表性