全国英语等级考试锚测验非等组设计中样本量对等值结果的影响-景春丽.pdf
《全国英语等级考试锚测验非等组设计中样本量对等值结果的影响-景春丽.pdf》由会员分享,可在线阅读,更多相关《全国英语等级考试锚测验非等组设计中样本量对等值结果的影响-景春丽.pdf(5页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、1 问题提出 全 国 英 语 等 级 考 试 ( Public English Test System , 简 称 PETS ) 是 教 育 部 考 试 中 心 设 计 并 负 责 的 全 国 性 英 语 水 平 考 试 体 系 。 除 PETS- 4 外 , 其 他 级 别 的 考 试 每 半 年 举 行 一 次 , 从 这 个 角 度 来 看 , PETS 为 当 前 新 高 考 英 语 科 一 年 两 考 的 改 革 在 考 试 技 术 层 面 进 行 了 多 年 的 探 索 。 在 一 年 两 考 中 , 等 值 技 术 至 关 重 要 。 PETS 所 采 用 的 等 值 技 术 是
2、 锚 测 验 非 等 组 设 计 , 设 定 进 行 锚 测 验 等 值 的 样 本 量 为 300 人 左 右 。 在 实 际 操 作 过 程 中 , 很 多 情 况 下 由 于 抽 样 的 限 制 , 样 本 量 往 往 达 不 到 300 人 。 那 么 在 这 种 情 况 下 , 等 值 结 果 是 否 精 确 ? 基 于 以 上 实 际 情 况 , 本 研 究 探 究 了 锚 测验样本量对 PETS 等值结果及其稳定性的影响 。 测 验 等 值 是 将 不 同 量 尺 的 测 验 分 数 转 换 到 同 一 量 尺 的 测 量 技 术 。 具 体 地 说 , 测 验 等 值 是 将
3、测 量 同 一 心 理 特 质 的 多 种 测 验 形 式 的 测 验 分 数 转 换 成 相 同 标 尺 上 的 分 数 , 进 而 使 得 这 些 不 同 测 验 形 式 的 分 数 之 间 具 有 可 比 性 的 过 程 1 。 在 主 要 以 标 准 参 照 方 式 进 行 分 数 解 释 的 能 力 水 平 认 证 考 试 和 职 业 资 格 考 试 中 , 分 数 的 可 比 性 是 考 试 质 量 的 重 要 保 证 2 。 测 验 等 值 中 的 一 项 重 要 任 务 就 是 控 制 等 值 误 差 , 使 得 误 差 的 大 小 不 会 影 响 对 等 值 结 果 的 应
4、用 , 以 及 在 等 值 基 础 上 开 展 的 后 续 工 作 。 控 制 测 验 等 值 误 差 的 研 究 包 括 分 析 等 值 误 差 性 质 , 探 清 等 值 误 差 各 种 可 能 的 来 源 , 设 计 各 种 控 制 等 值 误 差 的 技 术 与 方 法 等 3 。 基 于 IRT 的 分 数 等 值 是 在 估 计 出 参 数 的 基 础 上 进 行 转 换 , 等 值 结 果 的 稳 定 性 与 考 生 样 本 量 密 不 可 分 。 在 假 定 考 生 群 体 没 有 变 化 的 情 况 下 , 增 大 样 本 量 可 以 保 证 参 数 估 计 的 稳 定 性
5、和 准 确 性 , 全国英语等级考试锚测验非等组设计中 样本量对等值结果的影响 摘 要 : 本 研 究 采 用 锚 测 验 非 等 组 设 计 , 探 究 了 锚 测 验 样 本 量 的 变 化 对 等 值 结 果 的 影 响 。 数 据 来 自 全 国 英 语 等 级 考 试 ( PETS ) , 使 用 以 Bigsteps 为 核 心 的 自 主 改 进 软 件 , 基 于 Rasch 模 型 估 计 题 目 参 数 。 为 了 探 究 等 值 结 果 对 合 格 分 数 线 的 影 响 , 本 研 究 对 比 了 不 同 样 本 量 锚 测 验 参 数 估 计 值 与 锚 题 参 数
6、给 定 值 的 差 异 , 并 对 不 同 样 本 量 锚 测 验 得 出 的 实 考 试 卷 等 值 结 果 与 最 大 样 本 量 锚 测 验 得 出 的 实 考 试 卷 等 值 结 果 进 行 了 差 异 分 析 。 结 果 表 明 , 当 锚 测 验 样 本 量 达 到 150 时 , 等 值 结 果 比 较 稳 定 。 这 一 结 果 表 明 , PETS 设 定 的 300 人 左 右 的锚测验样本量是合理的 。 关键词: 锚测验非等组设计 ; 项目反应理论 ; 单参数模型; 等值 【 中图分类号 】 G 405 【 文献标识码 】 A 【 文章编号 】 1005- 8427 (
7、2017 ) 06 - 0060 - 5 DOI: 10. 19360/ki. 11- 3303 /g 4. 2017 . 06. 010 景春丽 马 洁 章建石 ( 教育部考试中心 , 北京 100084 ) 作者简介 景春丽 ( 1982 ) , 女, 教育部考试中心 ; 章建石 ( 1979 ) , 男, 教育部考试中心 , 助理研究员 ; 马 洁 ( 1993 ) , 女, 教育部考试中心 。 中国考试 CHINA EXAMINATIONS 2017 年第 6 期 ( 总第 302 期 ) June 2017 No. 302 _从 而 可 以 有 效 地 降 低 随 机 误 差 , 因
8、 此 样 本 量 是 影 响 随 机 误 差 最 直 接 的 指 标 之 一 。 国 内 外 研 究 证 明 , 增 加 样 本 量 可 以 增 大 等 值 的 精 确 度 , 降 低 随 机 误 差 。 Kolen 和 Brennan 认 为 , 在 传 统 等 值 和 线 性 等 值 中 , 每 个 测 验 通 常 需 要 400 个 样 本 , 等 百 分 位 等 值 需 要 略 多 于 1 500 的 样 本 量 4 。 马 洪 超 的 研 究 表 明 , 考 生 样 本 量 为 2 000 左 右 时 , 各 种 方 案 的 等 值 结 果 均 比 较 稳 定 , 考 生 样 本 量
9、 进 一 步 增 大 时 , 等 值 误 差 不 降 反 增 5 。 Victor K. Heh 研 究 了 小 样 本 在 随 机 等 组 设 计 中 对 等 值 结 果 精 确 性 的 影 响 6 。 Fitzpatrick 和 Yen 讨 论 了 不 同 样 本 量 对 等 值 结 果 可 信 度 的 影 响 , 分 析 了 样 本 量 为 200 、 500 、 1 000 的 结 果 , 发 现 样 本 量 为 200 时 , 不 能 够 估 计 出 比 较 精 确 的 题 目 参 数 7 。 Moti ka 详 细 讨 论 了 样 本 量 为 25 、 50 、 100 、 200
10、 时 对 线 性 等 值 结 果 精 确 性 的 影 响 8 。 E id 研 究 了 样 本 量 对 等 值 结 果 的 影 响 , 表 明 共 同 题 设 计 在 不 同 的 样 本 量 下 和 两 个 测 试 难 度 下 均 具 有 精 确 性 和 有 效 性 , 还 发 现 等 组 设 计 在 样 本 量 为 200 、 400 、 800 的 情 况 下 均 不 精 确 9 。 不 同 形 式 的 测 验 等 值 对 样 本 量 的 要 求 也 不 一 样 , 等 值 实 践 中 需 针 对 具 体 的 测 验 形 式 选 取 适 宜 的 样本量 , 而不是机械地采用某一研究结论 5
11、 。 2 数据收集 在 全 国 英 语 等 级 考 试 中 , 为 保 证 不 同 考 次 对 考 生 笔 试 能 力 的 考 查 要 求 一 致 , 需 要 将 具 有 不 同 难 度 、 不 同 分 数 分 布 的 试 卷 的 分 数 转 换 到 一 个 统 一 的 量 尺 上 。 数 据 收 集 设 计 是 锚 测 验 非 等 组 设 计 , 锚 题 外 置 4 。 每 次 正 式 考 试 前 一 周 左 右 随 机 抽 取 300 名 左 右 参 加 本 次 考 试 的 考 生 参 加 锚 测 试 。 本 研 究 采 用 某 次 全 国 英 语 等 级 考 试 第 五 级 ( PETS
12、- 5 ) 的 锚 测 验 数 据 和 实 测 数 据 。 锚 卷 在 一 定 时 间 内 尽 可 能 保 持 稳 定 , 通 过 每 次 考 前 的 锚 测 验 题 目 参 数 和 给 定 锚 题 参 数 的 关 系 , 将 本 次 正 式 考 试 的 题 目 参 数 转 换 到 锚卷的量表上 。 在 实 际 情 况 下 , 由 于 很 多 原 因 , 不 能 保 证 每 次 参 加 锚 测 试 的 样 本 量 都 能 达 到 300 人 左 右 。 因 此 , 本 研 究 从 参 加 锚 测 验 的 考 生 样 本 中 随 机 抽 取 30 人 、 60 人 、 90 人 、 120 人
13、、 150 人 、 180 人 、 210 人 、 240 人 、 300 人 作 为 样 本 , 再 从 正 式 考 试 中 抽 取 10 000 人 ( 包 括 随 机 抽 取 参 加 锚 测 验 的 样 本 ) , 通 过 考 号 将 锚 测 验 和 正 式 考 试 的 成 绩 链 接 起 来 。 参 数 估 计 基 于 Rasch 模 型 来 计 算 10 , 采 用 以 B igsteps 为 核 心 的 自 主 改进软件进行参数估计和参数转换 。 3 结果分析 3 . 1 依据经典测量理论分析抽样的合理性 研 究 的 样 本 是 从 参 加 锚 卷 测 试 的 660 名 考 生
14、中 随 机 抽 取 的 , 用 Excel 中 的 随 机 抽 样 函 数 进 行 随 机 抽 样 。 为 了 验 证 抽 样 是 否 合 理 , 表 1 、 表 2 、 表 3 对 不 同 样 本 量 锚 测 验 的 观 察 分 数 进 行 了 分 析 。 由 表 1 、 表 2 可 知 , 不 同 样 本 量 锚 测 验 观 察 分 数 的 均 值 不 存 在 显 著 差 异 。 表 3 表 明 , 不 同 样 本 量 的 抽 样 与 实 际 均值 标准差 峰度 偏度 最大值 最小值 30 37. 70 5. 80 - 0. 62 - 0 . 15 49 26 60 39. 22 7. 4
15、7 - 0. 66 - 0 . 35 57 26 90 38. 23 6. 32 - 0. 77 - 0 . 10 57 21 120 37. 07 7. 22 - 0. 02 - 0 . 31 58 20 150 37. 83 6. 60 - 0. 07 - 0 . 07 57 21 180 38. 12 7. 22 - 0. 18 - 0 . 35 63 22 210 37. 75 6. 99 - 0. 06 - 0 . 18 58 20 240 38. 35 6. 92 - 0. 38 - 0 . 09 58 21 270 37. 60 6. 81 - 0. 22 - 0 . 05 58
16、 20 300 37. 91 7. 17 - 0. 03 - 0 . 13 63 20 660 37. 96 6. 94 - 0. 16 - 0 . 07 63 20 样本量 表 1 不同样本量锚测验观察分数的统计描述 景春丽 等: 全国英语等级考试锚测验非等组设计中样本量对等值结果的影响 61 _中 国 考 试 2017 年第 6 期 考 生 样 本 之 间 锚 测 验 的 观 察 分 数 也 均 不 存 在 显 著 差 异 。 综 合 表 1 、 表 2 、 表 3 结 果 可 知 , 研 究 的 随 机 抽 样合理 。 3 . 2 参数估计 在 锚 测 验 非 等 组 设 计 中 , 不
17、 同 版 本 测 验 中 项 目 参 数 和 能 力 参 数 的 转 换 均 是 通 过 锚 题 参 数 的 平 均 值 和 标 准 差 实 现 的 , 而 Rasch 模 型 在 锚 题 参 数 转 换 过 程 中 只 用 到 了 锚 题 参 数 均 值 。 不 同 样 本 量 锚 题 难 度 参 数 均 值 及 与 给 定 锚 题 难 度 的 相 关 系 数 见 表 4 。 从 表 4 可 知 , 不 同 样 本 量 锚 题 难 度 参 数 均 值 为 - 0. 09- 0. 0 4, 随 着 样 本 量 的 变 大 , 难 度 均 值 变 化 越 小 , 在 样 本 量 达 到 150
18、之 后 , 参 数 均 值 趋 于 稳 定 ; 从 不 同 样 本 量 锚 题 难 度 与 给 定 锚 题 难 度 之 间 的 相 关 系 数 也 可 以 看 出 , 随 着 样 本 量 的 变 大 , 相 关 系 数 趋 于 稳 定 , 在 样 本 量 达 到 150 以 后 , 相 关 系 数 稳 定 在 0. 7 0. 72 。 3 . 3 估计差异分析 本 研 究 从 两 个 方 面 考 虑 参 数 及 等 值 差 异 : 一 是 考 虑 样 本 量 不 同 时 锚 测 验 所 估 计 出 的 锚 题 难 度 值 与 给 定 锚 题 难 度 值 之 间 的 差 异 ; 二 是 考 虑
19、不 同 样 本 量 锚 测 验 对 应 的 试 卷 等 值 结 果 的 差 异 。 同 时 , 以 样 本 量 为 660 的 锚 测 验 等 值 结 果 为 标 准 , 比 较 不 同 样 本 量 的 锚 测 验 的 等 值 结 果 与 样 本 量 为 660 的 锚 测 验 的 等 值 结 果 。 计 算 差 异 的 指 标 为 均 方 根 离 差 ( Root Mean Squared Deviation, RMSD ) 。 从 表 5 可 知 , 不 同 样 本 量 估 计 出 的 锚 题 难 度 值 与 给 定 锚 题 难 度 值 的 差 异 较 小 , 但 是 当 样 本 量 介
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 全国 英语等级 考试 测验 设计 样本 等值 结果 影响 景春丽
限制150内