疾病预测模型技术规范(T-CI 189—2023).pdf





《疾病预测模型技术规范(T-CI 189—2023).pdf》由会员分享,可在线阅读,更多相关《疾病预测模型技术规范(T-CI 189—2023).pdf(9页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、 ICS 11.020 CCS C 04 团体标准 T/CI 1892023 疾病预测模型技术规范 Technical specifications for disease prediction models 2023-11-16 发布 2023-11-16 实施 中国国际科技促进会 发 布 T/CI 1892023 I 目次 前言.II 1 范围.1 2 规范性引用文件.1 3 术语和定义.1 4 疾病预测模型构建步骤.2 研究问题提出.2 研究设计和数据质控.2 预测因子编码.2 模型构建.3 参数估计.3 模型评价.3 模型验证.3 模型展示.4 5 模型性能的评价指标.4 概述.4 A
2、:全局校准.4 B:斜率校准.4 C:C 统计量.5 D:决策曲线.5 参考文献.6 T/CI 1892023 II 前言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由山东大学提出。本文件由中国国际科技促进会归口。本文件起草单位:山东大学、北京大学、重庆邮电大学、济南兴腾信息科技有限公司、康评医疗健康有限公司、浪潮软件集团有限公司。本文件主要起草人:薛付忠、季晓康、郭守辉、张 琪、胡锡峰、杨 帆、朱高培、仉率杰、邵敬毅、屈 静、张 健、高 培、张清华、孙振栋、
3、高传贵。T/CI 1892023 1 疾病预测模型技术规范 1 范围 本文件确立了疾病预测模型构建的过程和步骤,给出了衡量模型性能的多维度评价指标。本文件适用于疾病预测模型的构建、评价与改进。2 规范性引用文件 本文件没有规范性引用文件。3 术语和定义 下列术语和定义适用于本文件。研究设计 study design 为构建疾病预测模型而涉及的队列研究设计。疾病预测模型 disease prediction model 一种使用统计或机器学习方法构建的模型,旨在根据一组输入变量(如基因型、生活方式、生物标记、环境因素等)来预测个体在未来某一时期内患某种疾病的概率。预测因子 predictor 经
4、过精选的,具有一定临床意义和公共卫生意义的可干预指标,以及与疾病相关的年龄、性别等不可干预因子。队列数据 cohort data 通过队列研究设计所获得的数值变量和分类变量的观察值。疾病风险 disease risk 通过疾病预测模型所预测的结局发生的可能性。人群平均基准风险 average baseline hazard 在人群队列中随访观察到一定时期内(如5年、10年等)各年龄别发病率(或发病密度),可代表同性别同年龄的人群期内发生某种健康/疾病结局的平均风险水平。绝对风险 absolute risk 具备某特定危险因素集的某个体在年龄时未发生所研究的结局(如脑卒中)而在年龄(+)时段内发
5、生该结局的概率,其中是人为规定的随访时间。注:也称粗风险(crude risk)或累积风险(cumulative risk)。相对绝对风险 relative absolute risk 特定危险因素组合下,个体年龄别绝对风险与群体中相同年龄的平均绝对风险之比,以反映每个个体的绝对风险是同年龄组所有人的平均绝对风险的倍数。超额绝对风险 excess absolute risk 特定危险因素组合下,个体年龄别绝对风险与群体中相同年龄的平均绝对风险(即人群平均基准风险)之差,以反映每个个体的绝对风险与同年龄组所有人的平均绝对风险的差。T/CI 1892023 2 竞争风险 competing ris
6、k 在研究对象的整个生存期内,除了会出现所关心的结局(如脑卒中发生等)外,还会出现其它竞争性结局(如死亡等)。内部有效性 internal validity 在研究预测模型的样本中,能够在完全相同的研究过程中复现研究结果的程度。外部有效性 external validity 预测模型类推到目标人群的有效性(普遍适应性)。结局 ending 预测因子(3.3)通过预测模型所预测的结局,以绝对风险形式显示。列线图 alignment diagram 将模型中的多个预测指标整合,采用刻度线段,按一定比例绘制在同一平面上,以表达预测模型中各个变量之间的相对权重大小,同时为使用者提供简洁的风险计算方式。
7、也称诺莫图(Nomogram)。校准度 calibration 评价一个疾病模型预测未来某个个体发生结局事件概率准确性的重要指标,反映了模型预测风险与实际发生风险的一致程度。4 疾病预测模型构建步骤 研究问题提出 4.1.1 首先应确定研究问题,即对结局和对应预测因子的选择。对预测因子的选择应具有可干预性、科学性、可行性、效益性。4.1.2 预测因子的选择,应由临床专家和统计学专家共同商定。4.1.3 结局的选择:首选死亡、发病、转归等“硬结局”,次选病情加重等不易确切判断的“软结局”。4.1.4 建模样本的选择,根据不同的研究设计,如队列研究设计、巢式病例对照研究设计等,选择相应的研究对象,
8、并计算样本量。4.1.5 若使用既往临床试验的历史数据,也可为建立模型提供数据。4.1.6 在样本的选择中,根据实际情况选择采用合适的抽样方法,如整群抽样、简单随机抽样、复杂抽样等。研究设计和数据质控 4.2.1 综合考虑不同类型研究设计的优缺点并结合实际情况确定研究设计,宜使用人群队列研究设计,在特殊的情况下可以使用巢式病例对照研究设计、基于随机临床试验的队列设计或者以人群为基础的病例对照研究设计。4.2.2 疾病预测模型应使用队列数据,而不是横断面数据。4.2.3 数据集应拆分为训练队列数据集、验证队列数据集,训练队列数据集用于模型训练,验证队列数据集用于模型的评估和调优。4.2.4 应对
9、队列数据进行质量控制,包括数据测量的准确性,以及对数据的预处理,比如离群值、缺失值、不平衡和共线性等问题的处理。预测因子编码 预测因子的编码应从以下方面考虑:T/CI 1892023 3 a)候选预测因子宜包括人口统计学特征、临床病史、体格检查、疾病特征、实验室结果以及既往的治疗方法和基因组生物标记等。除了年龄和性别等不可干预的预测因子,尽量选择具有临床意义且可干预的指标作为预测因子;b)应首选因果链上的指标作为候选预测因子,且离结局越近的指标,预测效果越好;c)分类变量和数值变量都可以作为预测因子,根据临床需要选择数值变量或者将数值变量转化为分类变量;d)对于预测因子的缺失数据,要慎用统计学
10、填补法,建议采用不确定性推理。模型构建 4.4.1 预测因子选择 在模型构建之前应选择合适的预测因子,宜根据需求遵从以下几个方面确定纳入模型的预测因子:a)根据现有的医学文献筛选预测因子;b)单因素分析筛选预测因子;c)多因素分析筛选预测因子;d)根据临床实际需要筛选预测因子;e)对于预测因子筛选,高维数据宜用 lasso 回归,低维数据宜用向后逐步回归;f)在保证预测效果前提下,纳入的预测因子越少越好。4.4.2 模型选择 根据研究目的及研究设计选择合适的模型,应从以下方面考虑:a)在保证预测效果的前提下,尽量选择简单的预测方法而非复杂的预测方法;b)合理选择参数模型(Weibull 回归模
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 疾病预测模型技术规范T-CI 1892023 疾病 预测 模型 技术规范 CI 189 2023

限制150内