摘要:在上一节,已经更新了定义临床问题,这节主要讲临床数据的获取,主要从临床数据获取的核心原则、临床数据获取的具体流程、确保数据质量的关键措施及常见问题及解决方法这几方面进行讲解。
在上一节,已经更新了定义临床问题,这节主要讲临床数据的获取,主要从临床数据获取的核心原则、临床数据获取的具体流程、确保数据质量的关键措施及常见问题及解决方法这几方面进行讲解。
不同的临床预测模型问题适合用不同的研究设计数据来回答。对于诊断类问题,其预测因子与结局均在同一时点或很短的时间内,适合采用横断面研究数据构建诊断模型;对于预后类问题,其预测因子与结局有纵向的时间逻辑,适合采用队列研究数据拟合预后模型。随机对照临床试验可视为入选更为严格前瞻性队列,因此也可用于建立预后模型,但在外推性受限。回顾性的队列研究因其人群选择偏倚和信息偏倚,不适合建立预后模型,但剿式病例对照或者病例队列研究在罕见结局或者预测因子测量昂贵的研究中是经济、可行的方案。
在临床研究中,规范、高质量的临床数据获取是研究结论可靠性的前提,直接影响后续统计分析、模型构建及结果转化的有效性。数据获取的规范性需覆盖从设计到存储的全流程,涉及方案制定、伦理合规、数据标准、质量控制等多个环节。以下从核心原则、具体流程、关键措施及常见问题解决四个方面详细说明:
临床数据获取的核心原则
1.以研究方案为导向
数据获取需严格遵循研究方案中定义的目标、纳入 / 排除标准、观察指标及收集周期,避免 “无目的收集” 或 “遗漏关键信息”。例如,若研究目标是 “评估某药物对心衰患者再住院率的影响”,则需提前明确 “再住院” 的定义(如因心衰恶化住院)及相关记录要求(如住院时间、原因)。
2.全面性与相关性平衡
需收集与研究目标直接相关的核心数据(如结局指标、暴露因素),同时避免冗余信息(如与研究无关的既往病史),以减少数据负担和误差风险。
3.标准化与可追溯性
数据需采用统一的定义、格式和测量标准(如实验室指标的检测方法、量表评分的规则),且每一条数据需可追溯至原始记录(如病历号、检测时间、记录人),确保 “谁收集、何时收集、如何收集” 可查。
4.伦理合规与隐私保护
所有数据获取必须经过伦理委员会审批,患者需签署知情同意书,且个人信息(如姓名、身份证号)需脱敏处理(如采用匿名 ID 关联),符合《赫尔辛基宣言》及当地法规(如中国《医学研究伦理审查指导原则》)。
临床数据获取的具体流程
步骤 1:制定数据收集方案(研究设计阶段)
1.明确数据清单(CRF 设计):
根据研究目标设计病例报告表(Case Report Form, CRF),列出需收集的所有变量,包括:
(1)基本信息:年龄、性别、入组时间等;
(2)临床特征:疾病分期、并发症、既往治疗史等;
(3)暴露 / 干预因素:药物剂量、手术方式、检测指标值(如血压、血糖)等;
(4)结局指标:生存状态、事件发生时间(如复发、死亡)、实验室结果变化等。
CRF 需满足 “每个变量可定义、可测量、可溯源”,例如 “血压” 需注明测量时间(如清晨空腹)、体位(坐位)及仪器型号。
2.确定数据来源:
明确数据的原始出处,常见来源包括:
(1)电子病历系统(EMR):提取结构化数据(如诊断代码、用药记录)和非结构化数据(如病程记录、影像报告);
(2)实验室信息系统(LIS):检验结果(如血常规、基因检测);
(3)影像学系统(PACS):影像数据(如 CT、MRI)及报告;
(4)患者自报数据:通过问卷、日记收集(如生活质量评分、症状变化);
(5)随访数据:通过门诊、电话或线上平台收集(如术后 1 年的复查结果)。
步骤 2:伦理审批与知情同意(合规阶段)
1.伦理审查:提交研究方案、CRF、知情同意书等材料至伦理委员会,说明数据收集的目的、范围、隐私保护措施,获得审批后方可启动。
2.知情同意:向患者清晰解释研究内容(如数据用途、收集方式、潜在风险),在患者自愿签署知情同意书后收集数据。对于回顾性研究(使用历史数据),若无法获得个体同意,需申请 “免除知情同意”(需伦理委员会批准,且数据已脱敏)。
步骤 3:数据收集实施(执行阶段)
1.培训数据收集人员:
对研究护士、医生等进行统一培训,明确 CRF 填写规范(如日期格式为 “YYYY-MM-DD”、阴性结果需记录为 “无” 而非空项)、指标测量标准(如量表评分的操作流程),避免因人为差异导致的数据偏差。
2.选择数据收集工具:
(1)纸质 CRF:适用于小样本、短期研究,但易出现填写错误、存储不便;
(2)电子数据捕获系统(EDC,如 RedCap、OpenClinica):支持在线填写、实时校验(如范围校验:血压值不可能为负数)、自动导出,是大样本研究的首选。
3.前瞻性 vs 回顾性数据收集:
(1)前瞻性:从研究启动时按方案实时收集数据(如新药临床试验),优势是数据完整性高、偏倚少,但耗时耗力;
(2)回顾性:从历史记录中提取数据(如回顾性队列研究),需注意数据完整性(如部分老病历可能缺失关键信息),需提前评估历史数据的可用性。
步骤 4:数据记录与暂存(管理阶段)
1.实时记录与双录入:
数据需及时记录(避免记忆偏差),关键数据建议 “双录入”(两人分别录入同一信息,通过系统比对差异并核实),减少录入错误。
2.数据暂存与备份:
电子数据需存储在加密服务器,定期备份(如每日增量备份 + 每周全量备份),纸质数据需编号存档、专人保管,防止丢失或篡改。
确保数据质量的关键措施
1.制定数据字典(Data Dictionary)
对 CRF 中所有变量给出明确定义,包括:
(1)变量名称(如 “BMI”)、类型(数值型 / 分类型);
(2)取值范围(如 BMI 正常范围 18.5-24.9);
(3)单位(如 kg/m²)、缺失值表示方法(如用 “NA” 而非空项);
(4)示例(如 “糖尿病史:1 = 有,0 = 无”)。
数据字典是所有研究人员的 “操作手册”,确保对变量的理解一致。
2.建立数据质量控制(QC)流程
(1)实时校验:通过 EDC 系统设置逻辑校验规则,例如 “若患者年龄 舒张压”,不符合规则时自动提示错误。
(2)定期核查:研究中期随机抽取 10%-15% 的 CRF,与原始病历核对(如检验结果、用药记录),计算 “数据一致性率”(如≥95% 为合格),对不一致项追溯原因并修正。
(3)缺失值管理:提前在方案中规定缺失值的允许比例(如关键结局指标缺失率需
3.标准化数据格式
(1)分类变量需统一编码(如性别:1 = 男,2 = 女),避免 “男 / 女性”“M/F” 等多种写法;
(2)日期、时间采用国际标准格式(如 “2023-10-01”“08:30:00”);
(3)实验室指标需注明检测方法和参考范围(如 “血糖:5.2mmol/L,检测方法:葡萄糖氧化酶法,参考值 3.9-6.1mmol/L”)。
常见问题及解决方法
1.数据不完整或缺失
(1)预防:在 CRF 设计时减少非必要变量,随访时通过短信、电话提醒患者;
(2)处理:若缺失比例低(
2.数据录入错误
(1)预防:EDC 系统设置范围校验(如年龄 > 0)、逻辑校验(如 “死亡时间” 不能早于 “入组时间”);
(2)处理:通过数据核查发现异常值(如血压 = 300mmHg),追溯原始记录并修正,无法核实的标记为 “可疑值” 并在分析中说明。
3.隐私泄露风险
措施:采用 “去标识化” 处理(如用 “ID001” 替代真实姓名),数据传输时加密(如 HTTPS 协议),仅授权人员可访问数据,存储符合《健康保险流通与责任法案》(HIPAA)或《个人信息保护法》要求。
总结
规范的临床数据获取需贯穿 “设计 - 伦理 - 收集 - 质控” 全流程,核心是以研究目标为核心,通过标准化工具(CRF、数据字典)、严格的质控措施(校验、核查)及合规管理(伦理、隐私),确保数据的完整性、准确性和可追溯性。只有高质量的数据,才能支撑可靠的研究结论,最终实现临床研究的价值(如优化诊疗方案、指导临床决策)。
来源:孙医生工作室