摘要:上期已经讲完随机对照试验(RCT)-队列研究+连续变量的样本含量估计,这期开始讲成组设计的病例对照研究的样本含量估计,主要从基础知识、问题与数据、对问题分析及PASS软件操作进行讲解。
作者/风仕
上期已经讲完随机对照试验(RCT)-队列研究+连续变量的样本含量估计,这期开始讲成组设计的病例对照研究的样本含量估计,主要从基础知识、问题与数据、对问题分析及PASS软件操作进行讲解。
基础知识
1.基本原理
成组设计的病例对照研究中,对于连续变量样本量的估算,是为了在给定的统计把握度下,能够准确检测出病例组和对照组之间在该连续变量上的差异。通过估计总体中该变量的变异程度、设定检验水准以及预期的组间差异大小,来确定所需的样本量,以确保研究结果具有足够的可靠性和有效性。
2.设计特点
将病例组(患有某种疾病的患者)和对照组(未患该病的人群)分别作为两组,然后回顾性地调查他们过去暴露于某些因素的情况,分析暴露因素与疾病的关系,两组之间没有匹配关系。
3.影响样本量的因素
(1)检验水准(α):通常取 0.05 或 0.01。α 值越小,为达到相同检验效能所需的样本量越大。例如,若将 α 从 0.05 调整为 0.01,在其他条件不变的情况下,样本量会增加。
(2)检验效能(1 - β):一般要求检验效能不低于 0.8。检验效能越高,需要的样本量越多。比如,从检验效能 0.8 提高到 0.9,样本量会相应增加,以更有把握地检测出真实存在的组间差异。
(3)预期组间差异(δ):即研究者期望在病例组和对照组之间观察到的连续变量的平均差异。差异越大,越容易被检测到,所需样本量越小。例如,预期两组在某个连续变量上的均值差异为 2 个单位,比差异为 1 个单位时所需的样本量要小。
(4)总体标准差(σ):反映连续变量在总体中的变异程度。标准差越大,数据离散程度越大,需要更大的样本量来准确估计组间差异。例如,对于标准差较大的变量,要达到相同的估计精度,需要的样本量会比标准差小的变量多。
(5)单侧检验或双侧检验:双侧检验考虑差异的两个方向,而单侧检验只关注一个方向,双侧检验所需样本量通常大于单侧检验。
4.估算方法
5.注意事项
(1)参数估计准确性:准确估计总体标准差和预期组间差异至关重要。这些参数的估计值通常来自以往研究、预试验或相关文献,但要注意其在当前研究中的适用性和准确性。不准确的估计可能导致样本量计算偏差,进而影响研究结果的可靠性。
(2)数据分布特性:公式基于数据服从正态分布的假设。若连续变量的分布明显偏离正态,可能需要进行数据转换或采用非参数方法,此时样本量估算方法会有所不同。例如,对于偏态分布的数据,可先进行对数转换等操作使其接近正态分布,再进行样本量估算。
(3)个体差异与测量误差:个体间的生物学差异以及测量过程中的误差会影响总体标准差的估计。在研究设计中,应采取措施控制测量误差,如使用标准化的测量工具、培训测量人员等,以提高数据质量和样本量估计的准确性。
(4)匹配因素的影响:如果研究中存在匹配因素,如年龄、性别等,样本量估算方法会有所不同,需要考虑匹配的效应和匹配比等因素。一般来说,匹配可以提高研究效率,减少混杂因素的影响,但也会使样本量估算变得更为复杂。此时可能需要使用专门的匹配设计样本量估算公式或软件进行计算。
问题与数据
某研究者拟进行一项病例对照研究,探讨吸烟与肺癌的关系。选择肺癌患者为病例组,选择非肺癌患者为对照组。预期比值比 OR =2.0 ,对照组人群中的吸烟率约为 20% ,设α =0.05 ,β =0.10。拟定病例组和对照组采用相等样本量 ,请问如何估计病例组和对照组的样本量?
对问题分析
研究者的设计为病例对照研究,并且病例组和对照组各为一组 ,因此该设计类型为成组设计的病例对照 研究。病例对照研究中 ,我们把想要探讨的危险因素称为暴露。
要计算样本量,首先应当拟定检验水准α和检验效能 1-β。一般情况下,我们默认选取α =0.05,β =0.10。 此外,还需要根据既往文献或预试验的结果,给定两个参数:
(1)预期的 OR 值;
(2)对照组人群中(非 肺癌患者)有暴露因素的研究对象(吸烟者)的比例。
如果我们关注的暴露因素有多个 ,则计算样本量的原则一般如下:
(1)以最想关注的那个暴露因素计算得到的样本量为准;
(2)计算所有的暴露因素应 有的样本量 ,然后取最大值。
PASS软件操作
1. 选择 Proportions→Two Independent Proportions→Test (Inequality)→Test for Two
Proportions[Odds Ratios]
2.Find (Solve for)中选择 N1, Power (1-Beta)中选择 0.9 ,Alpha
(Significance Level)中选择 0.05, N2 (Sample Size Group 2)中选择 Use R, R (Sample Allocation Ratio)中选择 1.0 ,OR1 (Odds Ratio|H1 =O1/O2)中填入 2.0, P2 (Control Group Proportion)中选择 0.2。
其它选择为默认选项后 ,点击 RUN
3.结果解释
PASS 软件给出了样本量计算的结果、参考文献、报告中的名词定义和总结性描述。在样本量计算结果 中我们需要关注以下两列:
(1)Sample Size Grp 1 (N1):病例组样本量。本研究的病例组需要 230 例研究对象。
(2) Sample Size Grp 2 (N2):对照组样本量。本研究的对照组需要 230 例研究对象。
4.撰写结论
本研究为成组设计的病例对照研究。病例组为肺癌患者,对照组为非肺癌患者 ,吸烟为主要观察的暴露 因素。根据既往文献报道,对照组(非肺癌患者)人群中的吸烟率约为 20%。预期 OR =2.0,设α =0.05, β =0.10。利用 PASS 11 软件计算得到病例组和对照组的样本量 N1 =N2 =230 例。假定研究对象的无应 答率为 10% ,则需样本量 N1 =N2 =230÷0.9 =256 例。假定问卷合格率为 90% ,则共需样本量为N1 =N2 =256÷0.9 =284 例。
1.单个问题答疑咨询。1对1答疑、小额付费、48小时内有效。
2.答疑咨询年度会员。一年365天时限内各种统计分析问题1对1答疑,性价比高。
3.购买视频课程赠送课程相关主题内容1对1答疑1年。
来源:孙医生工作室