快速调查中的二级整群随机抽样

来源:岁月联盟 作者:蔡 琳 时间:2010-07-12

【关键词】  吸烟; 社区卫生服务; 抽样研究; 随机分配


    在社区健康服务研究中,快速流行病学评估(rapid epidemiological assessment)是常用的方法。尤其当人力、物力及其它资源有限时,这是一种简单、而快速地获取信息的有效方法。该方法可及时提供实时调查结果作为制定决策的依据,当应急事件发生、需要在短时间内对人群健康作出评价时,更显出其独特的作用。在快速流行病学调查中,仍然须注意质量控制,比如,做好调查员的培训和组织工作,制定明确、客观的检测标准和详细、严格的资料收集方法等。机的应用可加快调查和分析进程,在可能的情况下,随机电话和电话采访等都是有用的技术。

    快速流行病学调查评估中常采用多级抽样,二级整群随机抽样(two stage cluster sampling)是一种行之有效、值得推荐的人群调查抽样技术。在第一阶段采用概率比率抽样(probability proportionate to size,PPS)方法,即根据各群的规模按比例分配样本量,从目标人群中抽取若干“群组”;第二阶段再从第一阶段所抽到的各群组中抽取相同人数组成样本。也可以“户”为抽样单位,从第一阶段抽到的各群组中随机抽取相同户数,再进行第二阶段的调查。这两种方法分别用不同的公式计算率、均数及相应的可信区间。下面以调查某地人群吸烟行为(吸烟率和平均每日吸烟量)的两个小规模研究为例进行介绍。

    1  研究A (群内观察单位数相等)

    1.1  方法  先采用PPS法从目标人群中抽取3个“群组”,再用单纯随机抽样(SPS)从每个群组中抽取7人组成样本(图1)。为示例方便,在此仅选择3个群组,实际调查应不少于25个群组,否则将可能产生偏倚。若抽取30个群组,则与世界卫生组织扩大免疫规划(expanded program on immunization,EPI)的抽样设计相同。

    1.2  率的计算

    吸烟率P为:

    P=a   m(式1)

    n   i=1ai=∑n   i=1∑m   j=1aij(式2)

    P=∑n   i=1ai   nm(式3)

    公式(式4)中:P为吸烟率,a为吸烟者数,m为调查人数,n为群组数,ai为各群组中吸烟者数,m为每群组的平均人数。aij表示第i群组,第j个观察对象,如第一群组的第一个观察对象a1,1是吸烟者,则a1,1=1;第一群组的第四个观察对象a1,4是不吸烟者,则a1,4=0。

    群组吸烟率Pi为:

    Pi=∑m   j=1   m(式4)

    Pi=1+1+1+0+0+0+0   7=0.43

    P2=0+0+0+0+0+1+1   7=0.29

    P3=0+1+1+1+1+1+1   7=0.86

    该样本人群吸烟率p=3+2+6   3×7=0.52,即调查对象吸烟率为52%。或p=∑n   i=1pi   n,p=0.43+0.29+0.86   3=0.52,必须注意此公式适用于各群组抽样人数相同时的样本率估计。

    1.3  率的可信区间计算

    方差:v(p)=∑n   i=1(pi-p)2   n(n-1)(式5)

    率的标准误:se(p)=v(p)=∑n   i=1(pi-p)2   n(n-1)(式6)

    CI90%(p)=p±1.64se(p)

    CI95%(p)=p±1.96se(p)

    CI99%(p)=p±2.58se(p)

    该人群吸烟率的95%可信区间计算如下:

    v(p)=(0.43-0.52)2+(0.29-0.52)2+(0.86-0.52)2   3(2)=0.029

    se(p)=0.029=0.17

    CI95%(p)=0.52±(196×0.17)=0.52±0.34,该地人群吸烟率及95%可信限为0.52(0.19,0.86)。

    1.4  样本均数的计算

    平均吸烟量y:

    观察对象中的吸烟者每日吸烟量在0~2包,平均1.5包。y为平均每日吸烟量,yij表示第i群组第j个观察对象(图3)。Yi为样本第i群内观察值之和,T为各Ti的均数。

    y=∑n   i=1∑m   i=1   nm(式7)图3  调查对象(同时作为抽样单位和观察单位)每日吸烟量(包/日)

    Fig 3  Packs smoked per day among persons serving as both sampling units and elementary units

    y=(1.5+1.5+0.5+0+0+0+0+)+(0+0+0+0+0   +2.0+0.5)+(0+1.0+2.0+0.5+1.5+1.5)   3(7)

    y=3.5+2.5+7.0   21=13   21=0.62

    由于各群组抽取的人数相同,故可用下式估计y:

    y=∑n   i=1y   n(式8)

    各群组吸烟者平均每日吸烟量计算如下:

    y=∑m   j=1yij   m(式9)

    y1=1.5+1.5+0.5+0+0+0+0   7=0.50

    y2=0+0+0+0+0+2.0+0.4   7=0.36

    y3=0+1.0+2.0+0.5+0.5+1.5+1.5   7=1

    y=0.50+0.36+1.00   3=0.62,结果同上式。

    1.5  均数的可信区间计算

    样本均数的方差和均数的标准误分别为

    v(y)=∑n   i=1(yi-y)2   n(n-1)(式10)

    se(y)=v(y)=∑n   i=1(yi-y)2)   n(n-1)(式11)

    代入数据计算:

    v(y)=(0.50-0.62)2+(0.36-0.62)2   +(1.00-0.62)2   3(2)=0.038

    se(y)=0.038=0.19

    CI95%(y)=0.62±(1.96×0.19)=0.62±0.38,0.62(0.24,1.00)

    如果排除了偏倚和混杂,可认为该人群平均每日吸烟量有95%的可能是0.24~1包。

    2  研究B (群内观察单位数不等)

    2.1  方法 第一阶段的抽样方法与研究A相同,采用PPS法从目标人群中抽取3个“群组”,而第二阶段是从所抽取的每群组中随机抽取2户进行调查。以“家庭户”为抽样单位可以收集有住户的信息,如每户报刊订阅情况,家庭收入,家庭常用的洗洁剂品牌等。但多数研究还希望获得有关个人的信息,因此可对所抽中的“户”内的观察对象再进行调查,这时的观察单位是“人”,但每户被调查的人数不尽相同(图4)。

    图4  第一阶段PPS抽样;第二阶段简单随机抽样(SPS), 抽取相同户数

    Fig 4  PPS sampling at first stage and SR sampling of equal number of households at second stage

   

 研究B所抽取的家庭户,每户有1~3人,6户共有13人。以m表示该对象是否居住本地,本地居民,m=1;非本地居民m=0(非本地居民不作为该研究的调查对象)。aijk表示第i群组第j户第k个调查对象,如a1,1,1=1表示第1群组第1户第1个调查对象是吸烟者;a3,2,2=0表示第3群组、第2户、第2个调查对象是不吸烟者(图5)。

    图5  以住户为抽样单位,调查对象(即观察单位,人)的吸烟状况

    Fig 5  Packs smoked per day with households serving as sampling units and persons as elementary units

    由于各群组抽取的户数相同(2户),可合并以简化分析。如图6的第1群组第2户第2个调查对象是不吸烟者.a1,2,2=0,m1,2,2=1,可表示为a1,5=0和m1,5=1(图6)。

    图6  各群吸烟人数(抽样单位:户;观察单位:人)

    Fig 6  Tally of smokers per cluster-households serve as sampling units and persons as elementary units

    2.2  率的

    由于各户观察人数mi不同,a,m和吸烟率P计算公式为

    a=∑n   i=1ai=∑n   i=1∑mi   j=1mij(式12)

    m=∑n   i=1mi=∑n   i=1∑mi   j=1mij(式13)

    P=∑n   i=1∑m   j=1aij   ∑n   i=1∑m   j=1mij(式14)

    代入数据计算:

    p=(1+1+0+0+0)+(1+0+1)+(1+1+0+1+0)   (1+1+1+1+1)+(1+1+1)+(1+1+1+1+1)

    p=(1+1+0+0+0)+(1+0+1)+(1+1+0+1+0)   (1+1+1+1+1)+(1+1+1)+(1+1+1+1+1)

    p=2+2+3   5+3+5=7   13=0.54,即样本人群中54%是吸烟者。

    2.3  率的可信区间计算

    v(p)=∑n   i=1(ai-pmi)2   n(n-1)m2(式15)

    se(P)=v(p)+∑n   i=1(ai-pmi)2   n(n-1)m2(式16)

    代入数据计算:

    v(p)=[2-(0.54×5)]2=[2-(0.54×3)]2+[3-0.54×5)

]2   3×2×4.32=0.0064

    se(p)=0.0064=0.08

    CI95%(p)=0.54±(1.96×0.08)=0.54±0.16,0.54(0.38,0.70)。

    估计该人群吸烟率的95%可信区间为38%~70%。

    2.4  样本均数的计算

    平均吸烟量y:

    研究B抽取的3个群组(共6户)的调查人数及吸烟量如图7所示,第1群组第1户的3人中有2人吸烟,其中1人平均每天吸烟0.5包(y1,1,1=0.5),另1人平均每天吸烟2包(y1,1,2=2)。

    图7  调查对象(抽样单位:户;观察单位:人)的每日吸烟量(包/日)

    Fig 7  Packs smoked per day with households serving as sampling units and persons as elementary units

    y=∑n   i=1∑mi   j=1yij   ∑n   i=1∑mi   j=1mij(式17)

    以y表示样本人群平均每日吸烟量,yij表示第i群组第j个观察对象的平均每日吸烟量,n表示群组数,mi表示群组i中的观察对象数,mij=1为本地居民,mij=0为非本地居民。依公式17计算:

    y=(0.5+2.0+0+0+0)+(1.0+0+1.0)   +(1.0+0.5+0+1.5+0)   (1+1+1+1+1)+(1+1+1)+(1+1+1+1+1)

    y=(2.5)+(2.0)+(3.0)   5+3+5=7.5   13=0.58,即该样本人群平均每日吸烟量0.58包。

    若计算吸烟者平均每日吸烟量,式6-19的分母以7取代13;

    y=(0.5+2.0)+(1.0+1.0)+(1.0+0.5+1.5)   (1+1)+(1+1)+(1+1+1)

    y=(2.5)+(2.0)+(3.0)   2+2+3=7.5   7=1.07

    即该样本人群中的吸烟者平均每日吸烟量大于1包。

    2.5  样本均数可信区间计算    v(y)=∑n   i=1(yi-ymi)2   n(n-1)m2(式18)

    se(y)=v(y)=∑n   i=1(yi-ymi)2   n(n-1)m2(式19)

    代入数据计算样本人群平均每日吸烟量的95%可信区间为:

    v(y)=[2.5-(0.58×5)]2+[2.0-(0.58×3)]3   +[(3.0-(0.58×5)]2   3(2)4.332=0.002

    se(y)=0.002=0.005

    CI95%(y)=0.58±(1.960.05)=0.58±0.09,0.58(0.49,0.67)

    该样本人群中的吸烟者平均每日吸烟量的95%可信区间为:

    vy=[2.5-(1.07×2)]2+[2.0-(1.07×2)]2   +[(3.0-(1.07×3)]2   3(2)2.332=0.006

    se(y)=0.006=0.08

    CI95%(y)=1.07±(1.96×0.08)=1.07±0.15,1.07(0.92,1.22)

    3  小  结

    上述介绍的两种二级整群随机抽样法中,第一种方法(研究A)中观察对象既是随机抽样单位也是调查的基本单位,计算方法较简单,但不能提供亚组(subgroup)资料;第二种方法(研究B)以户作为抽样单位,从各群组中随机抽取的住户数相同,但各群组的观察人数不同,采用以户内的观察对象作为调查的基本单位,该方法所得信息较丰富,不仅可对研究人群也可对各亚组资料进一步进行分析。二级整群随机抽样是一种行之有效、值得推荐的人群快速调查抽样技术,在实际操作中应根据研究目的和可行性而选用。

【】
  [1] Kelsey J L,Whittemore A S,Evans A S,et al. Methods in observational epidemiology[M]. 2ed. New York:Oxford Uni Press, 1996:45-340.

  [2] Gregg M B. Field epidemiology[M]. 2ed. New York:Oxford Uni Press, 2002:53-251.

  [3] Rothman K J,Greenland S. Modern epidemiology[M]. 2ed. Philadelphia:Lippincott Raven Pub, 1998:67-180.