当前位置:百拇书籍 > 中医养生 > 《预防医学》
编号:75838
二、回归分析(regression analysis)
http://www.100md.com 《预防医学》 上一页   下一页
     医学上,不少娈量间虽存在一定关系,但这种关系不象函数关系那样十分确定。例如正常人的血压随年龄而增高,但这只是总的趋势,有些高龄人的血压却不一定偏高;一群正常人按年龄和血压两个变量在坐标上的方位点,并非集中在一条上升直线上,而是围绕着一条有代表性的直线上升。

    直线回归分析的任务在于找出两个变量有依存关系的直线方程,以确定一条最接近于各实测点的直线,使各实测点与该线的纵向距离的平方和为最小。这个方程称为直线回归方程,据此方程描绘的直线就是回归直线。

    (一)直线回归方程式(linear regression equation)的计算

    直线回归方程的通式为:

    =a+bX 公式(22.3)

    式中Y为自由变量X推算因变量Y的估计值,a为回归直线在Y轴上的截距,即X=0时的Y值;b为样本回归系数(regression coefficient),即回归直线的斜率(slope或称坡度),表示当X变动一个单位时,Y平均变动b个单位。如果已知a与b,用以代入公式(22.3),即可求得直线回归方程。求a和b的公式分别为:

    公式(22.4)

    公式(22.5)

    对样本中两个变量分析,不但可作相关分析,还可进一步作直线回归分析。仍以表22-1为示范,该例经过直线相关分析,r=0.6097,两变量间有直线关系,从相关系数计算时,已求得:

    Σ(X-x)(Y-Y)=41.2000

    Σ(X-x)2=677.4194

    而Y=ΣY/n=99.2/31=3.2000

    x=ΣY/n=534/31=17.2258

    代入公式(22.4)

    b=41.2000/677.4194=0.0608

    代入公式(22.5)

    a=3.2000-0.0608×17.2258=2.1527

    代入公式(22.3)

    =2.1527+0.0608X

    (二)样本回归系数的假设检验

    样本回归系数也有抽样误差问题,故需对b作假设检验,以评估b是否可能从回归系数为零(即β=0)的总体中随机抽得的。

    检验步骤:

    H0:β=0 即b是由β=0的总体中随机抽样的样本回归系数。

    H1:β≠0

    α=0.05

    t检验:检验公式为

    tb=|b|/sb公式(22.6)

    式中sb是回归系数的标准误,计算公式为公式(22.7)

    式中sy.x为各观察值Y距回归直线(Y)的标准差,是当X的影响被扣除后Y方面的变异指标。可用以下公式计算:

    公式(22.8)

    公式(22.9)

    本例上述已算得

    Σ(X-x)2=677.4194

    Σ(Y-Y)2=6.7400

    Σ(X-x)(Y-Y)=41.2000

    分别代入公式(22.9),(22.8),(22.7)和(22.6)得

    Σ(Y-Y)2=6.7400-41.20002/677.4194=4.2343

    tb=0.0608/0.01468=4.1417

    分析评价 本例自由度v=31-2=29,查t值表,t0.01(29)=2.756,P<0.01,按α=0.05检验水准,拒绝无效假设,可以认为待产妇24小时尿中雌三醇含量与初生儿体重之间存在直线回归关系。

    (三)描绘回归直线

    根据以上求得回归方程Y=2.1527+0.0608x,可以在自变量X的实测范围内(本例为7~27)任取X1和X2两值代入上式求得在图22-2中的P1(X1,Y1)和P2(X2,Y2)两坐标点,将两点连结为一直线,就属该方程的回归直线。作图要注意的是P1、P2两点最好距离远些,绘出的直线在坐标上误差就小些。