首页 > 分享 > 生存分析方法详解

生存分析方法详解

接上篇文章生存分析(1),本文将进一步介绍生存分析中有关生存率的具体算法及其应用

Kaplan-Meier法(K-M法、乘积极限法)

Kaplan-Meier法由Kaplan和Meier于1958年提出,直接用概率乘法定理估计生存率,故称乘积极限法(product-limit method),是一种非参数法
这里写图片描述

1.计算方法

a. 将样本生存时间T从小到大排列成如表第1栏。若遇到非删失值和删失值相同时,非截删失排在前面。
b. 列出与T相应的死亡人数d,如表第2栏
c. 列出期初病例数n,如表第3栏,即生存期为某时间时尚存活的病例数
d. 计算活过各时点的生存率P(T>t),计算公式为

P(T>t)=∏p=∏n−dn

2.标准误计算

均数的标准误
为了表示均数的抽样误差大小如何,用的一种指标称为均数的标准误。我们以样本均数为变量,求出它们的标准差即可表示其变异程度,所以将样本均数这“标准差”定名为均数的标准误,简称标准误,以区别于通常所说的标准差。标准差表示个体值的散布情形,而标准误则说明样本均数的参差情况,两者不能混淆。
(具体可参考这里的介绍)

对于K-M法,标准误的计算方法有两种:
<1>Sp(T>t)=P(T>t)√∑d(n−d)n

<1>Sp(T>t)=P(T>t)√1−P(t>t)n−d

例数较多时,两法计算结果相同,但例数逐渐减少,法1的结果偏小,法二的结果偏大。

3.生存率的可信区间

利用正态近似原理,估计总体生存率的可信区间,如95%置信度

可信区间=P(T>t)±1.96Sp(T>t)

上表中存活时间大于30天,生存率的95%可信区间为

P(T>30)±1.96×0.1107=(0.4646,0.8486)

4.单因素分析(log-rank test)

对数秩检验(log-rank test)
属于非参数检验,用于比较两组或多组生存曲线或生存时间是否相同
检验统计量为卡方 χ2
自由度=组数-1

χ2=∑(A−T)2T

其中A为观察死亡数,T为理论死亡数。当有T<5时,用下式进行校正

χ2=∑(|A−T|−0.5)2T

计算完卡方值,查表得到P值,可得到推断结论
具体而言,首先将数据按如下形式组织:

这里写图片描述

将A、B两组的生存天数混在一起从小到大排序放在第二列,第一列是对应的组别,其他按表中给的填入
如此便可以得到A、B两组各自的合计理论死亡数,和实际死亡数(注意删失数据不参与计算),分别带入公式计算卡方即可

K-M方法提供三种假设检验分别是
Log-rank检验、Breslow检验和Tarone Ware检验
三者都是构造卡方检验量,具体比较如下:
这里写图片描述
更为具体的内容可参考这儿

当数据量较小(n<=50)且不含删失数据时,可以选择Wilcoxon 秩和检验,检验效果更好。

Wilcoxon 秩和检验
核心思想:如果两个样本来自相同的整体,那么秩将大约均匀的分布在两个样本中(秩:将样本从小到大排序,排名即为秩)。否则,则有一个样本获得较小的秩和,另一个获得较大的秩和。

计算:
设两个独立样本为:第一个样本x的样本容量为n1,第二个样本y的样本容量为n2,在容量为n1+n2的混合样本(样本x、y之和)中,x样本的秩和为Wx,y样本的秩和为Wy,且有

Wx+Wy=1+2+⋯+n=n(n+1)2

我们定义
W1=Wx−n1(n1+1)2=x统一秩和−x原秩和
W2=Wy−n2(n2+1)2=y统一秩和−y原秩和

可以知道样本x在混合之后的秩和最小也是原秩和,即
min(Wx)=n1(n1+1)2
对样本y同理,即
min(Wy)=n2(n2+1)2

根据Wx和Wy的关系可知,最大秩和为
max(Wx)=n(n+1)2−n2(n2+1)2
max(Wy)=n(n+1)2−n1(n1+1)2

因此W1和W2的取值范围均为:
[0,n(n+1)2−n1(n1+1)2−n2(n2+1)2]=[0,n1n2]

接下来我们进行假设检验。

假设: x,y样本来自相同总体
当原假设为真时,所有的xi和yi相当于从同一总体中抽得的独立随机样本,xi和yi构成可分辨的排列情况,可看成一排n个球随机地指定n1个为x球另n2个为y球,共有Cn1n种可能,而且它们是等可能的。基于这样分析,在原假设为真的条件下不难求出W1和W2的概率分布,显然它们的分布还是相同的,这个分布称为样本大小为n1和n2的Mann-Whitney-Wilcoxon分布

一个比较实际的方法是,对于每个样本数大于等于8的大样本来说,我们可以采用标准正态分布Z来近似检验。
因为W1的中心点为n1n22,所以Wx的中心点为

μ=n1n22+n1(n1+1)2=n1(n1+n2+1)2

W_x的方差 σ2 从数学上可推导出

σ2=n1n2(n1+n2+1)12

如果样本中存在结,将影响公式中的方差(结:即相同的数据,此时秩会被平分)
按结值调整方差的公式为:

σ2=n1n2(n1+n2+1)12−n1n2(∑(τ3j−τj)12(n1+n2)(n1+n2−1)

其中 τj 为第 j 个结的个数。结值的存在将使原方差变小,这是一个显然正确的事实。标准化后Wx为

z=Wx−μ±0.5σ=Wx−n1(n1+n2+1)2±0.5√n1n2(n1+n2+1)12−n1n2∑(τ3j−τ)12(n1+n2)(n1+n2−1)∼N(0,1)

其中0.5是为了对离散变量进行连续性修正,对于 Wx−μ>0 减0.5修正,反之加0.5修正。

算例
x组:11 15 10 18 11 20 24 22 25
y组:13 14 10 8 16 9 17 21
将二者统一如下:

这里写图片描述

可以看出n1=9,n2=8,Wx=96.5,Wy=56.5.
H0:两个样本的分布是相同的。标准分布z值的计算结果为:

z=96.5−9(9+8+1)2−0.5√9×8(9+8+1)12−9×8(8−2+8−2)12(9+8)(9+9−1)=1.44515

如果设定显著水平 α=0.05 ,我们知道标准正态分布在0.05显著水平时,上临界值为1.645,下下临界值为-1.645,由1.445<1.645,所以不能拒绝原假设。
当然你也可以用第二个样本的秩和 Wy 来计算标准正态分布,此时要注意公式中的 n1 和 n2 发生对换。

寿命表法(life table,LT)

生存资料按如下格式准备
这里写图片描述

1.计算方法

第一列为人为时间分组
第二至第四列按列名填入
第五栏校正人数,按公式N=L−W2
期内生存概率即条件生存概率,死亡概率同理计算,但是分母改为校准人数N
生存率同样使用乘法定理计算即可

2.标准误计算

标准误按如下公式计算

Sp(T>n)=p(T>n)√∑qpN

3.生存率可信区间

同K-M法

K-M法与寿命表法比较

1.格式与精确度
K-M法使用患者实际寿命作为分布区间,相对更精确
寿命表法采用人为规定时间段作为分布区间,范围扩大精确度有所下降

2.适用范围
K-M法更适合于样本量较少的数据
寿命表法更适合于样本量较大的数据
(不过,考虑到现在计算能力的强大,一般程度的数据量并不会对计算速度有太大影响)

3.关注点不同
K-M法关注每一个时点的生存率,重视对生存率规律的细致把握,可以利用K-M的结果去研究影响生存率变化(如曲线的突变点)的影响因素。
寿命表法则更重视对生存规律的总体把握(如各年生存率的情况)。

至此,有关生存分析的非参数研究方法K-M与寿命表法就介绍完了。接下来的一篇文章,将介绍含参数的研究方法—Cox比例风险回归模型

相关知识

社会调查研究方法形考任务详解
香菜种植方法详解
碰碰香的养殖方法和注意事项详解
绣球花的四种繁殖方法(多图详解)
缺氧等待灌溉问题解决方法介绍 缺氧怎么灌溉?植物供水详解
养花技巧及知识大全详解
富贵竹的扦插繁殖方法(多图详解)
向日葵种子怎么种 详解向日葵栽培技术
郁金香种植方法与技巧(多图详解)
六月雪养殖方法详解

网址: 生存分析方法详解 https://m.huajiangbk.com/newsview1217584.html

所属分类:花卉
上一篇: 一个月不浇水,照样养出艳丽鲜花,
下一篇: 末日方舟极限挑战模式存活攻略