Survival Analysis
事件发生的时间分析
什么是生存分析?
生存分析(Survival Analysis)是一种统计方法,用于分析特定事件发生的时间。尽管名称如此,它并不局限于医学研究——它在商业中也被广泛应用!
您提供有关事件发生时间(或是否仍未发生)的数据,系统会计算生存概率、事件的平均时间,并比较不同组。
使用示例:
- • 预测客户何时会取消订阅(churn)
- • 分析工业设备故障的时间
- • 估算客户的生命周期价值
- • 比较医疗治疗或干预的有效性
快速开始
- 1. 将您的数据准备为CSV格式,包括时间、事件状态和组(可选)
- 2. 请上传文件到 上传页面
- 3. 配置参数(模型,变量)
- 4. 请稍候,正在处理中(通常需要2-4分钟)
- 5. 分析生存曲线和统计数据
如何组织您的数据
将您的数据整理成一个包含至少三列的 CSV 表格:
列 1: 时间 (Duration)
距离事件或审查还有多久。例如:120天,8个月,3年
列 2:事件发生 (Event)
如果事件发生了,则为1(例如:客户取消),如果尚未发生,则为0(删节)。
列 3+: 组/协变量(可选)
比较组的特征。例如:计划(基础/高级)、地区、年龄
客户流失表格示例:
| duration_days | churned | plan |
|---|---|---|
| 365 | 1 | basic |
| 180 | 0 | premium |
| 90 | 1 | basic |
| 540 | 0 | premium |
💡 审查: 当 churned=0 时,意味着客户仍然没有在此时取消。这很重要,生存分析知道如何处理这个问题!
分析设置
生存模型
选择分析方法:
时间变量
观察时间的列名。
示例:
duration_days, time_to_event, months
事件变量
指示事件是否发生 (1) 或不发生 (0) 的列名称。
示例:
churned, event_occurred, died
组变量(可选)
用于比较组之间生存曲线的列名。
示例:
plan, treatment, region
理解结果
分析返回生存曲线和统计数据,显示随着时间的推移“生存”(未发生事件)的概率。
生存曲线(卡普兰-梅耶)
Y轴:生存概率
范围从0到1(0%到100%)。表示%尚未发生事件。
示例:0.7 在180天时 = 70% 的客户仍然活跃
X轴:时间
以天、月或年的形式显示时间线。
当事件发生时,曲线阶梯式下降。
中位生存时间
事件发生前的时间达到 50%。
示例:240天的中位数 = 一半的客户在8个月内取消
Log-Rank Test(组比较)
测试不同组的曲线是否在统计上存在显著差异。
p < 0.05 = 组之间的生存率显著不同
⚠️ 实用解释: 如果“premium”组的曲线始终高于“basic”,则意味着优质客户的留存时间更长(流失率更低)。利用这一点来做出战略决策!
需要帮助吗? 联系: contato@grabatus.com