Survival Analysis

事件发生的时间分析

什么是生存分析?

生存分析(Survival Analysis)是一种统计方法,用于分析特定事件发生的时间。尽管名称如此,它并不局限于医学研究——它在商业中也被广泛应用!

您提供有关事件发生时间(或是否仍未发生)的数据,系统会计算生存概率、事件的平均时间,并比较不同组。

使用示例:

  • • 预测客户何时会取消订阅(churn)
  • • 分析工业设备故障的时间
  • • 估算客户的生命周期价值
  • • 比较医疗治疗或干预的有效性

快速开始

  1. 1. 将您的数据准备为CSV格式,包括时间、事件状态和组(可选)
  2. 2. 请上传文件到 上传页面
  3. 3. 配置参数(模型,变量)
  4. 4. 请稍候,正在处理中(通常需要2-4分钟)
  5. 5. 分析生存曲线和统计数据

如何组织您的数据

将您的数据整理成一个包含至少三列的 CSV 表格:

列 1: 时间 (Duration)

距离事件或审查还有多久。例如:120天,8个月,3年

列 2:事件发生 (Event)

如果事件发生了,则为1(例如:客户取消),如果尚未发生,则为0(删节)。

列 3+: 组/协变量(可选)

比较组的特征。例如:计划(基础/高级)、地区、年龄

客户流失表格示例:

duration_days churned plan
365 1 basic
180 0 premium
90 1 basic
540 0 premium

💡 审查: 当 churned=0 时,意味着客户仍然没有在此时取消。这很重要,生存分析知道如何处理这个问题!

分析设置

生存模型

选择分析方法:

Kaplan-Meier 非参数估计器(标准,最常见)
Cox 比例风险模型(高级)

时间变量

观察时间的列名。

示例:

duration_days, time_to_event, months

事件变量

指示事件是否发生 (1) 或不发生 (0) 的列名称。

示例:

churned, event_occurred, died

组变量(可选)

用于比较组之间生存曲线的列名。

示例:

plan, treatment, region

理解结果

分析返回生存曲线和统计数据,显示随着时间的推移“生存”(未发生事件)的概率。

生存曲线(卡普兰-梅耶)

Y轴:生存概率

范围从0到1(0%到100%)。表示%尚未发生事件。

示例:0.7 在180天时 = 70% 的客户仍然活跃

X轴:时间

以天、月或年的形式显示时间线。

当事件发生时,曲线阶梯式下降。

中位生存时间

事件发生前的时间达到 50%。

示例:240天的中位数 = 一半的客户在8个月内取消

Log-Rank Test(组比较)

测试不同组的曲线是否在统计上存在显著差异。

p < 0.05 = 组之间的生存率显著不同

⚠️ 实用解释: 如果“premium”组的曲线始终高于“basic”,则意味着优质客户的留存时间更长(流失率更低)。利用这一点来做出战略决策!

需要帮助吗? 联系: contato@grabatus.com