基于大数据的生存分析模型及预测

< > >
生存分析是医学、生物学、金融等领域中应用非常广泛的统计学分支。它最初用于医学研究,如诊断后病人死亡多久,治愈了多长时间,复发的时间有多长。然而,生存分析中的生存不仅仅是生物的存在,还可以扩展到其他观察某一物体是否在某一时间间隔内发生的实验中。生存分析已广泛应用于金融、工程、网络等各个领域。例如,它用于分析机器零件的损坏,预测信息在社会网络中传播的程度,分析服务的损耗等。

IBM SPSS计划提供支持的参数回归模型(PRM),这是一个有用的参数生存分析。
<H2 id =“1生存分析的基本概念的概述”class=“ibm-h2”> 生存分析基本概念<H2>
生存分析(生存分析)是指对发生和发生的事件进行综合分析的统计方法。简言之,生存分析是一个对象何时发生某个事件的问题。
传统的线性分析不能很好地解决生存分析问题。主要原因有以下两点:

在生存数据存储过程中,通常存储为正数,无论是时间点还是时间间隔。因此,传统的线性回归模型并不是解决生存分析问题的最佳选择。
线性回归问题不能很好地处理删失数据。数据删除现象是由于观测实验的局限性造成的。数据删除是生存数据中非常常见的现象。在下面一节中,我们将介绍数据删除的原因和数据的具体性能。

生存分析的目的是通过观察已经发生的事件来分析和预测观察到的物体上发生的事件。通过生存分析,了解存活时间的特点,估计生存率和平均生存时间,进一步研究影响生存时间和观察时间的保护因素和不利因素。
特点</H2 >

生存分析
强> 1。数据特性 >
如上所述,生存数据有两个特点,一个是生存时间通常是一个非负值,另一个是具有数据删除现象的生存数据。图1是生存分析问题的典型数据。

与# 8220;开始时间和# 8221图1;数据列表示起始时间(初始事件)的事件发生故障(失效)。“结束时间”数据列指示失败事件(结束事件)的结束时间。

与# 8221;型和# 8221;数据列和# 8221;年龄与# 8221;数据列的每个观察对象的特征属性(预测)。这些属性都可以在一定程度上影响待观察对象的生存时间。它可以是连续的或离散的类型。
强>图1生存数据示例 > > >
>强> > > >
在图2中,我们可以更直观地看到不同截尾状态下的数据之间的差异。点表示失败事件的真实时间,直线表示观察对象的时间段,虚线表示未观察到对象。如图2所示,对象1的失败事件发生在观察到的事件中,因此属于非删失数据。对象2的失败事件发生在未观察到对象的事件段中,因此只能确定故障事件在特定时间后发生,属于右删失数据。对象3的故障事件可以在特定时间点之前确定,因此属于左删失数据。对象4的失败事件可以被确定为在时间间隔内发生,因此数据间隔被删除。
在实践中,有时仅使用一个数据列表示不发生的事件。例如,根据固定频率观测实验,这种观测数据只具有非删失数据和左删失数据,只需用一个数据列保存时间信息即可。
强> 3。相关特征函数 >
生存分析中最重要的是对生存函数的估计。生存函数(生存函数)指的是观察的概率。

资料全部来自网络,如果有问题可以发邮件到站长邮箱