作者/张北(医院管理咨询师)
文章来源/厚立医视野
1
医疗数据中的假象
医疗数据分析中,数据分布通常呈长尾现象(右偏分布),例如总费用、药品费、耗材费、住院天数等;多维分析发现小部分数据不在群体中,它们远离群体,成离散或者小群体。数据的这种特征导致在统计指标中出现较好或者较差的假象,例如O/E值、均值、方差、相关系数等,给医院的运营管理带来麻烦。这些小部分远离群体的数据在统计学中称为离群值(或者离群点、离群数据)。
什么是离群值?
离群值(outliers):被称为歧异值,在某个数据集中与绝大部分数据存在明显差异的数值。
按照数据的表现形式,离群值可分为全局离群值、集体离群值、情景离群值。
全局离群点:是整个数据集中表现最为异常的数据点,它和其他数据的表现行为有着显著的差异。
集体离群点:这类离群点一般通过聚类的方法将一些点划分为一簇,与同数据集中的其它数据点或者数据簇相比,均存在明显差异,那么此类簇被称为离群簇。
情境离群点:又称条件离群点,顾名思义需要在特定的环境下,参照给定的条件来判断是否为离群点。例如姚明的身高在普通人中可算作离群点,但是在NBA球员则不是离群点。
离群数据如何产生?
客体异常行为导致,例如,患者不按规定的时间出院,患者要求使用高质耗材、药瓶等。
数据收集过程中产生误差,例如,患者年龄填报错误。
数据内在机制造成,例如,全院患者资源消耗统计,某些病种患者资源消耗本身远高于群体。
2
医疗数据中离群值的影响
医疗数据中离群值的影响体现在很多方面,例如对患者资源消耗统计、医生绩效评价、科室成本分析、模型训练、医院决策等,下面举两个简单例子。
①资源消耗评价
选择某个MSDRG下的患者数据,统计各医院去离群值前后总费用O/E值差异,绘制柱状图,如下所示,可以看出去离群值前后总费用O/E值差异显著,去离群值后O/E值略小是合理的(实际值长尾现象消失),体现真实的医疗管理水平。
②常用指标影响
区域数据按照MSDRG绘制药品费、住院天数箱线图,如下图所示。可以看出数据存在小部分极大值,部分患者住院天数超过100天,这些离群数据会影响总体均值统计。
离群值对医疗数据的影响严重,甚至可能会误导医院运营管理方案,因此在医院的数据统计分析中,离群点检测是必要的步骤。
3
离群点检测
离群点的检测方法很多,下面介绍三种常用的检测方法:
①基于统计算法
设置离群点标准检测法,例如:分位数(箱线图)、(3倍标准差)、正态分布、F分布等。了解数据背景知识的条件下可选择该方法。
②聚类分析算法
密度聚类法(DBSCAN、K-means),假设正常数据是聚集在一起的、稠密的,通过聚类算法识别离群点。该方法需要设置合适的聚类参数,不同的参数检测结果存在差异。
③分类算法
将正常数据、离群数看做不同类别,通过分类方式识别离群点,常用分类方法有逻辑回归、K近邻、决策树、神经网络。该方法需要提前知道哪些数据是离群数据,给数据打标签(分类),然后训练模型建立分类器,新数据可通过分类器识别离群点。
4
结语
医疗数据离群值无处不在,准确的统计分析结果基于优质的数据源,因此识别离群点是重要的,通过对数据不断的挖掘、提炼才能获得高质量数据。DMIAES系统可以在医院运营管理中做到精细、精准,底层有效的数据清洗算法功不可没。