醋醋百科网

Good Luck To You!

医疗数据中离群值对医院运营管理的影响分析

作者/张北(医院管理咨询师)

文章来源/厚立医视野

1

医疗数据中的假象


医疗数据分析中,数据分布通常呈长尾现象(右偏分布),例如总费用、药品费、耗材费、住院天数等;多维分析发现小部分数据不在群体中,它们远离群体,成离散或者小群体。数据的这种特征导致在统计指标中出现较好或者较差的假象,例如O/E值、均值、方差、相关系数等,给医院的运营管理带来麻烦。这些小部分远离群体的数据在统计学中称为离群值(或者离群点、离群数据)。



什么是离群值?


离群值(outliers):被称为歧异值,在某个数据集中与绝大部分数据存在明显差异的数值。


按照数据的表现形式,离群值可分为全局离群值、集体离群值、情景离群值


全局离群点:是整个数据集中表现最为异常的数据点,它和其他数据的表现行为有着显著的差异。




集体离群点:这类离群点一般通过聚类的方法将一些点划分为一簇,与同数据集中的其它数据点或者数据簇相比,均存在明显差异,那么此类簇被称为离群簇。



情境离群点:又称条件离群点,顾名思义需要在特定的环境下,参照给定的条件来判断是否为离群点。例如姚明的身高在普通人中可算作离群点,但是在NBA球员则不是离群点。



离群数据如何产生?


客体异常行为导致,例如,患者不按规定的时间出院,患者要求使用高质耗材、药瓶等。


数据收集过程中产生误差,例如,患者年龄填报错误。


数据内在机制造成,例如,全院患者资源消耗统计,某些病种患者资源消耗本身远高于群体。


2

医疗数据中离群值的影响


医疗数据中离群值的影响体现在很多方面,例如对患者资源消耗统计、医生绩效评价、科室成本分析、模型训练、医院决策等,下面举两个简单例子。


①资源消耗评价


选择某个MSDRG下的患者数据,统计各医院去离群值前后总费用O/E值差异,绘制柱状图,如下所示,可以看出去离群值前后总费用O/E值差异显著,去离群值后O/E值略小是合理的(实际值长尾现象消失),体现真实的医疗管理水平。





②常用指标影响


区域数据按照MSDRG绘制药品费、住院天数箱线图,如下图所示。可以看出数据存在小部分极大值,部分患者住院天数超过100天,这些离群数据会影响总体均值统计。





离群值对医疗数据的影响严重,甚至可能会误导医院运营管理方案,因此在医院的数据统计分析中,离群点检测是必要的步骤。


3

离群点检测


离群点的检测方法很多,下面介绍三种常用的检测方法:


①基于统计算法


设置离群点标准检测法,例如:分位数(箱线图)、(3倍标准差)、正态分布、F分布等。了解数据背景知识的条件下可选择该方法。


②聚类分析算法


密度聚类法(DBSCAN、K-means),假设正常数据是聚集在一起的、稠密的,通过聚类算法识别离群点。该方法需要设置合适的聚类参数,不同的参数检测结果存在差异。


③分类算法


将正常数据、离群数看做不同类别,通过分类方式识别离群点,常用分类方法有逻辑回归、K近邻、决策树、神经网络。该方法需要提前知道哪些数据是离群数据,给数据打标签(分类),然后训练模型建立分类器,新数据可通过分类器识别离群点。


4

结语


医疗数据离群值无处不在,准确的统计分析结果基于优质的数据源,因此识别离群点是重要的,通过对数据不断的挖掘、提炼才能获得高质量数据。DMIAES系统可以在医院运营管理中做到精细、精准,底层有效的数据清洗算法功不可没。

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言