主题:医疗问题中复杂系统的建模,检测,优化以及控制问题

嘉宾:黄帅

主办:统计之都

场地:中国人民大学

组织:蔡锐 魏太云 王建桥

纪要:钟琰

简介:第34期沙龙(北京)与2015年12月19日在北京大学顺利举办。本次沙龙由人大统院本科生王健桥主持,嘉宾黄帅老师现任职美国华盛顿大学-西雅图分校的工业工程系助理教授。黄老师于2007年在中国科技大学少年班系获得统计学位,于2012年在美国亚利桑那州立大学工业工程系获得博士学位。其主要研究方向是结合统计、机器学习、运筹方法,去研究一些医疗管理以及工程领域里面的复杂决策问题。具体应用比如老年痴呆、青少年糖尿病、手术感染等问题的监测和预防等等。从医疗问题出发,这些研究成果可以被广泛的应用在其他各类复杂系统之上,比如制造业或者供应链管理。他的研究获得了美国自然科学基金(National Science Foundation),Juvenile Diabetes Research Foundation 以及其他一些医学基金会以及医学机构的资助。

本次沙龙嘉宾黄帅老师基于自身在博士学习及在华盛顿大学任职期间对于医疗保健(healthcare)行业的研究,为大家讲解了他如何从统计、从工程学角度接触医疗行业,管理并解决实际医疗问题。

下面是对沙龙主要内容的回顾

一、从统计角度规划医疗系统

黄老师认为,在医学上的数据研究总共可分为以下四个层次:

  • 基础研究(Bench):包含研究一个一并是如何破坏大脑的基础医学研究,数据包含基因数据,脑扫描图等等。
  • 临床研究(bedside):如研究医院应该如何照顾病人。
  • 社区研究(community):一个社区的病人应该如何管理,数据包含电子信息记录系统里面的病例记录。
  • 政策研究(policy):在国家层面上应该如何提供医疗政策,如打疫苗政策,包含传染病数据。

黄帅老师用慢性疾病的例子展现了在医学领域会出现的统计学、工程学问题。对于慢性疾病的患者,如老年痴呆患者,他们患病的时间会非常的长,不同患病时期的状态也会不同,对于医院需要采用合理的手段去对病人进行管理,以达到改善病况,尽可能的保证病人的健康状态的目的。因此,这是一个管理的问题。同时,对于一个病人的病况,可使用各种化验得到各种测量指标,而这些指标之间往往存在着一定的统计规律,为了寻求这些统计联系,以达到更好的管理病人的病况,就需要进行统计建模。

其后,黄老师进一步讲述了统计研究、工程学研究在医疗管理上面的重要性。在一个社区当中,医疗资源往往是有限的,因此我们需要能够合理的分配这些有限的医疗资源。对于不同的慢性病,在一段较长的时间内,病情的好坏程度是波动的,每个病人有病重需要立即治疗的时候,也有病情好转不需要治疗的时候,因此需要合理分析建模对病人的用药时间、复诊时间都进行合理的分配和处理。另一方面,对慢性病的预防往往比治疗更加的重要,对于社区中尚未生病的人群,要建立合理有效的检测预防机制,以实现人群健康的保障。在建立这样一个庞大的系统性问题下,统计学和工程学的知识显然非常的重要。

二、利用稀疏逆协方矩阵估计(Sparse Inverse Covariance Estimation)对老年痴呆患者的大脑不同区域之间的联系进行学习

黄老师向我们具体介绍了他在博士期间对于老年痴呆患者诊断的研究。通过医疗技术,可以对于人脑进行扫描,并得到一张不同区域具有不同色彩的图片。图片上每位置的颜色代表了人脑在该位置上葡萄糖代谢的高低。利用医学知识和经验可将大脑划分为不同的区域,尝试利用人脑不同区域葡萄糖代谢高低的相关性,来考察人脑不同区域之间的联系程度,即认为葡萄糖代谢水平相关性高的区域之间的直接关联程度也很高。从而考察正常人和患病人群的大脑是分别如何进行运作的,两类人群之间是否存在脑部不同区域的关联性的区别。如果存在区别,那么对于新的病人,可以先得到脑区的图像并获得数据,再利用大脑部分的联系图考察一个人的发病程度等信息。

1、理论模型

在变量服从多元正态分布假设情况下,协方差矩阵的逆与网图结构之间具有相互对应的关系。若逆协方差矩阵里面第i行第j列为0的,代表i变量与j变量之间没有直接相连的边(即i变量与j变量在其他变量给定情况下条件独立,不相关),反之,不为0就有直接相连的边。

利用MLE方法可以估计大脑不同区域的葡萄糖代谢水平的协方差矩阵S,但是在样本量n比较小,大脑区域数目p比较大时估计出来的S将会是不可逆的,即使S可逆,得到的逆矩阵也并不稀疏,几乎所有的元素都是非0的,表示所有的区域之间都具有相关性。

基于医学的先验知识,大脑不同区域的联系是稀疏的,因此可以采用L1加罚的方法对逆协方差矩阵的元素进行加罚,这就是稀疏逆协方差矩阵估计(Sparse Inverse Covariance Estimation, SICE)。从统计学的角度来讲,这种加罚估计其实就是Graph Lasso方法。

2、参数的作用

罚前面的调整参数的选取将决定最终挑选的具体模型是什么。黄老师说目前没有特别好的选取参数的标准,使用BIC准则会选择过于大的罚,使用CV会选择过于小的罚,因此在实际使用过程中,采用选取前180个最不为0的点作为结果。

需要说明的是,SICE方法里面的参数并不存在通常意义上的单调变化,即随着调整参数的增大,原来为0的位置可能会变为非0。但是它存在块之间的单调性,即随着调整参数的增大,原本完全分开的变量(即完全独立,非条件独立)的部分永远不会再合并到一起。利用这种单调性,可以考察不同脑部区域之间相关关系的强弱性。

3、实际数据的处理

实验总共有三组的样本,分别为正常人、患病人群、轻度认知功能障碍人群,对三组人群分别进行估计建模,比较三组人的脑区结构的相关程度。基于医学的专业知识,提取出与痴呆有关的4类区域,并考察这四类区域中,temporal lobe与parietal lobe区域中患病人群的人脑关联程度明显小于正常人群。

4、应用

黄老师在关于这个研究的讲解的最后提到,对于已经得到的研究成果,黄老师希望能够让更多的医疗行业的人群接触到,尤其是那些没有任何统计、编程基础的人使用到。因此黄老师与其学生联合创立了Brain Connectivity 网站平台(brainconnectivity.cc)。任何人都可以想这个网站提供数据,然后平台可以直接用提供的数据分析并得到结果。

同时,除了葡萄糖代谢,越来越多其他的物质的代谢过程已经可以通过利用一些药物来进行观测,对于这些物质的考察,也能够尝试使用类似的方法进行分析。随着技术的越来越好,检测能力的越来越强,希望能够在越早期发现疾病,以及时预防治疗。

三、人群健康水平的管理:统计与运筹相结合

黄老师又讲到,对于一个疾病,现在有越来越多的检测,需要把这些检测综合成评价风险的指标,然后利用运筹学的知识进行人群的健康水平管理。构建指标的过程是十分重要的,可以通过统计方法进行构建。举一个具体的例子,对于一组人群,每个人有其在一段时间内检查的各项数据的结果,下面希望通过这些数据来判断每一个人的发某种疾病的状况。针对这类数据,每个人的记录数目是不一定的,有些人的数据很多,有些人的数据很少,同时每个人相邻两次记录的时间间隔也不一致,有些间隔为1个月,有些间隔却长达3个月。因此,如果我们对每个人依据个人的数据分别进行建模,那么没有足够的数据进行支持,但是如果对所有人只建立一个模型,显然模型又不够准确。

考虑到这种问题,黄老师说他们假定在每个人的模型\(f_i\)之上,具有k种表征,例如对于老年痴呆症,人群里面有k种表征,对每种表征可以依次建立一个模型 \(g_1\)\(g_k\),而每个人的模型\(f_i\)其实是这k个模型的加权平均,权重依次为\(c_{i1}\) ··· \(c_{ik}\)(和为1)。对于n个样本来讲,有些人之间的病状具有相似性,即两个人分别对每种表征上面的权重\(c_i\)\(c_j\)向量是相同或相近的,因此对于每两个人之间的c向量的差距的L1范数作为罚加在损失函数之上,进行建模的估计,就可以很好的拟合出患病患者的类别情况。这种方法是一种鉴于1个统一模型和n个分离模型之间的折衷,选取了k个模型作为基准。

在应用该模型的过程中,对不同的病,\(g_k\)函数的形式需要依据实际的医学知识进行建立,才能够发挥模型的作用。

四、如何步入实际?

面对统计建模得到的有利的结果,如何将它们使用到实际中去?对于这一问题,黄老师提出了自己的想法。黄老师谈到可以创建一个APP,让每个患者手机中安装这个APP,然后每天在APP上填写一些针对性的问卷,从而实时的收集数据对患者状况进行分析。更进一步,可以利用特定的APP或者是某种健康监控设备,记录每个人每一天的各种走路的行动等等信息,从而利用这些设备收集数据,并进行实时的分析诊断,做到疾病预防。又如,利用APP手机患者的照片,对于手术后的患者,让患者每天照伤口部位的照片,并上传至APP上。然后可以从图像中提取出来跟伤口有关的变量,并分析考察伤口是否愈合,或者是否会复发。结合先进的日常身体健康监测设备(如手环),这方面的研究将会有很大的发展前景。

对于未来希望前进的方向,黄老师认为他目前的研究集中于对个体的考察推断,他希望在未来的研究当中,能够针对于群体,针对社区人群进行系统性的统筹,实现如社区医疗分配,患者复查时间安排等群体化考察。

最后,黄帅老师就现场参会者们提出的疑问进行了细致的解答,并在沙龙结束后与大家继续热情地讨论,本次沙龙圆满结束。

发表/查看评论