主题:基于时空数据的复杂系统量化分析,从科学界到工业界(spatial-temporal big data: from science to industry)
嘉宾:吴海山
主办:统计之都
场地:中国人民大学
组织:冯璟烁 邓金涛 张心雨
纪要:张心雨
简介:第32期沙龙(北京)于2015年11月8日在中国人民大学顺利举办。本期嘉宾为吴海山,百度研究院大数据实验室(Big Data Lab)资深数据科学家。研究兴趣主要是通过不同的手段进行复杂系统的量化建模。
本次沙龙在科学研究和工业应用两个层面对时空数据和复杂系统展开讨论。在科学研究层面,主要介绍了如何利用计算机视觉、机器学习等技术来测量并获取细尺度的时空数据并对复杂系统进行量化建模;在工业应用层面,介绍了如何通过利用百度的时空数据(定位数据、轨迹数据等),来从不同尺度分析和建模用户的移动行为、群体行为和城市群网络,并将其应用与不同的商业和社会学应用。
本次沙龙的主要内容:
首先,吴海山先生从自然界中的集群行为(collective behavior)引入,以鸟群、鱼群、羊群、丝蛋白、大肠杆菌等举例,说明这些集群行为是有背后规律存在的。吴海山先生对这样有规律的集群行为的产生根源进行了介绍,主要有“自然选择”和“基因、神经影响”这两种理论。另外,在集群运动中,个体也遵循诸如“与邻近个体方向一致(In the same direction as your neighbor)”、“避免碰撞(Avoid collision)”等原则。
然后,吴海山先生对如何量化这些集体运动(collective motion)进行了探讨。在实验动物的选择上,基于繁殖快利于实验的角度,我们选择果蝇代替鸟类进行试验,通过录像探测等方式得到它的运动轨迹(3D fruit fly swarm tracking)。在这种时空交互的复杂系统中,我们面临着互相遮蔽(Frequent occlusion)、特征相似(Similar appearance feature)等挑战。吴海山先生为我们展示了一个鱼群运动的实例,并介绍了其位置的定位主要依靠于对头部的检测,对其运动状态构造多模型(直线运动和急转弯),同时应考虑到状态变化处的断点。鱼运动的状态是与其视觉场(visual field)强烈相关的。吴先生以图形展示了鱼群旋涡状的速度场。另外,吴海山先生还为我们举了一个在无边缘环境下的鲨鱼的例子来介绍其集群运动。
在介绍完以上测量系统后,吴先生介绍了如何挖掘这些行为数据。采用时间序列的方法,对鱼群中社交信息传播的背后机制:主要有拓扑(topological)、泰森多边形(voronoi)等模型,而吴先生的研究采用的是视觉场(visual field)的结构。在经过模型选择后,表明这种视觉场的模型效果最好,所以很有可能视觉在鱼群的运动行为上产生最大的作用。在鱼群中的信息瀑布(information cascade)中,一条鱼如何做选择是一个二分类问题。此项研究通过观察与最近鱼的距离、角度、相对角速度等60多个特征作为自变量,最终得到绝对距离、相对角速度等几个特征起了90%的影响作用。
以上为从科学角度对复杂系统的介绍。接下来吴先生在工业应用层面,对如何通过利用百度的时空数据(定位数据、轨迹数据等)进行分析作了介绍。吴先生首先根据百度时空数据展示了中国、北京、上海等的情况,只根据这些定位数据而不依赖地图我们就能获取诸如街道等很多信息。另外,吴先生分别举了以下几个例子来介绍复杂系统量化在实际工业中的应用:
1、个性化旅游
来自北京的数据显示外地游客和北京本地游客在旅游地点的选择上存在明显差异,外地游客更倾向于故宫、长城这些经典景点,而本地游客更倾向于公园等休息场所。
除了所在地会对景点选择产生影响,不同手持设备的人也会在此产生差异。苹果用户明显比安卓用户更常去798、后海等地。因此可以对不同用户定制推送旅游信息。
2、从线上搜索到线下轨迹
根据用户轨迹推测不同数据是否为同一个人产生,也是其中一个应用。对于涉及到的用户隐私,百度对此进行了加密处理保护客户隐私。
3、商家选址
通过地区需求强度和开店现状的比较,并结合行业和店的特征,可以清晰地对新开店最优地点等作出判断。
4、空城检测
通过轨迹计算用户数据并与真实住宅楼盘数据作对比,找到可能的空城,从而为开发商、城建等提供建议。
在分享之后,吴海山先生就现场参会者们提出的疑问进行了细致的解答,也在沙龙结束后与热心的参会者继续讨论,本次沙龙圆满结束。
发表/查看评论