主题:“零”代码  “玩”数据

嘉宾:李栋

主办:统计之都

场地:中国人民大学

组织:蔡占锐张颖王小宁魏太云

纪要:王小宁

简介:第28期沙龙(北京站)于2015年7月26日在中国人民大学顺利举行。本次嘉宾是来自中国城市规划设计研究院生态所主任工程师李栋博士,他主要分享自己城市问题研究和规划中利用大数据开展定量分析和应用,重点关注签到、照片等基于地理位置的新型数据。本次讲座从演讲者个人经历出发,面向非IT相关背景的人士,分享和介绍一些在传统行业里利用互联网数据等新型数据方面的工具、经验和感想。

本次沙龙的主要内容:

首先李栋博士以“城市”、“可视化”、“大数据”三个关键词开篇,介绍了自己在这方面做得一些成果和自己的一些想法。城市规划往往是一个抽象的东西,因为在未见到之前你很难想象出它的样子,结合数据的可视化可以使你的方案更直观,同时在做规划时离不开各种各样地理信息、文本等的信息,对于一个工程师来说数据显得尤为重要。

李栋先生非计算机科班出身,但是他结合现有的数据获取和分析软件,对数据的的解读娓娓道来。首先,这里李博士讲的“零”代码是指不编程,直接使用某个具体的软件来进行数据的获取和处理,他主要围绕互联网数据的获取和处理来进行分析和讲解。

我们知道数据分析主要分为数据的获取、处理、分析和表达四大块。李博士主要从数据的获取这一部分进行了详细的讲述。他以使用Chrome 浏览器的开发者工具为例,结合火车采集器(LocoySpider)进行网页抓取,具体步骤一步步进行了详细的分析。主要是抓取基于地理位置、人群分布、餐馆、景点等的布局的数据,并对在采集过程中的数据清洗和筛选进行了分析。同时也对几大网站的API 进行了详细的分解,对于有意向分析这方面数据的人提供了很好的思路。

李博士同时结合Gartner测评的高级分析平台上的分析工具中的排名来和我们分享了几款不错的数据分析软件。其次,他也介绍了Workflow工作流的方式并从LBS微博分析2014年十一黄金周人口的流动,包括数据的抓取,字段的选取、 选取感兴趣的字段(用户的位置和相关的信息内容等)并做出了可视化图形。这里面李博士结合了不同的数据分析软件,有excel 和Arcgis等。接着,李博士将excel、tableau和Arcgis 等几款软件的优劣势进行了详细的分析,并结合实际的例子进行了演示。

最后,李博士谈了一下自己在数据分析的过程中的一些感想。首先是互联网的数据不像传统的数据(如统计年鉴数据)那样规整,质量高。互联网数据里面有很多的非结构化数据和噪声数据,所以对于数据分析师处理这些数据的时候要结合我们的行业的应用来解决实际的问题。同时,城市人群的大规模集聚,有很多的问题值得我们去研究,所以要坚持以人为本的趋势,关注个体的感受,从城市竞争力的角度来说,就是提升个人的生活质量。但他同时也指出,现有的数据搜集和分析的软件目前还不能满足全部的需要,要想获得更多的有价值的数据,学习一门或几门编程语言也是很有必要的。最后也介绍了自己在做的“北京城市实验室”项目。

本次参与沙龙的人来自各行各业,提问环节提出了不少有意义的问题,李博士一一解答,同时沙龙结束后不少人也和李博士进行了进一步的交流。本次沙龙取得圆满成功。

沙龙ppt下载地址

发表/查看评论