32salon

主题：Dato：从数据科学到智能应用（Dato: From Data Science to Intelligent Applications）

嘉宾：顾海杰

主办：统计之都

场地：北京大学

组织：张心雨、王健桥、冯璟烁、魏太云

纪要：冯璟烁

简介：第31期沙龙（北京）与2015年10月31日在北京大学顺利举办。本次嘉宾是Dato的联合创始人兼首席数据科学家顾海杰先生，研究方向主要为大规模图的机器学习问题（machine learning on big graph）以及大规模图的表示与分割（big graph representation and partitioning）。Dato公司原名GraphLab，成立于2013年。Dato公司的目标是加速智能应用的普及，大幅度提高生产力。

本次沙龙主要分享了智能应用（Intelligent Applications）的应用领域与创建过程，并基于Dato的实践介绍了Dato产品在智能应用创建中的能力与SFrame等创新。

本次沙龙的主要内容：

顾海杰先生首先展示了一项来自O’Reilly的调查。调查显示了2015年Data Science产业在全球的薪资水平，Data Science的平均薪资已经超过Programming与Computer Science。原因在于各类著名的大型公司（LinkedIn，Uber等）背后，都拥有一套智能的应用（Intelligent apps），智能应用已经成为目前数据应用的主要战地之一。

紧接着，顾海杰先生列举了4个智能应用的例子，形象地向参会者们展现了Intelligent Apps的广泛应用：

识别图片中内容，精确识别图片中出物种；
基于图片相似性的相似推荐，介绍的重点词语高亮标注（可用于购物网站的应用）；
基于协同模型的推荐系统（例如电影的推荐，甚至也可以是基于两人的偏好给出渐变的推荐路径）
基于文本的情感分析（例如基于用户评论的推荐）

在此之后，顾海杰先生具体就模型建立的过程与大家进行了分享。

在模型建立中，首先需要获取数据，对数据进行探索（exploration）与处理，在exploration的基础上创建模型，之后则再对模型进行评判、增加/减少变量、调整等。顾海杰先生将这个流程（Modeling Pipeline）概括为：Ingest, Transform, Model, Deploy.

而对于Intelligent Application，顾海杰先生介绍，整个流程后还需要将模型放入服务器端，之后通过不断得到的用户反馈，可以对模型进行实施监督。在此基础上，则可以对模型重新进行deploy，不断地修正改进模型。因此，智能应用的整个流程应当是有用户参与的一个循环结构。顾海杰先生介绍，Dato的主要产品正是分别对应于模型建立（GraphLab Create）与模型服务器部署（Dato Predictive Services）两个核心阶段的。

稍后，顾海杰先生展示了一段Python代码，展示了一个智能app的创建过程——搞笑分类器（Yelp Funny Classifier）。

代码的主要逻辑是针对文本进行学习，通过统计词频与vote结果（funny数）得到一些文本中的特征（影响其funny或不funny）。代码的目标是输入一个新评论，可以对其是否funny做出预测（0 ~ 1），最后再将这个模型部署到云端。

顾海杰先生介绍，Dato的产品（GraphLab Create）可以将许多代码整合成为一个简单的函数（如在数据清理上，模型的选择与建立上），在代码中直接调用可以大大简化编写过程，同时可以让人员较少的工作组快速提高生产力。另一方面，GraphLab可以让数据在外存上处理，突破系统内存限制，极大提高运算速度。而Dato Predictive Services则帮助简化了上线部署的流程，可以解决该过程中繁琐的API数据架构和优化过程等。

最后，顾海杰先生简要介绍了Dato运用的SFrame与SGraph的数据结构。SFrame是一种基于外存的表结构。其特点是数据列向存储，从而可以大大提高计算速度。SGraph则为一种在SFrame基础上的结构，主要针对图的处理。

在分享之后，顾海杰先生就现场参会者们提出的疑问进行了细致的解答，也在沙龙结束后与热心的参会者继续讨论，本次沙龙圆满结束。

本次沙龙ppt地址

下载：http://dato.com/download

学习：http://dato.com/learn

COS沙龙第31期（北京）纪要

统计之都

主题：Dato：从数据科学到智能应用（Dato: From Data Science to Intelligent Applications）

本次沙龙的主要内容：