假新闻引发的愤怒——非算法视角对自我学习的搜索排序算法和选择偏差的一些解读

本文作者陈丽云,落园园主。

声明:本文与作者工作单位及工作内容无关,完全出于个人兴趣爱好。

最近有条很火的新闻。美国大选刚刚落下帷幕,却余波不断。其中一条新闻就是,Google被指责利用搜索结果(假新闻)左右民意。可是事情到底是怎么回事呢?

SAN, FRANCISCO/WASHINGTON – Google’s search engine is highlighting an inaccurate story claiming that President-elect Donald Trump won the popular vote in last week’s election, the latest example of bogus information spread by the internet’s gatekeepers.

The incorrect results are shown in a two-day-old story posted on the pro-Trump “70 News” site. On Monday, a link to the site appeared at or near the top of Google’s influential rankings of relevant news stories for searches on the final election results.

原文不翻译了,大意是,在Google搜索大选相关信息的时候,“popularity vote”第一条结果是一个“洋葱新闻”网站70News。显然Google的算法认为这个网站是最相关的,结果无数的网民就天真地点击过去了,然后愤怒地发现这是一条假新闻(相似的例子可能还有百度医疗广告问题…)。可见人们潜意识里对搜索引擎有一种莫名的信任——排在前面的应该就是我想要的信息。可是,搜索引擎背后也只是一堆堆的机器学习模型,而模型也是需要不断改进的。要改进模型就要告诉模型什么时候判断错了,然后进行参数修正。

最近看到Google research放出来的一篇论文:Learning to Rank with Selection Bias in Personal Search。这篇论文是跟排序算法相关的,虽然跟上面的“假新闻”事件没啥直接关系,但殊途同归之处不少。正巧园主前些时日涉足了一些相关的问题,加之标题中的选择偏差(selection bias),一下子引起园主的好奇心,遂通读此文。读完之后感觉有些想法很新颖,只是术语习惯等等和园主习惯的方式有所区别,所以打算以一个非算法的视角来解读一下这篇文章,谈谈园主的一些理解。

阅读全文

利用R语言对用户进行深度挖掘

随着游戏市场竞争的日趋激烈,在如何获得更大收益延长游戏周期的问题上,越来越多的手机游戏开发公司开始选择借助大数据,以便挖掘更多更细的用户群、了解用户习惯来进行精细化、个性化的运营。游戏行业对用户的深度挖掘一般从两方面着手:一方面是用户游戏行为的深度分析,另一方面是对用户付费行为的深度挖掘。

阅读全文

COS访谈第26期:寇强

【COS编辑者按】受访者:寇强 采访者:王小宁 审稿:成慧敏 寇强,Rcpp 核心团队成员。本科就读于中山大学,现为印第安纳大学博士在读。 小宁:师兄

阅读全文

[译]量化投资教程:投资组合优化与R实践(上)

最近,在研究投资组合优化的问题,主要针对的是股票持仓的组合优化,会在这个分析过程中发现一些有意思的现象,并一步一步优化、检验相应的风控模型。本文将有四个部分分别阐述具体步骤。

阅读全文

COS访谈第25期:李东老师

李东,清华大学统计学研究中心助理教授。2005年在中科院数学与系统科学研究院获得硕士学位,2010年在香港科技大学获得博士学位。在香港科技大学和美国爱荷华大学做过博士后研究。研究兴趣主要集中在金融计量经济学、非线性时间序列分析、网络与大数据等方向。

阅读全文

COS沙龙第40期(北京)纪要

简介:郁彬,加州大学伯克利分校统计系及电气工程与计算机科学系校长教授,加州大学伯克利分校统计系前系主任。她同时是北京大学微软统计与信息技术教育部-微软重点实验室的创办者及联席主任。她与基因组学、神经科学、医学领域科学家合作进行跨学科研究,开发了统计和机器学习方法/算法和理论,并与领域知识以及量化批判思维结合以解决这些领域中的数据问题。

阅读全文

COS访谈第24期:郭绍俊老师

郭绍俊:2003年毕业于山东师范大学,2008年获得中国科学院数学与系统科学研究院理学博士学位。博士毕业后留中国科学院数学与系统科学研究院工作,助理研究员,任期至2016年。工作期间,于2009年-2010年赴美国普林斯顿大学运筹与金融工程系博士后研究,做高维数据分析方面的研究工作,并于2014-2016年在英国伦敦经济学院统计系做博士后研究,做大维时间序列建模方面的研究。 现为中国人民大学统计与大数据研究院副教授。目前主要研究方向有:高维统计学习;非参数及半参数统计建模;大维统计计算;生存分析及函数型数据分析等。

阅读全文

3张图 解释我的数据价值观

做数据的人现在越来越强调价值,那么在商业世界里,什么数据价值最高?我们先看几个例子。

阅读全文

Breiman访谈实录

1928年1月28日,Leo Breiman生于纽约。5年后,他们家搬到了旧金山,然后Leo开始了他的学业。在他读初中的时候,他们家又搬去了洛杉矶。1945年,Leo从Roosevelt高中毕业后考进了加州理工学院,在那里他花了4年时间主修物理。1950年,Leo拿到了哥伦比亚大学的数学硕士学位,1954年,他又拿到了加州大学伯克利分校的数学博士学位。

阅读全文

降维攻击:目标,比率指标

作者简介:陈丽云,在eBay从事 Experimentation Analytics Research。网络上素来自黑为“落园园主”。

在这个互联网数据唾手可得的时代,但凡有数据的地方,就有战争。一场战役,有人登高摇旗呐喊,有人趁夜暗度陈仓。在以浩瀚数据为目标的战场上,大家费尽心思用尽招数,各种降维攻击,只是没有《三体》里面的体外文明那种强行把三维生物体打击到二维空间的那么残忍罢了。实践中,我们利用各种统计模型对数据进行一而再、再而三的降维,最终获得屈指可数的统计量来做进一步判断。园主一时起意,打算记录一下一场针对比率指标的降维攻击,以飨读者。

阅读全文