msg

自序

2019 年底,陈兴璐编辑给我写了封邮件,问我是否有兴趣写一本中文书。这问题可以说是问到我心坎上了。2018 年我在给赵鹏的《学 R》一书写推荐序时就表达了写中文书的强烈愿望,只不过写书这种工作最好是用大块连续的时间去做,而如今多数人的时间都已经严重碎片化,我也不例外(尽管还在假装抗争),所以想要徒手写出一本新书的可能性已经微乎其微,于是我想到这本书稿。

赵鹏在本书后序《古统新修记》中提到了这本书的历史。从我 2007 年开始写这本书起,就不断有人问我何时出版。当年我把这本书的信息放在博客的某个网页上,后来我把这个网页藏了起来,但现在仍然可以看见当年很多读者在下面的留言。有些读者甚至说“银子都准备好了”。一晃十三年过去,我也从一个不靠谱的小青年成长为一个不靠谱的小中年,唯一不变的是这书仍然没有出版,惊喜不惊喜……我不知道以前当大家在谈论拖延症时大家在谈论些什么,反正以后大概可以谈谈这本被我拖成《古代统计图形》的《现代统计图形》了。

这些年来,我曾想过找人帮忙把这本书稿重新整理一下,也有不少人提出要给我帮忙,但我开发了几年 R Markdown 之后,实在不想再打开这本书的 $\LaTeX$ 原稿件,所以也没和这些志愿者一起推进。恰好在兴璐编辑问我的三个月之前,我终于咬咬牙把这本书的旧稿子全盘交给了黄湘云(他之前也问过我好几次了),请他帮忙把原始的 $\LaTeX$ 格式转化为更简单的 R Markdown 格式,结果他三下五除二很快就把这事搞定了,这解决了出版的两大障碍之一。另一大障碍是,由于此书写于十几年前,彼时 ggplot 还不像现在这样一统江湖,于是这本书的旧稿将重点放在 R 的基础图形上(第9章),而对 ggplot 的介绍则很简略。这个大坑,则被赵鹏卷起袖子给填了,书中凡是能用 ggplot 作的图,他都用 ggplot 重写了一遍,好歹算是把《古代统计图形》拉上了《近代统计图形》的台阶。我依然觉得“现代”二字有点名过其实,但现在总算不像一年前那么心虚了。

话说回来,我们当然不能说用什么工具作图才称得上“现代”。“现代”与否,不应该与工具挂上钩,否则我们一来容易陷入工具崇拜,二来也很容易变成拿着锤子找钉子的人,也就是查理芒格说的“铁锤人倾向”。如果不注意作图的目的和原则,那么优秀的作图工具也一样可能制造图形垃圾,就如同 $\LaTeX$ 也绝对可以排出把人丑哭的版式一样。也许有读者还记得,我在最早版本的序言中引用过顾炎武在《日知录》中引用《易经》中的一句话:“形而上者谓之道,形而下者谓之器。”那时候年少轻狂,引这种话有卖弄之嫌(装作很厉害的样子),不过也有一份真心实意在里面,也就是期待读者能得“道”。如今不敢说什么“道”不“道”的大话,只能说要是本书对读者有所启发的话,则善莫大焉。

我本人当然不算图形领域的专家,而且这些年的工作重心离这个领域越来越远,但我也斗胆讲我的两个观察,不知是否确切:

一是随着数据科学的浪潮,数据可视化也被推上了浪尖,图形成了数据科学不可或缺的一个组成成分,但我们似乎越来越依赖现成的作图工具和系统(哪怕自己写代码作图,也是用现成的库),难以见到新颖的数据展示方式,而那些新颖的图形,往往需要用更原始和底层的方式创造出来。在第2章中,我提到用写代码的方式作图能提供高度的定制性,意即越高层的工具,定制性相应也会更弱,所以也更容易束缚创新。有鉴于此,时至今日,我仍然认为读者不妨了解一下 R 的基础作图系统,而不必随大流、认准了 ggplot 不撒手。基础作图系统用起来当然是繁琐一些,但它提供了所有的图形元素供你调遣,而且对数据形式也没有任何假设(不必非得是整齐的数据框),有时候可能会更方便和自由。注意,我是学基础作图系统长大的,所以我的这个观念可能有偏差。当年我玩这些点线面的时候,感觉就像玩画笔,可以说乐在其中、不能自拔,比如图 9.6 让我兴奋地发现原来渐进色可以这样创造(虽然很低效),图 6.4 是我受那幅著名的拿破仑远征图(图 1.6)启发而创造出来的,图 3.14 中的篮球场地则是我按照场地标准尺寸“一笔一划”地用点线圈画出来的(可见曾经有多闲)。第9章最后那个画温度计的练习,可能是我当年沉迷基础作图系统的最好例证。打个比方,用 ggplot 或其它高层作图系统就像是上帝捉住你的手在画图,而用基础图形系统则需要你捉住上帝的手来画。

二是如今画图似乎朝着美观方面一边倒,而难以见到把数学原理与图形结合表达的例子。我不太明白这是果真成了看脸的时代,还是说统计理论与图形的隔阂更深了。坦言之,我读研究生之后开始不太喜欢数学,但有时候看到一种数学方法以图形的方式巧妙表达出来时,还是觉得很惊喜的。例如第 7.8 小节中的四瓣图,和第 6.12 小节中的调和曲线图。对于后者,我本科大四时还仔细验证过那个欧氏距离(当然现在恐怕三角函数的积分都忘了),并感叹这家伙是怎么想出这么绝妙的方法来的。不知这些“古代统计图形”,能否启发我们创造出更多有数学灵魂的图形?其实也未必一定要追求这些看起来高端的东西,有时候一个简单的想法也许就能启发我们,例如图 5.3 中的向日葵散点图,它的想法很简单,而名字又多有诗意。我想表达的意思是,一幅图不管用什么形式表达,只要你注入了特别的心意,它自然会萌发出生命力而动人。正如中岛美雪一首歌所唱的:生命的别名就是心。

所以就算这本书稿拖了十四年,我自问仍是有一定的出版价值的;内容方面依旧有一些闪光点,只不过以我如今的文字标准,有些地方文绉绉的表达我自己也看不惯了。我猜这本书至少会有两类购买者:一类是等它等了十几年的,不为别的,就图买个情怀,以纪念逝去的青春,也许买回去最终只是吃火锅的时候垫桌脚;另一类是冲着鄙人的虚名来的(我为你们赐名“冲虚道长”)。对第一类读者,我只想说,吃火锅的时候请叫上我;对第二类读者,你们来就来,还买什么东西嘛,非要买的话,我也只好第无数次重复我的告诫:读书的时候自己多判断,不要被我一面之词忽悠入坑。

本书每章开头都挑选了一段《福尔摩斯探案集》中的文字,其内容与各章内容有一定关联(有些关联需要一定的脑洞才能理解),这也是由于我个人在上高中时就喜欢看福尔摩斯,并且我认为统计图形也可以看作是一种小小的“探案”。探案集中我最喜欢的一篇是《血字的研究》,尤其欣赏该篇的第二部分中大篇的景色描写,以及对主人公杰弗逊 · 霍普坚韧不拔性格的刻画,这种波澜壮阔的笔法,令我着实艳羡不已,只可惜我没这种文字功夫能把书写得如此吸引人,于是只能寄希望于“一图胜千言”了。

最后,我要感谢在写作过程中给我提供过帮助的人们,包括我在中国人民大学本硕期间的导师赵彦云老师、人大学弟学妹和统计之都的朋友们(如魏太云、邱怡轩、郑冰、李皞、方莹、李丰、王晓伟、李承文、肖楠、姜晓东等等)、爱荷华州立大学的师友们(如殷腾飞、我的导师 Di Cook 和 Heike Hofmann)。本书修订过程中也收到了来自张列弛、Song Li、JackieMe、Yang Cao、Jonie Yao、tiansworld 等人的贡献。这本书先后得到了多位编辑的付出,包括周筠老师(约十年前)、卢鸫翔编辑、陈兴璐编辑、王军花编辑等,其间我掉过链子,很不好意思,在此觍着脸一并感谢。当然,这本书最终的出版,离不开我的两位苦力合作者黄湘云和赵鹏;要不是他们玩命推,我估计这本书稿可能真的要留给未来的考古队来发掘了。

——谢益辉 于 美国奥马哈

后记

古统者,古代统计图形也,乃谢公益辉所著《现代统计图形》之谑称。盖其成书甚 早,初行即声名大噪,得者皆读之后快。然久未付梓,仅钞本1辗转相传于坊间,其间 桃花人面,沧海桑田,忽忽十载,“现”已作“古”,遂有古统之誉。

古统钞本,始于丁亥2,发于戊子3,兴于己丑4,终以庚寅5本传世。庚寅者,凡八 十回,二百一十页,六十五图,盖八章: 历史、工具、细节、元素、图库、系统、模型、 数据。另附导读、程序初步、作图技巧、统计动画、本书 R 包。回目有笑傲6之韵,兼射雕7之风。彼时 R 语言初入中原,小荷乍露,读者莫不折于 R 语言之奇丽,著者之渊 博,文笔之雅致,洞见之深远。然系统、模型、数据三章空有其骨,未见其肉,如夜归 掷履,邻人闻落地声一,待其二者,终不得焉,念之,憾之,恨之,盼之。

及至戊戌8,谢公自云9,为生计迫10,亦缺良墨 11,古统残本实难为继,遂传辛卯12本。是本增页减章,凡七章八十回:历史、工具、元素、图库、系统、数据、原则,古意犹存。三百六十五页,含二表,百卅八图,较庚寅本倍之。尤以图库、数据二章所增为善。天下久饥,今一快朵颐,喜大普奔。时有 ggplot 丹青风靡,人尽逐之。古统虽有述及,奈何囿尊古法,修之无肉,弃之有味,谢公绝之。天下闻者,莫不扼腕长叹。盖虽残本,世间莫有比肩者矣。

辛卯毕,钞本一。bookdown 兀,己亥13出。有黄公湘云者,得谢公雅赐手稿,乃以 迅雷之势,着以良墨14,迁旧稿于新址,时人异之,不知良墨实出谢公。古统新址,人皆可访之; 良墨旧稿,人皆可修之。群雄遂起,竞相争鸣,古统乃初见现统之大观。圣人曰:独乐乐,与民乐乐,孰乐? 黄公之功,善莫大焉。

古统八十回之残本,如曹公之石头记,或断臂之维纳斯,美则美矣,终为不全之数,天下憾之久矣。今余受谢黄二公之托,重修现统,以付梓为盼。十年之功,毕此一役,余知兹事体大,如红楼续梦、美神接臂,受命以来,夙夜忧叹,恐托付不效,以伤古统之明。虽肝脑涂地,未敢不尽心竭力,竟披阅十载,增删五次,终得庚子本。凡一十一章,四十表。插图皆以 ggplot 新绘,增至百五十图。

嗟乎!余幼年慕周公华健之声,后习丝竹,终于京师学堂遂周公同台之乐。今壮年习 R,独行步履维艰,恰行谢公古统庚寅本,旱逢甘露,受益匪浅。未料日后拙作《学 R》得谢公赐序。今复为其旧作新修,世事之玄妙莫过于此。正是:

今人不见古时月,今月曾经照古人。
古人今人若流水,共看明月皆如此。

——赵鹏 于 姑苏西浦


  1. 即 pdf 版。
  2. 即 2007 年。
  3. 即 2008 年。
  4. 即 2009 年。
  5. 即 2010 年。
  6. 金庸《笑傲江湖》,每章标题均为两个字。
  7. 金庸《射雕英雄传》,每章标题均为四个字。
  8. 即 2018 年。
  9. 见谢益辉的博客《再清零》一文。
  10. 据说是忙于博士资格考试。
  11. 据说是所用的文本工具崩溃了。
  12. 即 2011 年。
  13. 即 2019 年。
  14. R 扩展包 bookdown。

发表/查看评论