这是拙作《统计之美:人工智能时代的科学思维》的序言,虽然这本书是在讲一些统计相关的小故事,也试图用轻松的语言介绍数据科学领域的一些理论和应用基础,但关于统计学中的科学思维、尤其是中国传统文化中的统计精神,是我动笔前的主要动因。我对各种攻击中国文化没有科学精神的观点一直不满,所以写了这篇序,希望能和更多人探讨。

英国学者李约瑟研究中国科技史时提出了一个问题:“尽管中国古代对人类科技发展做出了很多重要贡献,但为什么科学和工业革命没有在近代的中国发生?”这就是著名的李约瑟难题(Needham’s Grand Question)。具体地说,是问“为什么近代科学没有产生在中国,而是在17世纪的西方,特别是文艺复兴之后的欧洲?”李约瑟通过对中国科学技术史的研究,在社会制度和地理环境中寻找答案。但这个问题一直被国人拿来反思自己的文化和传统,很多人都分析出了各种原因,大多数人认为中国的传统文化中缺少科学精神、甚至没有能够产生现代科学的基因,再结合现实生活中的各种乱象,无不痛心疾首,都想治病救人。

让我们把时间拉回到百年前的中国,轰轰烈烈的新文化运动已经开始,“德先生”和“赛先生”进了中国。国人深切地认识到了科学的威力,无数仁人志士立志向学,1923年的“科玄之争”更是加速了科学在全民中的普及。当时“科学派”的观点不仅仅是科学在实业中的价值,更是要全面介入人们的生活。当然,当时的“玄学”也不是指魏晋那套老庄玄学和今天人们认为的旧中国玄学,而是指“在欧洲鬼混了二千多年的无赖鬼”,也就是形而上学。这次科玄之争可以说力度非常大,当时国人对科学的信仰程度超乎今天人们的想象。新中国成立后,对全民进行科学教育的成就更是有目共睹,中国的科技水平也是发展神速,但是如今国民科学素质的情况似乎仍然不容乐观,很多科普作者越科普越心焦,质疑中国科学精神的言论也仍然甚嚣尘上。

国民的科学素养真的这么差吗?科学素养的缺失真的是传统文化带来的吗?我看都不见得。梁启超在东南大学时,学生罗时实认为国粹将亡,因为读经的人太少了,梁启超闻声大怒,拍案道:“从古就是这么少”。当然,科学相比于经学更值得普及,但是对普通民众缺乏专业的科学知识不应苛责,这是正常现象。不同科学领域、不同知识内容的科普是一项漫长而有意义的事业,更需要普及的可能是科学思维。科学思维虽然与任何形式的玄学都水火不容,但也并不等于“死理性派”,也不是“死的机械论”,不能说演绎法是科学而归纳法就不是科学,也不能说理性主义是科学而经验主义就不是科学。不同的历史文化可能侧重不同,我们不能因为中国历史上三百年的特殊时期就质疑整个历史的科技成就,也不能因为中国传统公理体系的缺失就否认整个文化的科学精神,这是不科学的做法,也属于没有文化自信的表现。

卢瑟福曾说过“如果你的实验需要统计学,那么你应该再做一个更好的实验”,波普尔强烈排斥归纳逻辑并力求以可证伪性为划界的标准,乔姆斯基高举理性主义的大旗并自创“笛卡尔语言学”,这些观点曾经都是主流并且影响了很多人。但是需要指出的是,如今大数据时代下已经充分证明了经验主义、归纳推理的强大之处,即使是如日中天的人工智能实际上也是大数据加上深度学习的归纳方法的成功。我们无意对大师们进行臧否,也不参与具体路线的争论。实际上,无论是倾向于经验主义还是理性主义、归纳主义还是演绎主义,都不会动摇科学的根基。库恩认为,科学很重要的特点在于其独特的范式,在科学领域里大部分时间并没有竞争学派在质问彼此的目的和标准,因此相比其他领域能够取得明显的进步。在不同的领域,大家遵循公认的科学范式进行研究,不管认识论和推理逻辑方面有何不同的倾向,都是科学的。但是由于欧几里得、笛卡儿那一类的完美体系实在太迷人,容易导致很多人忽视了一种重要的科学思维方式,也就是统计思维。

巧合的是,当年科玄论战中“科学派”的主要理论基础就是统计学大宗师卡尔·皮尔逊早期的代表作《科学的规范》。当年的皮尔逊还没有发展出后来的很多统计学经典理论,该书是一本科学哲学著作,坚定地表达了对科学的信仰,他认为科学的领域是无限的,科学方法是通向整个知识区域的唯一门径。但是他也认为无论在哪种情况下科学都不能证明任何固有的必然性,也不能以绝对的确定性证明它必须重复,科学对过去是描述,对未来是信仰。有些精密科学靠明晰的定义和逻辑可以发展,有些问题要靠近似的测量来解决,需要测量理论、误差理论、概率论、统计理论来实现。后来随着统计学的发展成熟,直到今天大数据和人工智能成为显学,都验证了皮尔逊当年的观点。

也许是因为科学这个词听起来太高大上,也可能是科学比较接近真理,现在很多科普过于强调精确科学或者“硬”科学,有时候站在了普通人直觉或者经验的对立面,更侧重理性主义和演绎推理。这种精神放在一百年前的蒙昧期是合适的,放在今天全民教育水平不低的情形下可能有些矫枉过正,我觉得还是允执厥中比较好。能够在概念世界和知觉世界中达到和谐、能够在演绎法与归纳法中达到平衡,统计学可能是一个很好的桥梁。如今无论是自然科学还是社会科学都离不开统计学,尤其在应用领域,直接掀起了大数据的热潮,技术层面的威力已经深入人心,但是思维方面的普及还有所不足。实际上,对中国人来说,理解统计思维似乎是一件非常轻松的事,无论是上古伏羲观天法地的归纳精神,或者神农尝百草的试验精神,还是后世天人合一的整体思维、观过知仁的结果导向、未战而庙算的预测习惯,都是深合统计之道的。

很多人受到各种原因的误导之后对中国的文化不自信,易于走向“言必称希腊,对于自己的祖宗,则对不住,忘记了”的极端,这是不对的。即使是作为很多科学基础的数学,也不止一种思维方式。数学家吴文俊院士说过“我国古代数学并没有发展出一套演绎推理的形式系统,但却另有一套更有生命力的系统”,这个生命力就是“从实际中发现问题,提炼问题,进而分析问题和解决问题”, 完全不同于希腊几何学纯逻辑推理的形式主义道路,中国数学的经典著作大都是以问题集的形式出现的,对结果不是用定理来表达的,而是用“术”来表达的,用现代的话来讲就是程序,与近代计算机的使用融合无间。可见中国传统的数学思维是非常适合现在这个算法时代的。算法与统计的结合造就了机器学习、人工智能的大爆发,甚至可以说是主导了这个时代的科技应用方向。统计学家约翰·图基1962 年的文章中指出,任何数理统计学工作都应该在纯数学或者数据分析的实践中二选一,两个标准都不符合的工作必然只是一时的过客。陈希孺院士也曾预测“新一轮的突破性进展正在孕育中,它也许就是数据分析?”如今大师们的论断都已言中,统计学与算法结合解决实际问题,已经渐成主流,甚至发展出了一门新的学科——数据科学。

卡瓦列里原理在西方数学史中被认为是微积分发明前的重要基础,而中国的祖暅原理与之等价。莱布尼茨在提出二进制的那篇著名文章里直接引用了伏羲八卦,他还认为“如果说我们(欧洲人)在手工技能上与他们(中国)不分上下、在理论科学方面超过他们的话,那么,在实践哲学方面……我不得不汗颜地承认他们远胜于我们”。在这里我们无意比较中西的优劣,也并不是为了说明中国有多厉害(如果是这个目的的话,可以举更多例子或者写另一本书),仅仅只是为了澄清一些误解,这些误解既是对中国传统的某种误读,同时也是科学思维上的某类误区。我们追求理性和完美的体系,也希望能止于至善,但我们也不应忽视经验主义和观察、试验、归纳、计算的力量,这些都是科学,不应偏颇。尤其对于普通人来说,多从观察身边的小事、解决实际问题的角度训练科学思维,可能效果更好,毕竟“刻鹄不成尚类鹜,画虎不成反类狗”。

在如今这个理性与经验、理论与实践、演绎与归纳、公理体系与算法程序和谐统一的大好时代里,我们多了解一些统计学,关注一下数据科学在新时代的发展,类比一下我们祖先的思维方式,是很有必要的。在这本书里,我不敢妄图进行全面的科普,只能摘录一些平时读书、工作、看新闻时注意到的例子,尝试介绍统计学的发展历程、理论方法和应用实务。受本人的经验和学识所限,很多例子并不是最好的,也肯定存在各种疏漏,但是希望能做一些尝试,和更多的人一起探索统计中的美,分享科学思维中比较人性化的一面。

发表/查看评论