查看原文
其他

统计学科的未来

孙强、朱宏图 统计之都 2024-03-08

最近统计community在讨论面对AI的冲击下统计学(作为一门独立学科)的identity,反思最近20年来的发展,以及展望了一下统计的未来。本人也有一些思考。现把这些思考整理如下。

首先我想先强调一下这篇文章主要说的是统计学科的未来, 而不是统计的未来。私以为统计, 例如statistical thinking, 永远都会存在,并且会在多个领域持续发展。在强化学习圣地的阿尔伯塔大学的Statistical Machine Learning(SML)项目的官方网站上有如下陈述:

"90 percent of machine learning is based on statistical ideas. Statistical ideas and statistical thinking constitute the core of the subject."

举例说明:随机森林在今天都是非常流行并且在业界非常成功的预测算法。

当今统计学的问题是什么?

我们首先来简单的介绍统计学。统计学是通过探索数据的规律从而认识世界,解决问题和做出决策的一门学科。我认为统计学是inclusive的,并曾把统计学比作为数据的物理学: 海纳百川,有容乃大。这个在我之前的关于统计未来的研究方向的回答里有所提及,并且在统计的核心这个问题下做了一些补充说明。

在上述的答案中,我认为统计的精髓在于statistical thinking。并且用这种thinking设计算法从而解决问题。消融实验和统计理论为理解数据和算法提供了两种不同的语言,并且进一步帮助改善算法或者为未来提供预测。

那么语言重要吗?当然重要。但是语言并不能脱离数据和算法单独存在。不管是消融实验还是统计理论,他们的主要作用都是为了加深数据理解支持统计方法。但是他们没法作为一个独立的学科而存在。这种互联性强调了统计学的应用性质,实验和理论可以帮助我们理解现实世界的现象。换句话说,我们认为理论和实际的关系如下:

“Theories are approximations to experiments (what happened in practice), but not the other way around.”

统计理论主要是为了支撑统计方法。统计学的根本目标是解决有意义的实际问题,这也是其作为一个独立学科存在的理由。而统计理论则很难作为一个独立的学科而存在。在统计学发展的历史中, 许多因为数学优美而开发的统计方法论,最终都被实际应用所淘汰。举例说明:经验似然在最初引起了极大的兴趣,但最后却在实际应用中失宠,被从业者所抛弃。相反,一些在当代数据分析中非常有影响力的方法,如随机森林, boosting, 和深度学习,尚未有足够的理论理解。这似乎揭示着:统计学家需要优先考虑现实世界的数据和应用而不是抽象的数学结理论。由于统计理论最近几十年在一些领域的高度发展(e.g., statistical inference, measure concentration),使得统计教育的重心更多的集中在统计理论。这也使得非常多的统计学家很少(有兴趣)深入接触数据和应用。这就像一位仅从教科书上学习医学而从未治疗过患者的医生一样。这种做法可能与统计学的立足根本相去甚远。

最近10年,随着AI的飞速发展,统计学的发展似乎停滞了。这种停滞表现在多个方面。在应用的层面上,随着最近几年大队列研究(例如UKBiobank)以及互联网数据的激增, 统计人捉襟见肘的工程能力使得他们在这些大数据面前束手无策。

从理论的层面上来讲,我们之前所建立的理论框架,例如统计推断,显然是远远不够的。比如在深度学习的时代,在模型或者参数都不可识别(identifiable)的当下,讨论参数的统计推断似乎完全没有意义。这个在我之前的关于统计未来的研究方向的回答里也有所提及。新的理论框架看起来是迫在眉睫的。事实上,理解深度学习看起来是一个不可能完成的任务。

以上这些现实也凸显了当前统计教育的严重缺陷。它强调了统计教育需要进行范式转变的紧迫性,即更加重视数据和应用,更加重视工程能力和落地的能力。更加鼓励不拘一格的创新,不管是数据集的,应用的,理论的,还是工程的。

当前的统计教育有哪些问题?

如果我们接受以上的观点, 那么当前的统计教育格局展现出几个关键的缺陷其实都因为统计教育和统计文化重心的极端不平衡。以下我们列举一些缺陷。

综合培训的缺失:明显缺乏将学生培养成为具备理论知识和实践技能的全面统计学家的培训。这种差距经常导致与应用机器学习(ML)环境中至关重要的工程思维脱节,使统计学家错失机器学习从业者轻松抓住的机会。

过分强调推断:传统上对统计推断的关注导致对数据科学中的整体流程,如数据收集、清理和注释的重要性认识不足。这些基础步骤对于现实世界的应用至关重要,然而在许多统计项目中,它们仍然被低估和教授不足。这种疏忽忽视了一个事实,在实践中,数据的质量和相关性往往比应用于它的统计方法更重要。从应用的角度看,推断方法不如数据收集/清理方法重要。

评估标准不足:评估该领域内学术贡献的标准往往过于重视在著名统计期刊上发表,或者更近期的,在领先的人工智能会议上发表。这种对学术产出的强调可能会掩盖实际应用和社会影响的重要性。如果这一趋势持续下去,统计学有真正的风险被纳入应用数学之下,从而减少其在跨学科研究和应用中的独特价值和贡献。

我们需要做些什么?

为了解决这些问题,统计教育需要一场范式转变。更加强调实际的、现实世界的应用,培养工程导向的思维方式,并拓宽学术贡献的评价标准,可以帮助振兴该领域,并确保其在人工智能和数据科学时代的相关性。我们同时也需要新的理论框架。多点开花,齐头并进。

但我们应该避免像现在这样过于重视理论的研究,以至于破坏对于问题和数据的基本关注。过于强调理论可能会造成以下后果:

1. 与实际应用脱节:强调缺乏与现实世界数据实际联系的理论猜想,可能会导致统计理论与其应用之间出现裂痕。这种脱节风险可能会使该学科与其旨在解决的实际问题疏远,降低其在解决现实世界挑战中的相关性和影响。

2. 过分强调抽象数学:虽然数学严谨性在统计学中是必不可少的,但过分强调抽象的理论猜想可能会将重点从统计学的经验和数据驱动本质转移。这种转变可能会导致统计方法变得更多关于数学的优雅,而不是关于分析和解释数据的有效性。

3. 从业者的疏远:依赖统计学进行各个领域应用工作的从业者可能会发现,如果该学科变得过于理论化,它变得不那么易于访问和相关。这种疏远可能导致理论统计学家和从业者之间的分裂,后者可能会转向数据科学或机器学习等更应用的领域寻找实际解决方案。

4. 方法论创新的扼杀:过分关注理论猜想可能会扼杀开发专门设计来解决新型数据和分析挑战的新统计方法的创新。该学科可能会变得停滞不前,对创建适应性强且创新的方法论的重视度下降,这些方法论可以跟上数据生成和分析快速发展的步伐。

5. 教育价值的减少:如果统计教育过于集中于理论猜想而牺牲了数据分析技能,毕业生可能会发现自己不适合数据科学和分析领域的职业。这可能导致统计教育与就业市场需求之间的脱节,降低统计学位的价值。

6. 跨学科合作的侵蚀:统计学在跨学科合作中蓬勃发展,将其方法应用于广泛的科学探究。如果该领域变得过于孤立,专注于没有明确适用性的理论猜想,它可能会失去作为跨学科研究中关键工具的角色,减少统计学家为不同领域做出贡献的机会。

解决这些担忧对于维持统计学作为一个基本以理解和解释数据为中心,以通知各种领域决策的学科的活力和相关性至关重要。

新的curriculum?

我们需要新的curriculum。至于到底怎么设计新的curriculum,可能需要一个过程。可以先从研究生开始在向下辐射到本科生。总体上希望可以更灵活和自由一些。比如多给系里的年轻老师一些自由度和话语权,让他们可以自主开一些topic courses。新人一般都在新的topics上比较active。慢慢积累一些新的课程,形成体系,在进行核心课程的改革。

学生也不一定什么课都上。比如我觉得empirical ML的学生虽然也需要会一点点数学,要会formulate新的东西,比如怎么把一个具体的科学或者工程问题转化为数学公式。这一点似乎对于机制理解还是比较重要的。但是对于特别理论的,比如measure concentration/empirical processes theory,似乎就不是很有必要?当然这些课程其实也可以很容易设计个简单版本出来。另外个人觉的统计系的学生似乎普遍工程能力比较欠缺。我们在这些方面是不是也可以开始多投入一些。就算是对于比较理论的学生,学一些的coding/data structures/systems的也会受益良多。

但是课程太多了,对学生来说似乎也是一种负担,也不利于学生深入钻研某一个领域。在统计学科内部划分不同的tracks也许是一个可能的解决方案?当然也应该鼓励某一个的track的学生去上感兴趣的其他track的课程或者跟不同背景的学生合作,这样可以增加研究和技能的diversity。我们觉得当今的science是大science,需要大家分工合作。已经不是以前小作坊一个人可以做科研的年代了。

另外一个想法就是可以考虑把很多以前的课程压缩成modules。可以从历史发展的角度去进行简单的梳理。比如统计推断这门课:简单讲讲我们为什么需要 (比如sample size calculation for clinical trials, p-values for significance),遇到了什么问题(Hodege's estimator), 为什么需要建立foundations (LAN,asymptotic CR lower bound etc)。但是现在这个topic似乎不需要讲的那么详细, 比如optimal hypothesis testing讲一个学期这种是不是太长了一些。

正如我之前回答写的那样,统计应该是inclusive的。跟数据相关的可以无所不包。那diversity就非常重要。有的学生想做science, 有的学生想做理论, 有的想做机制理解, 有的想做工程落地。我们招学生和教职的时候如果仅仅是说这个candidate does not fit into stats是不是过于保守? 仅从传统(理论)统计的角度判断是否有失偏颇?我们应该反省。统计作为一个学科,现在大多以department的方式存在, 行政上是否也限制了文化的开放和包容性?我们是否应该考虑往更大的学院发展 。这在行政上是否可行?更大的整体意味着更多的资源,也意味着更容易产生包容性。还是说我们应该寻求跟其他学科合作, 比如与information/optimization/ML合并, 成为更大的学院。

至于大家究竟要做什么?这个不可强求,每个人根据兴趣和爱好做自己想做的即可,我们还是要把更多的东西(数据,应用,理论,工程)包进来,鼓励统计的多元化发展。不管大家做什么,其实都无所谓。个人觉得统计还是会一直存在。最差的情况无非就是换个名字(比如数据科学),或者成为一个更大的整体的组成部分。无论怎么说统计还是会一直在多个领域持续发展。我举个具体的例子:比如ResNet这篇文章的统计intuition不就是做了个residual learning? 这些东西我们几十年前就在做了。所以ResNet在我看来只是residual learning applied to neural networks (当然现在也有基于optimization的解释,解决gradient vanishing issue etc)。所以大家不管在做什么,其实多多少少都会用到统计或者统计的思考方式, one way or another。

新的课程?

我来抛砖引玉。说几个研究生课程对应的新版本:

1.Theoretical stats: Classical asymptotics, nonasymptotics, and mean-field asymptotics.

2.Statistical computing: Dive into DL, optimization, and sampling.

3.Regression: Linear regression, kernels, and neural networks as universal approximators.

4.Online learning and reinforcement learning: Online algorithms, dynamic control, and RL.

5.Causal learning: Inference and leanring.

如何发展统计学科?

统计学科的发展无非就是两条路:1.个是全部都包进来, 做端到端的research, 什么都做。2.另一个是走出去, 到各个学科去, 像Tukey说的那样。

先说2。最近认识了很多有意思的人,见了一些学生和教职, 背景是EECS或者ML。其实他们统计的sense也很好。所以感觉统计教育也确实不一定会发生在统计学科内。如果我们没法包进来,那就可以走出去。

再说1。1似乎看起来特别简单,其实是特别难的。做端到端的research? 第一步就是怎么定义实际有意义的问题?没在业界摸爬滚打接触实际数据怎么做有意义的事情?去哪里找数据?你可以自己跑实验,比如clinical trials,收数据?怎么做到闭环?怎么落地?另外就是现在数据大而复杂了,确实是计算能力+统计的教育(比如工程能力的欠缺)+统计文化限制了我们学科本身的更新迭代。

我所认识到的非常多的年轻人其实都是非常愿意更新迭代的,只是受到客观条件限制,而无法得。总结一下就是: 大家其实不是不愿意, 而是没有办法,没有资源。所以其实也没有办法苛责大家, 还是需要给年轻人更好更多的支持。未来是属于年轻人的。

学科融合?

再说回到1。其实1还是有办法能够做到的, 就像之前说的那样跟各个与数据强相关的学科合并成为一个大学科,以学院的形式存在。扁平化管理, 促进交流融合,各取所长。

其实不管上述有没有办法做到,实际上学科融合都是大势所趋。最近常有ML的同事问我:统计和ML的区别是什么?或者更尖锐一点, 有了ML之后我们为什么还需要统计? 其实就目前两个学科的重点来说,还是有很大区别的。简单来说,统计主要是处理noise,而ML主要在处理universisal approximation, 各有所长吧。

不过说实话我觉得ML和现在的统计都是广义的统计。我觉得这些都是统计思想在不同问题或者环境下的展现,也有很多重合,甚至很多时候只是语言不同。比如在统计里叫model class, ML叫hypothesis, 统计为了可解释性和理解物理机制做模型 ML更多时候是为了做更容易generalize的预测做机制理解。典型的对比是invariant risk minimzation VS invariance, causality, robustness 这两个文章)。感觉ML和统计就应该是一个学科,或者站在我的角度来说我觉得ML其实就是统计的一部分。或者,统计就应该是数据科学,是所有一切跟数据相关的东西, 或者你可以取个别的什么名字。

作者介绍

孙强博士目前是多伦多大学统计科学系的副教授,同时担任StatsLE实验室主任。在此之前, 孙强教授在普林斯顿大学(Princeton University)担任Associate Scholar, 在北卡罗来纳大学教堂山(UNC-CH)取得的博士学位,在中国科学技术大学取得的本科学位。孙强教授目前的研究领域包括集成学习, 迁移学习,可信机器学习,以及科学和决策智能等。他已经以第一作者或通讯作者在统计和机器学习等国际顶级会议及期刊发表超过40篇论文,并多次担任国际顶级学术会议及期刊的领域主席和副主编,并且多次受邀于国际顶级学术会议和学术机构做报告。孙强教授曾给与诺亚方舟杰出讲座,并且是UNC-CH杰出校友。

朱宏图博士是北卡罗来纳大学教堂山分校生物统计学,统计学,计算机,放射学和生物遗传学终身教授,曾任MD安德森癌症中心的诊断影像学Bao-Shan Jing讲席教授和生物统计学终身教授,滴滴出行首席统计学家。2000年获得香港中文大学统计学博士学位。主要研究领域为统计学习、医疗图像处理、精准医疗、生物统计、人工智能和大数据分析。2011年当选美国统计学会和数理统计学会会士。2016年荣获德克萨斯州癌症预防与研究中心杰出研究奖。2019年因强化学习在网约车出行中的应用荣获Daniel Wagner杰出应用奖。在多个大型医疗研究项目中担任统计分析师,并提供实验设计、数据分析和新方法开发。现有高水平期刊论文320多篇,包括Nature,Science, Cell, Nature Genetics,Nature Communication, Nature Neuroscience,JAMA Psychiatry,PNAS,JMLR, JASA,Biometrika,AOS以及JRSSB;高水平会议论文55篇,包括KDD,NIPS,ICDM,AAAI,MICCAI以及IPMI。担任多个国际顶级会议的区域主席,包括Information Processing in Medical Imaging。担任(过)多个国际顶级期刊的编委,包括Statistica Sinica,JRSSB,Biometrics,Annals of Statistics和Journal of American Statistical Association。


继续滑动看下一个

统计学科的未来

孙强、朱宏图 统计之都
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存