查看原文
其他

丁鹏在伯克利的线性模型讲义出炉成书,开放下载

统计之都 统计之都 2024-04-24

本书 Linear Model and Extensions 诞生于丁鹏在加州大学伯克利分校过去八年教授硕士生“线性模型”课程的讲义。本书中文版正由作者丁鹏亲自翻译,名曰《线性模型及其推广》,敬请期待!也欢迎您报名参与校对。后文是其序言。书籍在线地址:https://arxiv.org/abs/2401.00649 


《线性模型及其推广》序言中文版


1. 学习线性模型的重要性


统计学中的一个核心任务是使用数据构建模型,以推断背后的数据生成机制,或预测未来。虽然现实问题非常复杂,但线性模型往往可以良好地近似真实的数据生成机制。尽管真实的数据生成机制有时候是非线性的,但如果我们根据先验知识对数据进行适当的变换,线性模型可以是一个有用的近似。即使在高度非线性的问题中,线性模型仍然可以作为数据分析过程中一个有用的初步尝试。


此外,线性模型具有许多优美的代数和几何性质。在线性模型下,我们可以推导出许多显式的公式,以帮助我们理解统计建模的各个方面。在更复杂的模型中,推导显式的公式往往是不可能的。然而,我们可以利用线性模型来建立直觉,然后对更复杂模型的性质提出猜测。


从教学的角度看,线性模型是整个统计学训练的基石之一。本书诞生于我在加州大学伯克利分校过去八年教授硕士水平“线性模型”课程的讲义。大多数学生是统计学硕士生。有些学生是具有良好数学训练的本科生。有些学生是统计学博士生。有些学生是其他系的硕士或博士生。


本书要求读者具备线性代数、概率论和统计推断的基本训练。


2. 对教师的建议


本书正文有 27 章,附录有 4章。正如我前面提到的,这本书是我在加州大学伯克利分校教授“线性模型”的经验总结。在不同的年份,我以不同的方式教授这门课程,这本书是我过去八年讲义的融合。下面我基于自己的教学经验对教师提出一些建议。由于加州大学伯克利分校是学期制(semester system),采用季度制(quarter system)的教师应对我下面的建议做一些调整。


版本1:初等线性模型课程


如果你要教一门基础线性模型课程,假设学生没有良好的数学基础,你可以从附录开始,复习基本的线性代数、概率论和统计推断。然后你可以讲第 2 到 17 章。如果时间允许,你还可以讲第 20 章,因为 Logistic 模型对 0-1 数据非常重要。


版本2:高级线性模型课程


如果你要教一门高级线性模型课程,假设学生有良好的数学基础,你可以直接从正文开始讲。当我这样讲时,我要求我的助教在前两次习题课中复习附录的内容,同时我布置了附录中的课后习题,以提醒学生们复习背景知识。你可以讲第 2 到 24 章。你可以省略第 18 章和其他章节中的一些技术上过于复杂的内容。如果时间允许,你可以考虑讲第 25 章,因为广义估计方程(generalized estimating equation)和衍生的“群相关稳健的标准误” (cluster-robust standard error)在很多应用中非常重要。此外,你还可以考虑讲第 27 章,因为 Cox 比例风险模型在应用中极其重要。


版本3:高级广义线性模型课程


如果你要教一门广义线性模型的课程,你可以使用第 20 到 27 章。


3. 对读者和学生的额外建议


读者和学生首先应该阅读我上面对教师建议。此外,我还有其他三个建议。


更多模拟研究


这本书包含了一些基本的模拟研究。我鼓励读者们进行更多的模拟研究,以加深对理论和方法的理解。


实际数据分析


Box 有句名言:“所有模型都是错的,但有些是有用的。” 模型的有用性强烈依赖于应用。在教“线性模型”时,我有时会用期末报告代替期末考试,以鼓励学生们进行数据分析实践,希望学生们在理论和应用之间建立联系。


课后习题


这本书包含了许多课后习题。尝试一些课后习题是很重要的。此外,一些课后习题包含有用的理论结果。即使你没有时间弄清楚这些习题的细节,阅读这些习题的结论也是有帮助的。


4. 省略的话题


尽管“线性模型”是大多数统计系的标准课程,但我们对应该讲什么内容并没有共识,因为统计学领域正在蓬勃地发展。虽然我对教师提出了一些建议,但你可能仍然觉得这本书省略了一些与线性模型相关的重要话题。


高级计量经济学模型


在线性模型之后,许多计量经济学教科书会讲工具变量模型和面板数据模型。关于这些更专业的话题,Wooldridge (2010) 是一本经典教科书。


高级生物统计学模型


这本书在第 25 章中讲了广义估计方程。对于分析纵向数据,线性和广义线性混合效应模型是强大的工具。Fitzmaurice et al. (2012) 是应用纵向数据分析的经典教科书。这本书在第 27 章中讲了 Cox 比例风险模型。关于更高级的生存分析方法,Kalbfleisch 和 Prentice (2011) 是一本经典教科书。


因果推断


我故意没有在这本书中讲因果推断。为了减小内容重叠,我写了另一本关于因果推断的教科书(丁鹏,2023,https://arxiv.org/abs/2305.18793)。在我过去的教学中,我尝试过如下的组合:在讲授线性模型和 Logistic 模型后,立刻讲授基础因果推断。学生似乎很喜欢这种组合,因为它连接了统计模型和因果推断。


5. 本书的特点


线性模型是统计学中的一个老话题。这方面已经有许多优秀的教科书。本书具有以下特点:


● 本书对线性模型的介绍是中级水平的。它尝试平衡严谨的证明和直观的论证。

● 本书不仅提供理论,还提供模拟研究和案例研究。

● 本书提供 R 代码来复制所有模拟研究和案例研究。

● 本书不仅讲线性模型的理论,而且讲它在社会科学和生物医学研究中的应用。

● 本书提供不同难度的课后习题。教师若有需求,我可以提供这些习题的答案。


其他教科书也许具有上述一两个特点。本书同时具有上述所有特点。我希望教师和读者们觉得这些特点是本书吸引人的地方。


6. 致谢


许多加州大学伯克利分校的学生对我讲义的早期版本提出了批判性和建设性的意见。作为我“线性模型”课程的助教,Sizhu Lu, Chaoran Yu 和 Jason Wu 仔细阅读了这本书的早期版本,并帮助我大大改进了本书。


曹洪源和蒋智超两位教授用这本书的早期版本教授了相关课程。他们提出了非常宝贵的建议。


我也非常感谢鞠念桥教授的建议。


当我还是学生时,我选修了耿直教授的“应用线性回归”课程,当时使用的书是 Weisberg (2005)。在我早年的教学中,我参考 Christensen (2002) 和 Agresti (2015)。在加州大学伯克利分校,我还旁听了 Jim Powell 教授的 “计量经济学”,并阅读了他的精彩讲义。这些课程、教科书和讲义,都对我理解和阐述线性模型产生了重大影响。


如果你发现任何错误,请随时给我发电子邮件。


本书目录如下:




















图书链接可以通过阅读原文获得。丁老师因果推断文章合集:


因果推断简介之一:从 Yule-Simpson’s Paradox

讲起因果推断简介之二:Rubin Causal Model (RCM) 和随机化试验 

因果推断简介之三:R. A. Fisher 和 J. Neyman 的分歧 

因果推断简介之四:观察性研究,可忽略性和倾向得分

因果推断简介之五:因果图 (Causal Diagram) 

因果推断——现代统计的思想飞跃 



作者简介


丁鹏,加州大学伯克利分校统计系副教授,于2015年5月获得了哈佛大学统计系博士学位,并于2015年12月在哈佛大学公共卫生学院流行病学系做博士后。在此之前,丁鹏教授在北京大学获得了数学学士、经济学学士和统计学硕士学位(指导老师:耿直教授)。丁鹏曾获2018年皇家统计学会(RSS)Guy铜奖,2023年COPSS Emerging Leader Awardee。

















继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存