查看原文
其他

前沿专著|冯志伟 《自然语言处理的形式分析手册》

六万学者关注了→ 语言学心得 2024-02-19


沿


///

Springer

2023年



冯志伟 著



自然语言处理(NLP)领域是人工智能最重要和最有用的应用领域之一。如今随着新的方法和工具与不断扩大的可用数据融合在一起,NLP正在迅速发展。这本最先进的手册涵盖了自然语言处理的形式分析的各个方面。在回顾该领域的历史之后,该书系统地向读者介绍了自然语言处理中基于规则的模型、统计模型、神经网络模型和预训练模型


在自然语言处理稳步增长的时代,本手册为NLP的理论和方法提供了高度可访问的介绍和急需的参考指南。它可以用于个人学习,作为自然语言处理或计算语言学课程的教科书,或作为人工智能课程的补充,并为研究人员、从业者、讲师、研究生和本科生提供宝贵的资源。


新书链接:(点击文末“阅读全文”可跳转)
https://link.springer.com/book/10.1007/978-981-16-5172-4



  ///  前沿专著


《自然语言处理的形式分析手册》

冯志伟 著

作者简介


冯志伟,1939年4月生,计算语言学家,中国教育部应用语言学研究所高级研究员。他在语言学、数学和计算机科学方面有着广泛的背景,从事语言学、数学和计算机科学的跨学科研究超过50年。作为中国最早的自然语言处理和计算语言学学者之一,他在国内外出版了30多本著作和400多篇论文。他是2018年中国计算机联合会NLPCC(自然语言处理与中文计算)杰出成就奖的获得者。


语言学人|冯志伟:汇通文理,探索语言奥秘

2022-07-03



目录


第一部分 历史回顾


1 自然语言处理的过去和现在

1.1 什么是自然语言处理

1.2 自然语言处理的历史回顾

1.3 自然语言处理的当今趋势


2 语言计算研究的先驱

2.1 马尔可夫链

2.2 齐夫定律

2.3 香农熵

2.4 巴希勒尔范畴语法

2.5 哈里斯语言串分析法

2.6 库拉金娜语言集合论


第二部分 形式模型


3 基于短语结构语法的形式模型

3.1 乔姆斯基的语法层级

3.2 有限状态语法及其局限性

3.3 短语结构语法

3.4 递归转移网络和扩展转移网络

3.5 自下而上和自上而下的分析

3.6 通用语法处理器和图表分析

3.7 厄尔利算法

3.8 左角分析法

3.9 Cocke-Younger-Kasami算法

3.10 富田算法

3.11 管辖与约束理论和最简方案

3.12 乔西的树邻接语法

3.13 汉字结构的形式描述

3.14 豪塞尔的左结合语法

4 基于统一的形式模型

4.1 多分支和多标记树分(MMT)

4.2 卡普兰的词汇功能语法

4.3 马丁·凯的功能统一语法 

4.4 加兹达尔的广义短语结构语法

4.5 谢伯氏PATR

4.6 波拉德的头部驱动短语结构语法

4.7 佩雷拉和沃伦的定从句语法


5 基于依赖和价的形式模型

5.1 价的来源

5.2 特斯尼埃的依存语法

5.3 依存语法在自然语言处理中的应用

5.4 配价语法 

5.5 配价语法在自然语言处理中的应用


6 基于词汇主义的形式模型

6.1 Gross词典——语法 

6.2 链接语法

6.3 词汇语义学

6.4 本体论

6.5 WordNet

6.6 HowNet

6.7 Pustejovsky的生成词库理论


7 自动语义处理的形式模型 

7.1 词素分析 

7.2 语义场

7.3 语义网络

7.4 蒙塔古的语义学 

7.5 威尔克斯优选语义学 

7.6 尚克的概念依存理论

7.7 梅尔丘克的意义——文本理论

7.8 菲尔莫的深度案例和框架语义学

7.9 词义消歧方法


8 自动情景和语用处理的形式模型 

8.1 系统功能语法的基本概念

8.2 系统功能语法在自然语言处理中的应用

8.3 言语行为理论与会话智能代理


9 话语分析的形式模型 

9.1 指代消解

9.2 语篇连贯中的推理技巧

9.3 曼恩与汤普森的修辞结构理论


10 概率语法的形式模型 

10.1 上下文无关文法与句子歧义

10.2 概率上下文无关文法的基础

10.3 概率上下文无关文法的三个假设

10.4 概率词汇化的上下文无关文法


11 神经网络与深度学习的形式模型 

11.1 神经网络的发展

11.2 脑神经网络和人工神经网络

11.3 机器学习和深度学习

11.4 字矢量和字嵌入(CBOW,Skip-Gram)

11.5 密集字向量(Word2vec)

11.6 感知器

11.7 前馈神经网络(FNN)

11.8 卷积神经网络

11.9 循环神经网络(RNN)

11.10 注意机制

11.11 外部存储器

11.12 预训练模型(Transformer model和BERT)


12 知识图谱

12.1 知识图谱的类型

12.2 知识表示

12.3 知识合并

12.4 实体识别和歧义消除

12.5 关系提取

12.6 事件提取

12.7 知识储存


13 结束语

后记




前  言


使用计算机技术来研究和处理自然语言始于20世纪40年代末和50年代。在过去的60年里,这项被称为自然语言处理(NLP)的研究取得了长足的进步,成为当代计算机科学中一门重要的新兴学科。在信息网络时代,自然语言处理越来越受到包括计算机专家和语言学家在内的学者的关注,并成为一门典型的与文科和理科紧密结合的跨学科学科。现在我们已经进入了人工智能(AI)时代,作为人工智能重要组成部分的NLP已经成为AI皇冠上的一颗璀璨明珠。


由于自然语言的复杂性,用计算机直接处理它是非常困难的。为了使自然语言直接被计算机处理,我们需要从NLP中抽象出与各种NLP需求相关的“问题”。然后抽象出来的问题必须用语言学的术语形式化,以便建立自然语言的“形式模型”,该模型可以以严格和规则的方式进一步用某种数学形式表示,称为算法。最后,为了在计算机上实现,应该建立一个NLP的计算模型。在NLP中,算法是实现形式模型的一种手段,它依赖于形式模型,而形式模型是自然语言计算机处理的本质。因此,建立自然语言的形式模型是非常重要的,因为它本质上是NLP的基础理论研究。


这本书是一本关于NLP形式分析的手册,系统地总结并谨慎地整理了各种NLP理论和方法。该手册由历史回顾和形式模型两部分组成,共12章。在第一部分,简要回顾了NLP的历史,并介绍了语言计算的开创性研究。第二部分主要描述形式模型,包括基于短语结构语法、统一操作、依存和配价以及词汇主义的形式模型。自动语义处理,语境和语用自动处理,语篇分析,概率语法,神经网络和深度学习,以及知识图谱也被考虑在内。最后,结束语讨论了理性主义方法和实证方法在NLP研究中的利弊,并尝试性地探讨了将这两种方法结合起来的方法。


我从事NLP的研究已经60多年了。60多年前,我还是一个对世界知之甚少的年轻人。现在,我已经是八十多岁的老人了。然而,一直令我们这一代人着迷的NLP仍然是一门新兴学科,年轻而充满青春活力。虽然她还处于青春期,幼稚,不成熟,但她无疑有着辉煌的前程。虽然一个人的生命是有限的,但对科学知识的探索和研究是无限的。与科学的常青参天大树相比,我们的生命是如此微不足道,就像海洋中的水滴。每当我想起它,我发现自己不断地思考生活应该是什么样子。为了过上充实的生活,我相信我们应该热爱阅读,因为书籍是我们最好的朋友,我们应该努力工作,因为正是勤奋让我们达到顶峰。我们所有人都应该充分利用我们有限的时间去探索未知。


本手册可作为NLP分析的参考和指南。任何对NLP感兴趣的人,研究人员、工程技术人员、教师、本科生或研究生,都可以从它身上学到一些迷人的东西。它还可以作为自学材料,或作为高校NLP和计算语言学学习者的教科书,或作为学习人工智能课程的教具。


在撰写这本手册时,我查阅了国内外学者的许多著作,尤其是D.Jurafsky和J.Martin的《言语和语言处理》的第一版和第二版。没有他们的作品,我的作品就不可能出版。在此,我向他们所有人表示诚挚的感谢。


这本手册涵盖了语言学、计算机科学、数学和其他一些领域的知识。我本人对手册中可能出现的错误负责。非常感谢所有的评论和批评。


冯志伟

2020年2月于北京




课程推荐




语言学人|罗仁地:汉藏语研究的领航人

2023-10-02

博士招生|北京大学对外汉语教育学院2024年博士招生(语言学+教育学)

2023-10-01

学术会议|“字理相通,文明交融”国际学术会议

2023-10-02

刊讯|CSSCI 来源集刊《汉语史与汉藏语研究》2022年第1-2期

2023-10-02

学术会议|脑认知视角下的语言与习得研究

2023-10-01

刊讯|SSCI 期刊《心理语言学研究》2023年第1-3期

2023-10-01

好书推荐|《文本挖掘概论:研究设计、数据收集与分析》(留言赠书)

2023-09-29

高引论文|国内外“构式”研究 TOP1-100

2023-09-25

好书推荐|《TPRS中文教学手册》(留言赠书)

2023-09-24

招  聘|上海交通大学人文学院2023年教师招聘(语言学)

2023-09-24


欢迎加入

“语言学心得交流分享群”“语言学考博/考研/保研交流群”
请添加“心得君”入群务必备注“学校+研究方向/专业”

今日小编:宋村村

审    核:心得小蔓

转载&合作请联系

"心得君"

微信:xindejun_yyxxd

点击“阅读原文”可跳转官网

继续滑动看下一个

前沿专著|冯志伟 《自然语言处理的形式分析手册》

六万学者关注了→ 语言学心得
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存