查看原文
其他

杜金榜:语篇信息挖掘研究

杜金榜教授 语言科学 2022-07-15

面对光怪陆离的事物,人们能够解读的信息无不跟语言一脉相连。即使对全然陌生的信息,人们也总是尝试诉诸语言予以分析、解释,处理信息也无不采用语言予以编码、传递、解码、使用。直接从语言入手研究信息,以语言为纲而处理信息,应是最佳路径。

在科学技术高度发达的计算机时代,信息处理是社会机构和个人的重要日常事务之一。在各种类型的信息中,语言信息居于核心地位,因为无论何种类型的信息,只要经过人类处理,或认知、表述,或传递、接收,必然涉及语言,必然经历由普通信息转化为语言信息的过程。语言信息可能是完整、系统的,也可能是支离破碎的。在正常交际中,人们所处理的语言信息应该是相对完整的,必须有效服务于交际目的,帮助人们完成交际任务。因此,只有从系统化和交际的角度看待和处理语言信息,语言信息的作用才能得到最大限度的发挥,语言信息研究才具有实际意义。

有关语言具体特点的富有成效的语言学研究为系统地看待交际中的语言信息打下了良好基础,同时也为深入分析语言信息提供了丰富的路径,其中,和交际中的语言信息关系相当密切的语言学研究领域是语篇分析。作为语言交际的完整单位,语篇承载内容,同时也将人们的语言交际活动本身与其所处的外部世界连接,有效提供了交际所需的语境,因此语篇分析逐渐引起研究者的重视。

但目前语篇分析领域内有关信息的研究尚十分薄弱。归结起来大致有三个原因:①业界对此尚未予以足够重视;②语篇与信息的结合分析是一个具有挑战性的课题,难以取得快速进展;③受自然语言处理等领域技术瓶颈的制约,语篇信息处理技术尚未取得突破。不过这些困难并没有阻挡研究者的步伐,自2007年语篇树状信息结构模式(杜金榜,2007)提出后,多个有关理论模式的研究成果相继发表(陈金诗,2011;赵军峰,2011;徐优平,2013;葛云锋,2013),直至《法律语篇信息研究》(杜金榜,2015a)出版,专门从语篇层面研究信息的语篇信息理论(Discourse Information Theory,DIT)已经成型,并已应用于法律语言学研究中(张少敏,2015;孙波,2016;郭亭亭,2017;张鲁平,2017;刘娟,2018;乐思伟,2021;Wa n g,2021;Huai,2021)。

在人类交际中,语篇是结构完备的语言单位,能够表达完整意思,帮助人们完成既定的交际任务。根据语篇信息理论,信息单位是语篇信息中最小的完整意义单位,是语篇信息的基本建筑砌块。基于信息单位进行语篇信息分析,人们能够解读语篇信息的宏观结构;基于信息单位的构成成分进行分析,人们能够解析语篇信息的微观结构。鉴于语篇信息在各种类型的信息中处于核心地位,如果人们用语篇信息统领其他各类信息,以一持万,就能有效将各种信息整合为一个井然有序的系统,方便处理和调用。

语篇信息理论的提出和建设开辟了语篇分析的新路径,也为语篇分析与新技术的结合拓展了广阔的空间。该理论将语篇信息定位在命题,使抽象的语篇信息具体化为可以计量的单位,使采用计算机进行信息的高效处理成为可能。在此基础上,语篇信息的自动化处理逐渐进入研究者的视野,成为法律语言学研究的一个重要课题。

本书基于语篇信息理论,以法律语篇分析为基础,描述语篇信息挖掘过程,在理论层面构建信息挖掘模式,并以信息挖掘模式的应用为目标,将语篇信息分析与计算机技术相结合,展示语篇信息挖掘的相关技术、手段、工具和基本操作步骤。本书为法律语言研究人员和信息处理技术人员提供语篇信息分析和技术实现的方法,同时推进语篇信息理论的实际应用。

本书以语篇分析为基础,概括语篇信息特点,构建信息自动挖掘理论模式,阐释信息自动挖掘模式的基本功能,并结合计算机、数据库、语料库、互联网等技术,揭示信息挖掘模式的应用潜能,为信息自动处理进行一种新的尝试,探索一条新的路径。语篇信息挖掘技术可用于处理不同领域的语言材料,但限于篇幅,本书主要借助法律语言材料进行分析、论证,展示语篇信息挖掘的方法。



本文摘自杜金榜著《语篇信息挖掘研究》,科学出版社出版。

             

 

作者: 杜金榜   著

书号:9787030717757

定价:98元(平)

出版社:科学出版社


作者简介

杜金榜:教授,研究兴趣涉及法律翻译、(多模态)语篇分析、语言信息自动处理、语料库建设、电脑化语言测试等。主持国家社科项目、省部级项目等多项。


READING本书目录



  • 前言

  • 第一章 导论 1
    1.1 信息、语言信息和语篇信息 1
    1.2 语篇信息分析 4
    1.3 语篇信息挖掘 9
    1.4 本书章节安排 14
    第二章 语篇信息挖掘研究的基础 16
    2.1 语篇信息理论 16
    2.1.1 基本概念 16
    2.1.2 主要理论模式 20
    2.1.3 基本观点 21
    2.1.4 分析过程和工具 23
    2.1.5 发展及应用前景 24
    2.2 其他语言学理论 25
    2.2.1 修辞结构理论 26
    2.2.2 体裁分析理论 28
    2.2.3 系统功能语言学理论 29
    2.3 自然语言处理 30
    2.3.1 现状 30
    2.3.2 分析技术 32
    2.3.3 机器学习 34
    2.3.4 主要难题 36
    2.4 数据挖掘 37
    2.4.1 数据挖掘与信息挖掘 37
    2.4.2 数据挖掘方法与信息挖掘方法 38
    2.4.3 数据挖掘技术的特点 38
    2.4.4 数据挖掘技术与语料库 39
    2.4.5 数据挖掘技术的信息视角 40
    2.4.6 数据挖掘技术在信息挖掘中的应用 40
    2.5 网络搜索 41
    2.5.1 网络搜索的基本原理及局限性 41
    2.5.2 网络搜索的智能化 42
    2.5.3 搜索引擎与数据采集器 43
    第三章 语篇信息挖掘的技术条件 44
    3.1 概述 44
    3.2 语料库 47
    3.2.1 语料库概述 47
    3.2.2 语料库功能 48
    3.2.3 语料库技术基础 49
    3.2.4 信息型语料库 51
    3.3 数据库 54
    3.3.1 数据库种类 54
    3.3.2 数据库的技术优势 56
    3.3.3 数据库技术的新发展 57
    3.4 互联网 58
    3.4.1 互联网资源 58
    3.4.2 互联网技术基础 61
    3.4.3 互联网的技术共享 68
    3.4.4 互联网信息处理的障碍 68
    3.5 搜索引擎 69
    3.5.1 搜索引擎的种类 69
    3.5.2 搜索引擎的主要功能 70
    3.5.3 搜索引擎的局限性 71
    3.5.4 搜索引擎的发展方向 72
    3.5.5 搜索引擎为信息挖掘提供的技术基础 73
    第四章 语篇信息分析过程 75
    4.1 概述 75
    4.2 分析设计 76
    4.3 宏观信息结构 77
    4.3.1 树型结构模式 78
    4.3.2 树干结构模式 81
    4.4 信息流动调控 84
    4.4.1 调控者模式 85
    4.4.2 调控方式模式 87
    4.5 信息组合 89
    4.5.1 主观+客观+说明信息模式 90
    4.5.2 信息配置与变换模式 92
    4.6 微观信息结构 95
    4.6.1 微观信息结构模式 95
    4.6.2 微观信息配置模式 96
    4.7 信息功能 96
    4.7.1 交际指向模式 97
    4.7.2 功能配置模式 98
    4.8 基本信息模式总结 99
    第五章 以信息挖掘为指向的多角度研究 101
    5.1 概述 101
    5.2 体裁分析 103
    5.3 语用分析 108
    5.4 认知分析 110
    5.5 调查研究 120
    5.6 实验研究 125
    5.6.1 文本鉴别实验 126
    5.6.2 语音识别实验 128
    5.6.3 语言心理实验 131
    第六章 信息挖掘模式的核心构成 132
    6.1 规则的归纳 132
    6.1.1 语篇分类规则 133
    6.1.2 宏观结构规则 134
    6.1.3 微观结构规则 136
    6.1.4 语义分析规则 140
    6.1.5 语篇语言分析规则 141
    6.2 规则的组织和运行 143
    6.2.1 规则运用举例 144
    6.2.2 规则库 147
    6.2.3 规则库结构 149
    6.2.4 其他相关机制 150
    6.3 经验主义方法在信息挖掘中的应用 151
    6.3.1 规则控制中的机器学习 152
    6.3.2 信息挖掘过程中的机器学习 152
    6.3.3 粗糙集算法应用举例 153
    第七章 信息挖掘模式的架构 156
    7.1 信息模式识别 156
    7.1.1 信息模式的类别 157
    7.1.2 信息模式的用途 158
    7.1.3 信息模式识别的基本条件 159
    7.1.4 信息模式识别技术 160
    7.1.5 信息模式识别过程 162
    7.2 信息模式预测 164
    7.2.1 语篇体裁线索 165
    7.2.2 核心信息线索 166
    7.2.3 关键概念线索 167
    7.2.4 同种类语篇的共性线索 168
    7.2.5 信息模式预测的步骤 169
    7.3 信息模式生成 170
    7.3.1 信息模式生成的基本条件 171
    7.3.2 信息模式生成机制 172
    7.3.3 信息模式的基本指标及其优化 174
    7.4 语篇类别分析 176
    7.4.1 语篇类别与分析 176
    7.4.2 语篇共性分析 178
    7.4.3 语篇差别分析 179
    7.4.4 语篇单独分析 180
    7.4.5 语篇大样本分析 181
    第八章 信息挖掘技术及其实际应用 183
    8.1 语篇信息提取 183
    8.1.1 信息提取及使用 184
    8.1.2 普通信息检索 185
    8.1.3 语篇信息检索 186
    8.1.4 多模态信息处理 188
    8.1.5 信息提取的相关问题 190
    8.2 舆论走向预测 191
    8.2.1 舆论走向 191
    8.2.2 舆论走向的语篇信息分析方法 193
    8.2.3 舆论走向预测的步骤 194
    8.2.4 未来发展 198
    8.3 网络信息挖掘 199
    8.3.1 应用空间 200
    8.3.2 数据挖掘 201
    8.3.3 数据与信息 202
    8.3.4 信息挖掘过程 203
    8.3.5 技术要求和信息挖掘原则 205
    8.4 信息平台建设 206
    8.4.1 平台的基本功能 206
    8.4.2 主要模块 211
    8.4.3 平台的基本技术要求 212
    8.5 信息挖掘技术的服务对象 213
    第九章 结束语 217
    9.1 概述 217
    9.1.1 语篇信息挖掘研究的背景、任务、思路和方法 217
    9.1.2 语篇信息挖掘的相关技术和信息库工具 219
    9.1.3 未来的研究 220
    9.2 主要观点归纳 221
    9.3 解决的主要问题 224
    9.4 未来发展 229
    参考文献 230

长按二维码

即刻购书哦

科学出版社




1.相关阅读

跨语言视角下的汉语假设句研究
认知语言学的研究方法
官群:具身语言的理论基础
语言文学研究成果速递
语言类型学视域下的领属范畴研究
非习语程式语与学术写作语言产出研究
基于语料库的汉英翻译语体研究
汉语广义遭受结构研究
起始年龄和语言学能与二语学习成效的关系研究

2.学术讲座

外语非通用语系列讲座

厦门大学“语言学应用研究”暑期学校

北京师范大学外文学院系列讲座

心理语言学线上论坛 |  Xin Wang博士讲座

湖北工业大学外国语学院系列讲座

6月22—28日语言文学讲座/会议/论坛(第103期)

国社科中华学术外译项目申报的要点、重点和关键点


3.学术会议
第三届华中大语言论坛
中国英汉语比较研究会教育语言学专业委员会第十三届年会
第二届当代语言学新视野国际研讨会
第四届中国社会语言学高端(国际)论坛
第十三届中国社会语言学国际学术研讨会
第六届中国心理语言学国际研讨会
首届南疆语言生活和语言资源高端论坛
第六届中国语用学专题论坛
第十九届国际城市语言学会年会
中国语言学话语体系建设与国际传播学术研讨会
“中国语言学研究的新视野”学术论坛
第五届功能语言学融合、创新与发展高端论坛

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存