查看原文
其他

Top金融,经济与会计期刊中的文本分析, 一项长达2万字的综述性调查

计量经济圈 计量经济圈 2022-08-29

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

1.文本分析方法在政策评估研究中的应用, 从描述性推论向因果推断的最新发展,2.文本分析的步骤, 工具, 途径和可视化如何做?3.文本大数据分析在经济学和金融学中的应用, 最全文献综述,4.文本函数和正则表达式, 文本分析事无巨细
正文
关于下方文字内容,作者:周宁哲, 武汉大学经济与管理学院,通信邮箱:inze_zhou@foxmail.com
LOUGHRAN, T. and MCDONALD, B. (2016), Textual Analysis in Accounting and Finance: A Survey. Journal of Accounting Research, 54: 1187-1230.
Relative to quantitative methods traditionally used in accounting and finance, textual analysis is substantially less precise. Thus, understanding the art is of equal importance to understanding the science. In this survey, we describe the nuances of the method and, as users of textual analysis, some of the tripwires in implementation. We also review the contemporary textual analysis literature and highlight areas of future research.

会计与金融中的文本分析:一项综述性调查

目录

1  引言

文本分析在多种学科中均有存在,其分析模式可谓由来已久。早在1300s, Dominican Order的修士就已为《圣经》译本提供短语索引表;1901年,T.C. Mendenhall使用文本分析思想研究一些归于莎士比亚的作品是否可能是培根所写;在世界大战期间,这种方法被越来越多地用于政治演讲;上世纪六十年代,随着Mosteller(1964)对“Federalist Papers”作者身份的研究,文本分析法越来越受欢迎;过去几十年间,华尔街日报(WSJ)大型注释语料库的发布进一步使得统计解析的准确性大幅提高。
如今,这种技术的应用已经渗透到大多数学科。在会计和金融领域,新闻文章、收益电话会议、证券交易委员会文件和社交媒体的文本为应用该技术提供了充足的素材。
我们能否从公司披露的信息中挖掘情绪、分析背景以探求其与未来估值间的联系?我们能否通过计算分析来“阅读”出新闻文章和商务交易中所含信息?我们能否通过实时监测各大平台推文以获得信息优势?人为编写的文本是否提供了预测破产的另一个角度?在管理层的财报电话会议中,是否能通过计算机识别出分析师难以观测的微小细节?又或者说,我们是否可以通过分析文本来度测文本中信息的数量和质量,以获得非预期性启示?等等这些都是文本分析技术可能会回答的有趣问题。
文本分析在会计和金融领域实为一种新兴概念,关于其归属归类尚无定论,其最常被归入目标短语、情感分析、主题建模或文档相似度的测量等课题。也有部分学者关注其可读性方面(即读者破译预期信息的能力)。
继Frazier(1984)、Antweiler(2004)、Das(2007)、Tetlock(2007)和Li(2008)的开创性论文之后,会计和金融领域研究者开始利用量化数据衡量文本信息对股票估值的影响。
其他论文业已总结文本分析领域新兴文献:
Li(2010a)在其文献综述性调研中,讲述了早期基于人工的文本分析实例,并按专题领域讨论现代文献,同时对潜在研究课题加以预测。他的结论与本文主旨之一相呼应:文本研究需要减少对计算语言学技术方法的直接借用,而更多地以“与经济理论紧密相连(closely tied to economic theories)”为动力。
Kearney(2014)则进行了一项以“文本情感(textual sentiment)”为核心的综述性调研,他们提供2013年之前发表的大多数与文本情感相关的论文的参考资料。
Das(2014)的专著,在回顾学术文献外,还为刚接触文本分析领域的研究者提供用户指南,包括一些基本代码片段。
在接下来的内容中,本文将会计、金融和经济领域中关于文本分析的文献在对具体分析方法的描述中展开,还将介绍各技术在方法论上的注意事项及缺陷。

2  信息内容、文档结构与可读性

计算语言学中有着用于评估文档集的丰富方法,而本文仅讨论迄今为止之于会计和金融领域文本分析影响重大的方法。

2.1  信息内容

文本分析(以及更普遍的定性分析)与定量分析最显著的区别就在于其不精确性。
在文本分析使用中,往往需要从一个字符集合中设法提取其所传递的信息。此时请注意,我们需要兼顾文本表达的直接信息(文本试图让人们明白的信息)和潜在信息(如电话会议上,经理人无意识使用的弱语气词:may、could、might等)。
许多潜在问题均可能导致文本分析的不精确,例如,对美国证券交易委员会(SEC)文件展开研究时,需注意1996-2005年间的电子文本在HTML格式的编制上不尽统一;更严重的是,文本中对结构锚点(structural anchors)的缺失趋势与公司规模和时段存在相关性,这可能会引起系统性测度偏误。此外,在更广义的定性(文本)分析中(如音频分析),设备收音、音频软件等硬件的差异都可能导致测度不准确。这些不精确测度有时会带来严重的后果。举一例:对词汇“best”,识别时将其赋予一种积极正面的情感倾向,而待识别文本是一份并未剔除企业名的文件,恰巧其中一家企业名为“Best Buy”,这对该公司的情感倾向分析带来的影响可想而知。
文本分析的不精确性使其使用过程中必须面对的一大特点。事实上,文本分析中的理想假设通常是基于数据的直接特征,而并不需要太多计量经济学技术。任何文本分析都期望尽可能识别出文本所含有的全部信息,这要求研究者在提取信息时,对类似“假设词(word)为最小独立单元”的识别方法可能造成的信息损失有一定认识;即使是在不使用这类假设而采用更复杂的分析方法时,同样也要注意方法上的不精确与识别效果间的平衡。
尽管对文本的识别转换(transformation)意义非凡,但大多数会计和金融领域的文本分析论文都只对其进行模糊描述,然后利用封装好的、结构不透明的软件包生成结果。在此,本文建议论文在附录(如期刊的线上附录)中提供解析过程的具体细节,以增强研究的可复现性。

2.2  可读性

在这一节中,本文将讨论信息的接收者能否准确领会(发送者所设计的)有目的性的信息。这个问题通常在“可读性 ”这一大标题下讨论。通常与其相关的概念是文本的组成(composition)和结构(structure)。尽管诸如图片、表格等非文本材料能够影响接受者(读者)理解信息,但文本“可读性”依然值得一探究竟。

2.2.1 关于可读性的已有研究

关于会计叙述可读性的研究由来已久。不幸的是,诸多早期工作因样本量过小或方法问题而失之于精准。
第一篇研究有意义的样本的年度报告可读性和公司业绩之间联系的论文是Li (2008)。这篇论文中,Li使用雾指数(Fog Index)和年度报告中的字数来衡量年度报告(即10-K表格)的可读性。雾指数由平均句子长度(以单词为单位)和复杂单词比(两个以上音节的单词百分比)构成,目的在于估计初读时理解文本所需的受教育年限。表达式如下:

据此,Li发现,报告收益较低的公司,其年度报告往往更难阅读。其逻辑或许在于业绩不佳的公司需要有更多的文字、更长的句子来向投资者充分解释他们的情况。此外,具有更好可读性的年报的企业通常会具有更高的盈余持续度。
继Li之后,其他研究者也将雾霾指数作为年度报告可读性的一个衡量标准:
Biddle(2009)发现,报告质量高的公司有着更高的资本投资效率。
Guay(2015)发现,年度报告可读性较差的公司往往会通过发布更多关于每股收益、销售和现金流的管理预测来缓解负面可读性效应。
Miller(2010)发现,在10-K申报日期前后,小规模投资者对可读性较差年报(代表的企业)的股票交易量明显减少。
Lawrence(2013)发现,年报的雾指数和字数都与散户投资者的持股量有关,个人投资者对年报中字数较少、可读性较好的企业投资相对较多。
Lundholm(2014)比较了美交所上市的外国企业与本土企业(美国企业)撰写的年报和盈利新闻稿,发现在美国交叉上市的外国公司制作的商业文件更具可读性。研究认为,总部设在国外的公司有更大的动力使其公开文件更具可读性(即降低雾指数值),以鼓励美国投资者对其公司进行投资。
Lehavy (2011)研究发现,更可读的年度报告,有更低的分析师离散度(analyst dispersion)和更高的盈利预测准确度(earnings forecast accuracy),他们发现,10-K的可读性与一只股票对应的分析师数量有关——雾指数值较高的公司有更多的分析师研究该股票,他们认为这与分析师为披露信息可读性较差的公司所付出的集体努力是一致的。
Franco(2015)利用三种不同可读性指数(Fog、Flesch和Flesch-Kincaid)所复合而成的可读性指标展开研究,发现在分析师报告日期周围的三天时间里,可读性更强的分析师报告与交易量明显增加存在关联。
Rennekamp(2012)开展实验调研,在保持文件长度和总信息量不变的情况下,改变可读性,发现可读性的提高与实验参与者对好消息和坏消息的反应强度有关。
Rennekamp(2012)则发现,更可读的信息披露可能会导致投资者对信息的过度反应,特别是那些最不成熟的投资者。
从这些文献来看,显然可读性作为评估财务文件的一个核心或辅助变量意义非凡。

2.2.2 可读性的定义与测度

商务写作背景下可读性的含义是研究者关注的核心问题之一。尽管Fog Index在(美国)基础教育教科书编订中有着悠久历史,但许多人对它在商业文件中的应用效果存疑。
Jones(1994)认为,对于可读性的衡量标准在多大程度上反映了实际的理解过程,尚未有共识。如果随机对句中单词重新排序,这句话将完全无法理解,但却有一个(与原句)相同的Fog指数值。
Loughran(2014)认为,当应用于商务文件时,雾指数是一个很不明确测度指标,他们认为,侧重于“由于写作风格而产生的理解或领悟”的可读性,不如侧重于“某类人发现某些阅读内容具有说服力和可理解性的程度(the degree to which a given class of people find certain reading matter compelling and comprehensible)”的更一般性的可读性合适。
Loughran发现,复杂词(超过两个音节)的百分比占了雾指数值的一半,而其百分比的增加将降低文本可读性。然而,商业文件频繁出现的“复杂词”是诸如财务、公司、运营、管理、雇员和客户等词,但这些词,显然很容易被投资者所理解。
Loughran建议使用EDGAR网站上10-K文件总大小的自然对数作为年报可读性的简单代理。10-K文件大小与企业股票回报波动率、分析师离散度和绝对收益存在显著关联,但对于一个特定企业来说,这一代理不能将公司业务的基本复杂性与年报的语言复杂性进行有效区分。
此外,他们强调可读性的概念必须在其应用的背景下具体分析。如,在传统意义上的可读性中,行业术语的使用通常被认为是一种负面的属性,但其研究表明,财务术语对可读性测量产生了积极的影响(年报撰写的可读性目的并非在于使低教育水平者也能阅读)。
Loughran(2014)也提出了商业交流的其他可读性衡量标准,如常用词(Common Words)、金融术语(Financial Terminology)等。在衡量通过年度报告向投资者有效传达价值相关的信息方面,这些其他指标的表现都优于雾指数。
显然,文本大小的对数也并不能称得上衡量10-K可读性的完美标准。一如前文所述,可读性衡量标准的使用必须考虑相关背景。总体而言,如果可读性测度只为在综合层面捕捉公司整体复杂性,那么诸如总文件大小的对数、常用词或词汇量等措施就是合理的代理。但,如果这个变量的意图是具体衡量读者吸收文件书面信息的能力,那么研究者必须仔细思考可读性的含义。
正如Leuz(2016)所认为的那样,(对可读性的合理定义)是困扰所有会计质量度量的一个难题。因此,也许把关注点放在“信息复杂性( information complexity)”而非可读性上,不失为一种更好的选择。

3  词包方法与文档词项矩阵

此板块重点关注能够通过计算从信息中提炼出意义的方法。
一些最广泛使用的方法通常假设一个词的顺序及其上下文并不重要,这一忽略词序的方法被称为 “词包(bag-of-words)”法。其中许多技术都是基于将一份文件折叠成一个由单词行和单词数列组成的文档-词项矩阵(term-document matrix)。
该方法进一步发展的关键问题在于:是否可以通过更深入地解析上下文意义来提取重要的增量信息。这本质上是一种信噪比的权衡,上下文的细微差别带来信号(有效信息),而伴随深度解析出现的不准确则是噪声。

3.1 目标短语

最简单但同时也最强大的文本分析方法之一,是基于一定假设,允许研究者仅针对几个特定的词或短语展开研究的方法。
由于存在歧义,与专注于几个具体的词或短语相比,大型词表可能更容易出错,Loughran(2009)的研究为此提供了证据。

3.2 词表

对目标词语分析的更进一步研究是汇编具有共同情感(如,积极、消极、不确定)的单词列表。有了这样的列表,研究人员可以计算与每个属性相关的词,并施以比较。当然,这种技术面临着同形词(homographs)(即具有不同含义但拼写相同的词)和上下文意的干扰。
在衡量一份金融文本的语气或情绪时,研究人员通常会计算与特定情绪词表相关的单词数占总词数之比。对于研究人员来说,整个过程的第一步是选择使用何种词表。
使用词表具有如下几个优点:
第一,避免研究人员的主观性;
第二,该方法可以通过计算机技术扩展到大型样本;
第三,公开词表使复刻其他研究者的分析更为直接。
在会计和金融文本分析中,广泛使用的词表有四:Henry (2008),Harvard’s GI,Diction,Loughran & McDonald (2011)

3.2.1  Henry(2008)词表

第一个专为金融文本创建的词表是Henry (2008)。该词表通过研究电信和计算机服务行业的收益新闻稿而创建,但一个明显弱点是其中的单词数量有限。举例而言,Henry词表中仅有85个负面词汇,而Harvard GI词表中则包含4100多个。商业交流中常见的负面词汇,如损失、亏损、不利、损害(loss, losses, adverse, and impairment)等,Henry词表中也都不存在。
Price(2012)使用Henry词表测度开交易股票的季度性收益电话会议的语气。研究发现,在三天和两个月的窗口期间中,电话会议问答部分有积极语气的公司,其股票回报率均出现明显提高。他们认为Henry词表比 Harvard IV-4词表更好地测度了收益电话会议的语气。
Doran(2012)使用Henry词表来关注房地产投资信托(Real Estate Investment Trusts)的收益电话会议。他们发现,即使在控制了收益异常( earnings surprise)后,电话会议的语气与电话会议期间的股票回报率也有显著关联。
Davis(2015)研究收益电话会议期间管理者的乐观情绪。他们使用Henry词表、Diction词表以及Loughran & McDonald词表来衡量正负面情绪。研究发现,使用Henry词表和Loughran & McDonald词表时,管理人的特定语气与未来的经营业绩呈正相关。而Diction词表显示语气与随后的资产回报率(ROA)无关。

3.2.2  Harvard GI词表

早先,在会计和金融领域,大多数研究人员使用Harvard GI和Diction词表,原因很简单,这些词表是最先出现的。
Tetlock(2007)将华尔街日报每日专栏“Abreast of the Market”的语气与股市水平联系起来。研究发现,每日专栏中新闻的悲观主义与随后较低的股票收益和较高的股票市场波动性有关。Tetlock提出,“Abreast of the Market”专栏代表了投资者的情绪。投资者的悲观情绪较高,会暂时降低道指(Dow Jones Industrial Average)水平。
继Tetlock(2007)之后,一些论文使用Harvard IV-4的正反面词汇表来测度报纸专栏的语气:
Tetlock(2008)研究了WSJ和Dow Jones News Service关于标普500指数公司的报道。研究发现,公司特定的新闻报道中负面词汇的频率越高,随后的收益越低。
Heston(2015)使用超过九十万篇Thomson-Reuters新闻文章,发现一篇提到特定公司的文章若具有正的净情绪度量(正面词频减去负面词频),会在发表后一到两天为该公司带来高回报。
Kothari(2009)研究了公司、分析师和新闻机构披露的内容。他们发现,披露的语气与股票收益波动和分析师预测误差的分散性都有关系,公司、分析师或媒体披露的更多正面信息与较低的波动性和预测分散性有关。
Hanley(2010)使用1996-2005年间首次公开发行的大量样本,研究首次招股说明书(Form S-1)的语气如何影响定价和首日回报,研究发现,更多的正向净语气(正面百分比减去负面百分比)与较低的首日回报和较小的发行价格修订变化有关。他们认为,投资者会觉得经理人或承销商表现出的正面语气是关于发行风险性的可靠信号,因为错误陈述可能会面临法律惩罚。

3.2.3  Diction积极、消极情绪词表

与Harvard GI的各种单词类别一样,Diction词表有35个不同的子类别。为了创建一个积极的单词列表,研究人员通常将Diction中的赞美、满意和鼓舞(praise, satisfaction, and inspiration)结合起来。对于负面词汇,则集中指责、困难和否认(blame, hardship, and denial)到一起。在测量文件语气方面,相比比金融研究者,会计研究人员对Diction词表使用更多。
Davis(2012)(与 Piger和Sedor合作)发现,在收益新闻中表现出更多积极语气的公司与更高的后续ROA有关。他们提出,管理者在收益新闻发布中用来描述运营状况的语言提供了一个关于管理层对其未来业绩预期的信号。
Davis(2012)(与Tama-Sweet合作)发现10-K报表MD&A部分的语气与未来的投资回报率之间存在着显著的联系。MD&A语气越悲观,该公司随后的ROA就越低。
Rogers(2011)研究了Diction 所表现出的基调与股东诉讼(shareholder litigation)之间的关系。研究发现在收益报告中具有较高乐观情绪的公司与被股东起诉的概率明显较高有关。

3.2.4  Harvard词表和Diction词表的局限性

Li(2010b)及Loughran(2011)均对使用Harvard IV-4和Diction词表来衡量公司文件中的语气提出异议。
Li发现使用Harvard GI和Diction词表分析时,企业年报中MD&A部分的语气与未来业绩之间没有显著正相关。
Loughran发现将近75%的Harvard GI负面词汇在用于财务文件时其实并不带负面含义。他们认为,试图测量商业交流中的情感的研究人员应该使用专门为商业交流设计的词表来测量商业文本的情感倾向。
加之,Loughran(2015)在分析Diction词表中积极和消极词汇时,发现其同样具有对商务语境下积极与消极概念的错误划分。

3.2.5  LM词表

Loughran(2011)通过研究1994-2008年期间大量企业年报中的词汇使用情况,根据一个词在商业环境中最可能的解释而创造出六套词汇列表,即负面、正面、不确定、好诉讼、强势语气和弱势语气(negative, positive, uncertainty, litigious, strong modal, and weak modal)。Loughran & McDonald (LM)词表相当广泛,包括有354个正面词和2329个负面词。与上文提及的三大词表相比,LM词表有两大主要优势:
第一,它相对全面,一般不会缺少常见的负面或正面词汇。
第二,他是以财务领域研究为目的而创建,其内容基本为管理者在年报中实际使用的词汇。
在最近的(金融、会计等领域)研究中,LM词表已日渐成为主流。
Feldman(2010)使用LM的正面和负面词表研究发现,即使在控制了收益异常和应计项目后,当语气变化更积极时,股市回报率也更高。
在Tetlock(2007)早期工作的基础上,Dougal(2012)研究了华尔街日报“Abreast of the Market”专栏的作者,发现,与作者的悲观写作基调与第二天消极的市场回报直接相关。
Liu(2013)发现管理者对其声誉资本很敏感。他们报告说,媒体对拟议收购的关注程度(使用文章数量衡量)和相应新闻文章的语气(使用LM负面词汇的百分比)都与放弃交易的概率显著相关。
Garcia(2013)使用LM正面、负面词表来测度1905-2005年期间《纽约时报》两个财经专栏的语气,发现报纸反映出的情绪在预测未来股票收益方面起着作用,特别是在经济衰退时期。
Gurun(2012)利用LM负面词汇的频率来量化分析报纸文章的语气,发现,本地报纸在关于本地公司的文章中使用的负面词汇明显少于关于非本地公司的报道。
Solomon(2014)发现,只有在媒体对其持有的基金的报道时,投资者才会投资过去高回报的基金。作者还发现,对特定基金表露出更多积极语气的报纸文章与这些基金更高的季度资本流入量有关。
Chen(2014)发现,Seeking Alpha评论意见的语气与未来的股票收益,甚至随后的收益异常有关。
Solomon(2012)以公司新闻稿为重点,研究投资者关系(investor relation)公司在其客户媒体报道中的影响,发现相对于负面新闻,投资者关系公司加强了对正向新闻的媒体报道。
公司能否在宣布合并之前利用新闻稿战略性地提高其股票价格?Ahern(2014)发现,竞标者的公司新闻发布导致媒体报道增加、语气更加积极,收购时股票价格也略有上升。
Huang(2014)证明收益新闻发布的语气实际上误导了市场参与者,研究表明,在财报新闻稿中使用的异常正面语气(abnormal positive tone),与其后三年内的不良后续收益和现金流有显著联系。
经理人在电话会议中与分析师讨论时的声音内容和音调是否对公司的同期收益甚至未来业绩产生启示?Mayew(2012)发现即使控制了电话会议的语气,股市也会对经理人在电话会议问答部分的声音提示做出反应,经理人的积极情绪与较高的同期回报有关。
LM词表也被用来测度共同基金给股东的信函(Hillert(2014))、IPO招股说明书(Ferris(2013), Loughran(2013))和分析师报告(Twedt(2012))的语气。
Allee(2015)使用LM的正面和负面词表来测量电话会议的语气,并对LM词表进行微调:将“问题(question)”作为一个否定词删除;若后面衔接“上午”、“下午”、“白天”或“晚上”,则“好(good)”不被算入正面词;若“有效”出现在“收入”、“税收”或“比率”之前,则“效率(effective)”也不被计入。

3.2.6  齐夫定律

词语分类中,词语计数往往遵循幂律分布( power law distribution),这一现象经常被称为齐夫定律 (Zipf’s Law)。鉴于词数分布的幂律性质,某些词有可能对结果产生很大影响。
因此,使用词语分类的研究必须设法明确最常出现词语的比例,以确定错误分类是否在影响论文结果。虽然在某种程度上,这种判断是主观的,但至少这种方法可以避免明显的分类错误影响结果。

3.2.7  词权重

在大多数情况下,我们并不直接使用原始计数值,而是使用比例计数,但在某些情况下,我们可能还想根据一个词的不寻常程度来调整该词在分析中的权重。
Loughran(2011)考虑了文献中比较常见的术语加权方案之一,记为tf-idf(词语频率与文档频率之比)。将定义为文本集合中包含词汇t的文本数,N代表集合中的文本总数。那么逆文本频率(inverse document frequency)定义为下式:

Loughran(2011)发现,使用这种方法进行回归运算比使用简单比例有更好的拟合效果,虽然大多数文献都没有采用。
随着文本分析文献在会计和金融领域的发展,许多研究都依赖于其他学科中衍生的情感分类词典,Loughran(2011)认为这种应用可能产生不准确的结果。针对具体使用情境对词表加以调整、识别处理在字数上占主导地位的词语、更细致的考虑加权方式,均能够改善这一问题。

3.3 朴素贝叶斯方法

在使用监督机器学习进行单词分类的方法中,最受欢迎的是朴素贝叶斯(Naive Bayes)方法,其优势在于:
第一,它是分析文本的最古老、最成熟的方法之一;
第二,大型数据语料库可被纳入分析(不需要太多人工阅读、辨析);
第三,一旦确定了测度文本的规则,就不会有额外的主观性因素影响到对文本的分析。
朴素贝叶斯方法的主要缺陷在于难复刻性。由于其程序含有数量众多的各种未公布规则或过滤器(rules/filters)、,其他研究人员通常难以复刻其结果。
最早在金融领域使用朴素贝叶斯方法的是Antweiler(2004)。他们检查了Yahoo! Finance和Raging Bull上的150万条股票信息发布,发现,发布信息的数量与随后的股票收益波动性有关,且信息间分歧越大,随后交易量越高。
Das(2007)测度了24只高科技股票的留言板留言所表露的情绪,发现,其与股票市场水平、交易量和波动性有关。
Li(2010b)使用朴素贝叶斯方法研究企业年报中MD&A部分的前瞻性声明(forward-looking statements, FLS)的内容,发现,FLS的平均语气与随后的收益呈正相关。
Jegadeesh(2013)根据市场对年报文件的反应来确定词汇权重,避免研究人员主观地决定将哪些词纳入分析。他们发现,积极的语气与市场对年报申报的反应有关。
Purda(2015)对企业年报进行数据挖掘,以期找到最能预测欺诈( fraud)的词语。他们的方法在很大程度上依赖于公司自身的偏离程度,突出了将公司作为其自身控制组的作用。
Huang(2014)使用朴素贝叶斯方法将分析师报告中的2700多万句话分为三类:正面、负面和中性(positive, negative, and neutral)。分析师报告中几句超出常规的积极话语(additional positive sentences)将带来报告发表后五年公司的收益增长增长。
Buehlmaier(2014)对公司收到财务约束的概率进行建模,发现,具有更多财务约束的公司具有更高的股票回报,流动性最强、规模最大的公司受财务约束风险影响最大。
Buehlmaier(2013)测度了有关美国并购公告报纸文章的情绪,发现,新闻媒体报道中包含的情绪信息将缓慢地消散在股票市场估值中。
朴素贝叶斯方法的性质使得研究者有必要公开驱动经验分类的关键词语。这将使他研究人员能够检验结果准确性。同时,朴素贝叶斯方法也属识别和加权情感词的一种手段,但其与前文提过的tf-idf等方法谁优谁劣,尚未可知。

3.4 文本中的主旨分析

在“词包”领域中,还有一些技术可以用来对文件中的共同主题进行识别与分类。其中最早的方法之一是潜在语义分析(latent semantic analysis, LSA),其使用奇异值分解减少文档-词项矩阵维度以实现分析目的。
据我们所知,LSA由Boukus(2006)首次应用于商业领域,他们分析了联邦公开市场委员会(Federal Open Market Committee)的会议记录的信息内容。这种方法的优势在于可以避免与同义词和多义词相关的基于计数的方法的限制。
LSA业已有所发展变化,首先是扩展到基于潜在类模型的概率LSA(pLSA)(见Hofmann (2001)),然后是LDA(latent Dirichlet allocation)(见Blei(2003))。LDA是一个生成模型,使用贝叶斯模型,将文档视为潜在主题的混合物(见Crossno(2011))。LSA和LDA均在应用于大型文档时效果更佳。
Huang(2015)将应用这种方法到会计和金融领域,研究电话会议内容和随后的分析师报告之间的主题差异,分离出分析师报告的附加信息。其研究范式足够作为关于一个新方法如何引入的实际案例。

4  文本叙述

尽管选择词表很重要,但任何文本的基本特征都是基于词序的。进一步解析文意,将面临,从词的上下文和语法结构中获得的意义增值与计算推断方式具有的不精确的代价间的权衡。
为了更好地理解从符号集合到信息知识的发展历程,我们建议采用以下分析层次:词法、搭配、句法、语义、语用和语篇(lexical, collocation, syntactic, semantic, pragmatic, and discourse)。
分析文本的第一步,即词法,是将文件的字符解析为词块(chunks of words)或有意义的象征(tokens);
下一步是搭配,对于一些词来说,它们的大部分意义来自于它们与其他词的搭配。“going”和“concern ”的组合(bigram)即是一例,如果把它扩展到n-grams,当这个组合前有“substantial”、“doubt”、“ability”和“continue”时,这个短语即是一种会计学用语;
如果能够将一组词的集合识别为一个语句,那么使用句法分析,就可以通过句子的语法结构获得额外信息;
进而,语义学试图在句子的上下文中推断出信息增益;
语用学则从紧接在句子前后的信息、乃至外部知识提供的语境中发现意义;
最后,语篇试图从文本集合中获得意义。
到目前为止,在会计和金融领域的应用主要处于上述解释序列的初始阶段。
Allee(2015)使用“对叙事结构的一种解析性测量(a parsimonious measure of narrative structure)”方法,通过测量语气分散度超越了传统词包分析法。高语气分散度表明好的或坏的消息是普遍存在的,而低语气分散度则表明信息指向比较单一。他们发现语气分散度与公司业绩、财务报告选择和管理公司感知的动机有关。
Chen(2013)针对财务报表附注中反映的收益应计部分,将以词根“estimate”及其变体为中心的语言关系分为三类,然后使用斯坦福大学的开源统计分析器(见Marneffe(2006))来解构句子的语法结构。他们发现需要更多估计(estimation)的应计项目预测未来收益的效果较差。
根据相邻的词(即搭配)挖掘文本含义,是词包法之外最常见的扩展之一。例如,N-gram模型使用马尔可夫链来实现这一过程。总体而言,这一领域的大部分工作都集中在开发类型估计模型的有效方法上。
Taddy(2015)提出了一种基于文档语言模型一般框架的方法,在这种方法中,文档首先被转化为一个基于特定训练目标的向量空间。Taddy提出,复合似然(composite likelihoods)和贝叶斯规则(Bayes rule)可以使用本地语言模型(local language models)来创建文档分类器。如果一个句子的复合似然是根据观测每个单词的概率聚合而成,在假定句子独立的情况下,句子的概率可以聚合为观测文本的概率。

5  文本相似性测度

识别文档相似性的基础是识别语义相似性,这对人类来说并不困难,但在计算处理上却是一个挑战。
Brown(2011)研究了年报中MD&A披露的变化;
Hoberg(2015)试图通过年报中的产品描述以创建基于文本的行业分类;
Lang(2015)则比较了年报相似性。
这些论文使用一种被称为余弦相似度(cosine similarity)的方法。给定两个向量形式文件d1和d2(记为x和y),其这个i=1到N个字的余弦相似性被定义为下式:

分子中的点积提供了一个简单的相似性测量,而分母则以矢量的欧几里得长度为尺度将其归一化。对于总是非负值的字数,测量值的范围是0到1。
Egozi(2011)提出了一种余弦相似度和LSA的组合,它使用维基百科作为建立单词分类的背景的手段。尽管不知道这种技术在会计和金融领域的应用效果如何,但GAAP、GAAS、IFRS等来源中的会计准则体系应该能为计算确定词义和测量文档相似性提供有用帮助。

6  文本分析实现中的细节讨论

6.1 何为“单词”

几乎所有的文本方法都是以识别单词(word)为基础,因此文本分析首先需要将每个文档解析为一个标记向量(a vector of tokens),其标记是在单词边界之间出现的字符集合(如空格、标点、回车等)。进一步,研究者需要明确其中哪些字符集被认为是词(word)。
网络上现有单词表数量众多,具体到本文所属领域,Loughran(2011)在“2of12inf” 词典的基础上开发了一个用于商业相关文本分析的词表。Loughran通过对SEC的证券信息电子化披露系统(EDGAR)中所有年报和季报中的所有标记进行列表来,将频率在100以上且能被识别为词的标记都被添加到词表中。该词表由其作者隔年更新。

6.2 何为“句子”

在许多关注可读性的研究中,研究者被要求计算每句话的平均字数。需要注意的是,财务文本和其他文本(如小说)间存在固有差异。
研究中,一个典型做法是首先删除缩写、标题和数字,然后识别句子的起止(包括使用人为定义的截断指标,如每句不超过60词)。尽管如此,研究人员仍然可能会错误地识别句子起止。
Bushee(2015)研究人为Li(2008)用来计算每句字数的程序 “被数字和缩略语中使用的标点符号所干扰”, 因此,他们人为,Li(2008)和许多其他研究者所使用的雾指数值可能偏低。
值得注意,解析过程中看似简单的步骤可能会很复杂,研究者必须仔细确定所采取的步骤,以避免相关偏误。但总体而言,通用的句子解析算法在财务文本上的效果并不好。

6.3 为什么“积极语气”及“净语气”分析存在问题

目前,许多文本分析都集中在积极和消极信息的区分上。除了积极/消极二分法,一些论文还考虑构建二者净语气值(net tone)。
在我们的研究中,管理层很少会否定一个负面词来表达一种正面的声明;但对于正面词,除其本意外,同样常被用来构建负面的声明(比如,一个心思缜密的经理人解雇雇员时可能会大量使用积极正面的措辞)。
值得注意的是,正确识别正面词汇的负面用法远比识别负面词汇本身复杂。例如,美国证券交易委员会的Antonia Chion曾在新闻稿中说:“A ‘check the box’ compliance approach of form over substance is not enough to comply with the FCPA”。其中否定词not出现在compliance(遵守)一词之后的七个词位。简单地统计compliance等正面词汇的数量显然会误解曲解句意。
在此基础上,尽管有些论文发现了与积极语气相关的统计学显著的结论,但Tetlock(2007)和Loughran(2011)均发现来自积极语气的信息增量并不多,这也应和了此处所指出的问题。

6.4 强制性披露文本中的分析目标问题

会计和金融领域的文本分析文献中,对SEC企业年报(及其变体)的关注颇多,而对其展开的研究一般可能会集中在年报的一个特定部分。例如,管理讨论与分析(MD&A)部分。
乍一看,这似乎很简单,找到标有“项目7. 管理讨论和分析”的内容。然后,再找到标题“项目8”,两者之间的所有内容即是分析内容。然而,现实操作中可能存在一些问题,此处仅举数例:
第一,在2002年之前,企业年报的结构化程度可能不佳;
第二,有些时候,一个特定部分可能被错误标记,如,“项目7”有时会被列为“项目6”;
第三,MD&A之标题在英文拼写上可能存在差异;
第四,MD&A部分被放入附件中而不在年报主体中。
此外,如果MD&A部分的讨论不那么充分,其指向其他部分的脚注可能会提供额外信息。
总而言之,文本分割在实际操作中并没有想象中的清晰明了。

6.5 水平与差异

在某种程度上,如果可获得一家企业特定文本的时间序列,可以使用差分法(衡量差异)减少错误分类问题。
那么,研究人员应该研究语气水平还是语气差异?一般而言,研究差异将意味着对语气进行逐年的比较,而不是与横截面进行比较。只能说,使用这些文件的经济逻辑应该决定了实验设计的结构。
现有大多数文本分析集中在对语气水平的研究上,但也有一些研究差异。Brown(2011)分析了某一公司年报中MD&A部分的差异,发现,在MD&A部分有更多变化的公司会有更大的经济变化,但其趋势在过去十年中有所下降。

6.6 实例一则

6.6.1  编程语言

编程语言的选择意义重大,在传统上,Perl曾是分析文本的首选编程语言,但在过去几年里,Python已成为普通编程任务的一个通用语言。其他主要的统计软件系统,如Stata、SAS、SPSS和R,也都可以作为分析文本的平台,只要其包含有正则表达式(即regex)处理程序。
编程语言中带有的统计软件包可能使用户在没有完全理解其应用的必要假设的情况下能够使用复杂的统计方法,这可能为结果分析带来风险(如Perl中的Fathom包,在财务领域中,其存在准确性问题)。而,若使每个研究者独立开发代码,似乎并不高效、可复刻,而且同样容易出错。
本文作者正在建立一个具有文本分析中使用的通用例程的资源库(Notre Dame Software Repository for Accounting and Finance,网址:http://sraf.nd.edu)。如果建成,这个资源库将提供一个系统化开源软件集,使会计和金融的具体应用标准化。

6.6.2  简单范例

本文在此提供一个文本分析中最直接的示例,假设在企业年报(包括其变体)中使用“non-GAAP(非公认会计原则)”这一短语的公司可能会拥有更高的后续股票回报波动率(subsequent stock return volatility)。与Loughran(2014)一样,此处使用申报后交易日的市场模型均方根作为信息环境不确定性的度量。
此处假设的逻辑在于,当non-GAAP的结果对公司前景描绘得比较美好时,管理者会将投资者的注意力引向non-GAAP所得出的数字。例如,如果公司有沉重的债务负担,管理者可能会强调non-GAAP EBITDA的积极趋势,从而掩盖公司的现金流问题。这种刻意规避GAAP的讨论可能使投资者在估值上出现问题,进而增加公司的股票回报波动率。
接下来将所需要分析的年报文件下载到本地。SEC提供的与10-K相关的各种文件中,“.txt”版本的文件包含所有信息。为便于分析,研究人员需排除所有无关属性,如HTML、XBRL和嵌入式二进制文件(图形、pdf文件和Excel文件等)。当文件中的这些成分被清除后,本文使用之前讨论过的字典来统计词频。
在1994至2011年间的企业年报中,仅有7.7%的文件出现non-GAAP之表述。

回归结果见上表,其中申报后的超额收益波动率(post-filing date excess return volatility)是因变量。第一列只使用控制变量;第二列加入虚拟变量,其表示non-GAAP至少出现一次。虚拟变量系数为0.054,t统计量为2.64。这表明,non-GAAP一词的使用与申报后股票收益波动正向相关。
值得注意的是,在此研究中,我们可能并不清楚是在测度non-GAAP的使用效果,还是在测度促使公司突出non-GAAP数字的行业冲击。

7  未来研究领域

7.1 企业层面复杂性测度

将公司层面的复杂性与文本可读性分开是有问题的,一个结构复杂的公司可能由于其商业运作的性质而产生更难以阅读的商业文件。对于这一点,此前文献用以控制公司复杂性的手法大都比较粗糙。
You(2009)使用年报字数的中位数将公司分为低复杂度和高复杂度;Huang(2015)、Loughran(2014)研究者使用业务部门的数量或基于部门收入的赫芬达尔指数来捕捉公司复杂性;但这些做法都各有其缺陷。
此外,可读性在商业文件中的含义也不明确。而本文建议,未来的研究应更多关注信息复杂性而非可读性概念,因为可读性在商业文本中难以定义且效果有限。

7.2 加权方式结构化

正如我们在前面的章节中所讨论的,词语加权有可能增加文本方法的力量,但是,由于缺乏理论动机或独立验证,在选择实证规范时往往标准各异。希望未来的研究能够提供一个结构化的分析,为在文本应用中指定一个特定的加权方案提供一个客观的基础。

7.3 分析方法创新

如前所述,会计和金融领域的许多文献都使用了词包法来衡量文档的情感。在商业应用的背景下,如果采用深度学习的方法,是否可以捕获商业文本中更深层次的意义和背景?
更复杂的方法可能增加更多噪音,在文献中引入新技术的研究人员必须承担起仔细检测该方法的责任,考虑其在具体应用中的效果。

7.4 词表问题

在商业文本分析中,一些潜在的词汇可能会影响(通用词表下的)情感测度。因此,针对具体领域进行透明化修改可能有所助益(如,LM词表、Allee(2015)修改的LM词表等)。
许多文本分析研究都集中在情绪分析的简单二分(积极、消极)上,而这种测度并不一定准确。系统性的词语分组(如,LM词表、Gentzkow(2010)创建的区分党派色彩的词表),可能会带来新的方向。
此外,解析社交媒体文本时,俚语、表情符号和讽刺的使用,以及不断变化的词汇,使得对语气的准确分类极为困难。而社交媒体却又是新兴信息的核心来源,有些渠道专注于商业活动。希望未来能够开发出捕捉这一非常嘈杂但丰富的数据来源中的信息的方法。

7.5 文本语言

当前,大部分文献都专注于英语语言的文本分析。而其他语言也有自己的优势和挑战。
Tsarfaty(2013)及Das(2012)研究过其他语言的文本,发现,德语的结构化程度比英语高得多,但也存在一词多义的问题;非构词法语言,如匈牙利语,其词序问题使得句法分析存在困难;法语的词形多样性使注释常常不充分;而中文和日文,将文件分块成词更为困难(因为词间没有空格)。
或许语言类型学家可以提供有用的见解,指明哪些方法最适合于哪些语言。

8  结语

本文回顾会计和金融领域的文本分析文献,讨论最常用的方法,并报告与这些方法相关的问题与困境。本文结果可总结为以下五点:
1)传统的可读性概念并不能很好地应用于商业文本分析中。最常见的衡量可读性的方法——雾霾指数,几乎是无效的。本文认为,如果换成在信息复杂性(包括文件复杂性和商业行为的复杂性)的框架下考察可读性,或许更有帮助。
2)Zipf定律表明极少数的单词往往会在频率计数中占主导地位。词语分布的这一属性使看似无辜的词语错误分类并不仅是给结果带来少量噪音,而会产生带来虚假结果的离群值。
3)避免在文本分析中出现大量实质性干扰的方法是仔细考虑一个程序、词表和统计方法在具体应用环境中工作效力。这或许需要,减少对其他学科背景下产生的词表和算法的使用(其已被证明在本领域有效的);减少使用“黑匣子”的程序。
4)研究时需注意方法的透明度。解析过程、词表分类依据等需有详细记录。最好不要单分析“正面语气”或“净语气”。
5)研究可复刻,本文作者正试图建立一个可运行其他研究者文本的软件库(见网址:http://sraf.nd.edu)。
总之,会计和金融领域的所有文本研究必须仔细考虑其结果的透明度和可复制性,方法越复杂,越要强调透明度。由于文本分析新方法不断涌入本行业,一些关于情绪、收益、管理选择和股票价格的核心结果或许需要重新评估。随着研究技术的发展精进,未来还有许多工作需要完成。

参考文献:

[1] AHERN, K., AND D. SOSYURA. “Who Writes the News? Corporate Press Releases During Merger Negotiations.” Journal of Finance 69 (2014): 241–91.
[2] ALLEE, K., AND M. DEANGELIS. “The Structure of Voluntary Disclosure Narratives: Evidence from Tone Dispersion.” Journal of Accounting Research 53 (2015): 241–74.
[3] ANTWEILER, W., AND M. FRANK. “Is All That Talk Just Noise? The Information Content of Internet Stock Message Boards.” Journal of Finance 59 (2004): 1259–94.
[4] BERELSON, B. Content Analysis in Communication Research. Glencoe, IL: The Free Press, 1952.
[5] BIDDLE, G.; G. HILARY; AND R. VERDI. “How Does Financial Reporting Quality Relate to Investment Efficiency?” Journal of Accounting and Economics 48 (2009): 112–31.
[6] BLEI, D.; A. NG; AND M. JORDAN. “Latent Dirichlet Allocation.” Journal of Machine Learning Research 3 (2003): 993–1022.
[7] BLOOMFIELD, R. “Discussion of Annual Report Readability, Current Earnings, and Earnings Persistence.” Journal of Accounting and Economics 45 (2008): 248–52.
[8] BODNARUK, A.; T. LOUGHRAN; AND B. MCDONALD. “Using 10-K Text to Gauge Financial Constraints.” Journal of Financial and Quantitative Analysis 50 (2015): 623–46.
[9] BONSALL, S. B.; A. J. LEONE; AND B. P. MILLER. “A Plain English Measure of Financial Reporting Readability.” Working paper, Ohio State University, 2015.
[10] BONSALL, S. B., AND B. P. MILLER. “The Impact of Narrative Disclosure Readability on Bond Ratings and Rating Agency Disagreement.” Working paper, Ohio State University, 2014.
[11] BOUKUS, E., AND J. ROSENBERG. “The Information Content of FOMC Minutes.” Working paper, Federal Reserve Bank of New York, 2006.
[12] BRATTEN, B.; C. A. GLEASON; S. LAROCQUE; AND L. F. MILLS. “Forecasting Tax Expense: New Evidence from Analysts.” Working paper, University of Notre Dame, 2014.
[13] BROWN, S., AND J. W. TUCKER. “Large-Sample Evidence on Firms’ Year-over-Year MD&A Modi-fications.” Journal of Accounting Research 49 (2011): 309–46.
[14] BUEHLMAIER, M., AND T. WHITED. “Looking for Risk in Words: A Narrative Approach to Measuring the Pricing Implications of Finance Constraints.” Working paper, University of Rochester, 2014.
[15] BUEHLMAIER, M., AND J. ZECHNER. “Slow-Moving Real Information in Merger Arbitrage.” Working paper, University of Hong Kong, 2013.
[16] BURKE, K. “The Rhetoric of Hitler’s ‘Battle’.” The Southern Review 5 (1939): 1–21.
[17] BUSHEE, B. J.; I. D. GOW; AND D. J. TAYLOR. “Linguistic Complexity in Firm Disclosures: Obfuscation or Information?” Working paper, University of Pennsylvania, 2015.
[18] THE CATHOLIC ENCYCLOPEDIA, Vol. 4, 1908. New York: Robert Appleton Company.
[19] CHEN, H.; P. DE; Y. HU; AND B. H. HWANG. “Wisdom of Crowds: The Value of Stock Opinions Transmitted Through Social Media.” Review of Financial Studies 27 (2014): 1367–403.
[20] CHEN, J. V., AND F. LI. “Estimating the Amount of Estimation in Accruals.” Working paper, University of Michigan, 2013.
[21] COVAL, J., AND T. SHUMWAY. “Is Sound Just Noise?” Journal of Finance 61 (2001): 1887–910.
[22] CROSSNO, P.; A. WILSON; T. SHEAD; AND D. DUNLAVY. “Topicview: Visually Comparing Topic Models of Text Collections.” Tools with Artificial Intelligence (ICTAI), 2011 23rd IEEE International Conference, Boca Raton, Florida, November 7–9, 2011: 936–43.
[23] DAS, S. R. “Text and Context: Language Analytics in Finance.” Foundations and Trends in Finance 8 (2014): 145–261.
[24] DAS, S., AND S. BANERJEE. “Pattern Recognition Approaches to Japanese Character Recognition.” Advances in Computer Science, Engineering and Applications 166 (2012): 83–92.
[25] DAS, S. R., AND M. Y. CHEN. “Yahoo! for Amazon: Sentiment Extraction from Small Talk on the Web.” Management Science 53 (2007): 1375–88.
[26] DAVIS, A. K.; W. GE; D. MATSUMOTO; AND J. L. ZHANG. “The Effect of Manager-Specific Optimism on the Tone of Earnings Conference Calls.” Review of Accounting Studies 20 (2015): 639–73.
[27] DAVIS, A. K.; J. M. PIGER; AND L. M. SEDOR. “Beyond the Numbers: Measuring the Information Content of Earnings Press Release Language.” Contemporary Accounting Research 29 (2012): 845–68.
[28] DAVIS, A. K., AND I. TAMA-SWEET. “Managers’ Use of Language Across Alternative Disclosure Outlets: Earnings Press Releases Versus MD&A.” Contemporary Accounting Research 29 (2012): 804–37.
[29] DE FRANCO, G.; O. HOPE; D. VYAS; AND Y. ZHOU. “Analyst Report Readability.” Contemporary Accounting Research 32 (2015): 76–104.
[30] DORAN, J. S.; D. R. PETERSON; AND S. M. PRICE. “Earnings Conference Call Content and Stock Price: The Case of REITs.” The Journal of Real Estate Finance and Economics 45 (2012): 402–34.
[31] DOUGAL, C.; J. ENGELBERG; D. GARCIA; AND C. A. PARSONS. “Journalists and the Stock Market.” Review of Financial Studies 25 (2012): 639–79.
[32] EGOZI, O.; S. MARKOVITCH; AND E. GABRILOVICH. “Concept-Based Information Retrieval Using Explicit Semantic Analysis.” ACM Transactions of Information Systems 29 (2011): 8–32.
[33] ERTUGRUL, M.; J. LEI; J. QIU; AND C. WAN. “Annual Report Readability, Tone Ambiguity, and the Cost of Borrowing.” Journal of Financial and Quantitative Analysis (2015): Forthcoming.
[34] FELDMAN, R.; S. GOVINDARAJ; J. LIVNAT; AND B. SEGAL. “Management’s Tone Change, Post Earnings Announcement Drift and Accruals.” Review of Accounting Studies 15 (2010): 915–53.
[35] FERRIS, S. P.; G. HAO; AND M. LIAO. “The Effect of Issuer Conservatism on IPO Pricing and Performance.” Review of Finance 17 (2013): 993–1027.
[36] FRAZIER, K. B.; R. W. INGRAM; AND B. M. TENNYSON. “A Methodology for the Analysis of Narrative Accounting Disclosures.” Journal of Accounting Research 22 (1984): 318–31.
[37] GARCIA, D. “Sentiment During Recessions.” Journal of Finance 68 (2013): 1267–300.
[38] GENTZKOW, M., AND J. M. SHAPIRO. “What Drives Media Slant? Evidence from U.S. Daily Newspapers.” Econometrica 78 (2010): 35–71.
[39] GUAY, W.; D. SAMUELS; AND D. TAYLOR. “Guiding Through the Fog: Financial Statement Complexity and Voluntary Disclosure.” Working paper, University of Pennsylvania, 2015.
[40] GURUN, U. G., AND A. W. BUTLER. “Don’t Believe the Hype: Local Media Slant, Local Advertising, and Firm Value.” Journal of Finance 67 (2012): 561–98.
[41] HANLEY, K. W., AND G. HOBERG. “The Information Content of IPO Prospectuses.” Review of Financial Studies 23 (2010): 2821–64.
[42] HENRY, E. “Are Investors Influenced by How Earnings Press Releases Are Written?” Journal of Business Communication 45 (2008): 363–407.
[43] HESTON, S. L., AND N. SINHA. “News Versus Sentiment: Predicting Stock Returns from News Stories.” Working paper, University of Maryland, 2015.
[44] HILLERT, A.; A. NIESSEN-RUENZI; AND S. RUENZI. “Mutual Fund Shareholder Letter Tone—Do Investors Listen?” Working paper, University of Mannheim, 2014.
[45] HOBERG, G., AND G. PHILLIPS. “Text-Based Network Industries and Endogenous Product Differentiation.” Journal of Political Economy (2015): Forthcoming.
[46] HOFMANN, T. “Unsupervised Learning by Probabilistic Latent Semantic Analysis.” Machine Learning 42 (2001): 177–96.
[47] HUANG, A.; R. LEHAVY; A. ZANG; AND R. ZHENG. “Analyst Information Discovery and Interpretation Roles: A Topic Modeling Approach.” Working paper, University of Michigan, 2015.
[48] HUANG, A.; A. ZANG; AND R. ZHENG. “Evidence on the Information Content of Text in Analyst Reports.” The Accounting Review 89 (2014): 2151–80.
[49] HUANG, X.; S. H. TEOH; AND Y. ZHANG. “Tone Management.” The Accounting Review 89 (2014): 1083–113.
[50] JEGADEESH, N., AND D. WU. “Word Power: A New Approach for Content Analysis.” Journal of Financial Economics 110 (2013): 712–29.
[51] JONES, M. J., AND P. A. SHOEMAKER. “Accounting Narratives: A Review of Empirical Studies of Content and Readability.” Journal of Accounting Literature 13 (1994): 142–84.
[52] KEARNEY, C., AND S. LIU. “Textual Sentiment in Finance: A Survey of Methods and Models.” International Review of Financial Analysis 33 (2014): 171–85.
[53] KIM, Y. H. “Self Attribution Bias of the CEO: Evidence from CEO Interviews on CNBC.” Journal of Banking & Finance 27 (2013): 2472–89.
[54] KLARE, G. The Measurement of Readability. Ames, IA: Iowa University Press, 1963.
[55] KOTHARI, S. P.; X. LI; AND J. E. SHORT. “The Effect of Disclosures by Management, Analysts, and Business Press on Cost of Capital, Return Volatility, and Analyst Forecasts: A Study Using Content Analysis.” The Accounting Review 84 (2009): 1639–70.
[56] LANG, M., AND L. STICE-LAWRENCE. “Textual Analysis and International Financial Reporting: Large Sample Evidence.” Journal of Accounting and Economics 60 (2015): 110–35.
[57] LARCKER, D. F., AND A. A. ZAKOLYUKINA. “Detecting Deceptive Discussions in Conference Calls.” Journal of Accounting Research 50 (2012): 495–540.
[58] LAWRENCE, A. “Individual Investors and Financial Disclosure.” Journal of Accounting & Economics 56 (2013): 130–47.
[59] LEHAVY, R.; F. LI; AND K. MERKLEY. “The Effect of Annual Report Readability on Analyst Following and the Properties of Their Earnings Forecasts.” The Accounting Review 86 (2011): 1087–115.
[60] LEUZ, C., AND C. SCHRAND. “Disclosure and the Cost of Capital: Evidence from Firms’ Responses to the Enron Shock.” Working paper, University of Chicago, 2009.
[61] LEUZ, C., AND P. WYSOCKI. “The Economics of Disclosure and Financial Reporting Regulation: Evidence and Suggestions for Future Research.” Journal of Accounting Research 54 (2016): 525–622.
[62] LEWIS, N. R.; L. D. PARKER; G. D. POUND; AND P. SUTCLIFFE. “Accounting Report Readability: The Use of Readability Techniques.” Accounting and Business Research 16 (1986): 199–213.
[63] LI, F. “Annual Report Readability, Current Earnings, and Earnings Persistence.” Journal of Accounting and Economics 45 (2008): 221–47.
[64] LI, F. “Textual Analysis of Corporate Disclosures: A Survey of the Literature.” Journal of Accounting Literature 29 (2010a): 143–65.
[65] LI, F. “The Information Content of Forward-Looking Statements in Corporate Filings—A Na¨ıve Bayesian Machine Learning Approach.” Journal of Accounting Research 48 (2010b): 1049–102.
[66] LI, J., AND X. ZHAO. “Complexity and Information Content of Financial Disclosures: Evidence from Evolution of Uncertainty Following 10-K Filings.” Working paper, University of Texas at Dallas, 2014.
[67] LIU, B., AND J. J. MCCONNELL. “The Role of the Media in Corporate Governance: Do the Media Influence Managers’ Capital Allocation Decisions?” Journal of Financial Economics 110 (2013): 1–17.
[68] LOUGHRAN, T., AND B. MCDONALD. “When Is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10-Ks.” Journal of Finance 66 (2011): 35–65.
[69] LOUGHRAN, T., AND B. MCDONALD. “IPO First-Day Returns, Offer Price Revisions, Volatility, and Form S-1 Language.” Journal of Financial Economics 109 (2013): 307–26.
[70] LOUGHRAN, T., AND B. MCDONALD. “Measuring Readability in Financial Disclosures.” Journal of Finance 69 (2014): 1643–71.
[71] LOUGHRAN, T., AND B. MCDONALD. “The Use of Word Lists in Textual Analysis.” Journal of Behavioral Finance 16 (2015): 1–11.
[72] LOUGHRAN, T.; B. MCDONALD; AND H. YUN. “A Wolf in Sheep’s Clothing: The Use of EthicsRelated Terms in 10-K Reports.” Journal of Business Ethics 89 (2009): 39–49.
[73] LUNDHOLM, R. J.; R. ROGO; AND J. ZHANG. “Restoring the Tower of Babel: How Foreign Firms Communicate with US Investors.” The Accounting Review 89 (2014): 1453–85.
[74] MANNING, C. D., AND H. SCHÜTZE. Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press, 2003.
[75] MARCUS, M.; B. SANTORINI; AND M. A. MARCINKIEWICZ. “Building a Large Annotated Corpus of English: The Penn Treebank.” Computational Linguistics 19 (1993): 313–30.
[76] MARNEFFE, M.; B. MACCARTNEY; AND C. MANNING. “Generating Typed Dependency Parses from Phrase Structure Parses.” Proceedings of LREC 6 (2006): 449–54.
[77] MATSUMOTO, D.; M. PRONK; AND E. ROELOFSEN. “What Makes Conference Calls Useful? The Information Content of Managers’ Presentations and Analysts’ Discussion Sessions.” The Accounting Review 86 (2011): 1383–414.
[78] MAYEW, W. J., AND M. VENKATACHALAM. “The Power of Voice: Managerial Affective States and Future Firm Performance.” Journal of Finance 67 (2012): 1–43.
[79] MCLAUGHLIN, G. “SMOG Grading: A New Readability Formula.” Journal of Reading 12 (1969): 639–46.
[80] MIKHEEV, A. “Periods, Capitalized Words, etc.” Computational Linguistics 28 (2002): 289–316.
[81] MILLER, B. P. “The Effects of Reporting Complexity on Small and Large Investor Trading.” The Accounting Review 85 (2010): 2107–43.
[82] MOSTELLER, F., AND D. WALLACE. Inference and Disputed Authorship: The Federalist. Reading, MA: Addison-Wesley, 1964.
[83] PALMER, D., AND M. A. HEARST. “Adaptive Sentence Boundary Disambiguation.” Proceedings of the Fourth Annual ACL Conference on Applied Natural Language Processing, Stuttgart, Germany, October 13–15, 1994: 78–83.
[84] PRATT, G. “Is a Cambrian Explosion Coming for Robotics?” Journal of Economic Perspectives, 29 (2015): 51–60.
[85] PRICE, S. M.; J. S. DORAN; D. R. PETERSON; AND B. A. BLISS. “Earnings Conference Calls and Stock Returns: The Incremental Informativeness of Textual Tone.” Journal of Banking & Finance 36 (2012): 992–1011.
[86] PURDA, L., AND D. SKILLICORN. “Accounting Variables, Deception, and a Bag of Words: Assessing the Tools of Fraud Detection.” Contemporary Accounting Research 32 (2015): 1193–1223.
[87] RENNEKAMP, K. “Processing Fluency and Investors’ Reactions to Disclosure Readability.” Journal of Accounting Research 50 (2012): 1319–54.
[88] ROGERS, J. L., AND W. NICEWANDER. “Thirteen Ways to Look at the Correlation Coefficient.” The American Statistician 42 (1988): 59–66.
[89] ROGERS, J. L.; A. VAN BUSKIRK; AND S. ZECHMAN. “Disclosure Tone and Shareholder Litigation.” The Accounting Review 86 (2011): 2155–83.
[90] SALTON, G., AND C. BUCKLEY. “Term-Weighting Approaches in Automatic Text Retrieval.” Information Processing & Management 24 (1988): 513–23.
[91] SOLOMON, D. H. “Selective Publicity and Stock Prices.” Journal of Finance 67 (2012): 599–638.
[92] SOLOMON, D. H.; E. SOLTES; AND D. SOSYURA. “Winners in the Spotlight: Media Coverage of Fund Holdings as a Driver of Flows.” Journal of Financial Economics 113 (2014): 53–72.
[93] TADDY, M. “Document Classification by Inversion of Distributed Language Representations.” Proceedings of the Annual 53rd Meeting of the Association for Computational Linguistics, Beijing, China, July 27–31, 2015: 45–49.
[94] TENNYSON, B. M.; R. W. INGRAM; AND M. T. DUGAN. “Assessing the Information Content of Narrative Disclosures in Explaining Bankruptcy.” Journal of Business Finance & Accounting 17 (1990): 391–410.
[95] TETLOCK, P. C. “Giving Content to Investor Sentiment: The Role of Media in the Stock Market.” Journal of Finance 62 (2007): 1139–68.
[96] TETLOCK, P. C.; M. SAAR-TSECHANSKY; AND S. MACSKASSY. “More than Words: Quantifying Language to Measure Firms’ Fundamentals.” Journal of Finance 63 (2008): 1437–67.
[97] TSARFATY, R.; D. SEDDAH; S. KÜBLER; AND J. NIVRE. “Parsing Morphologically Rich Languages: Introduction to the Special Issue.” Association for Computational Linguistics 39 (2013): 15–22.
[98] TWEDT, B., AND L. REES. “Reading Between the Lines: An Empirical Examination of Qualitative Attributes of Financial Analysts’ Reports.” Journal of Accounting and Public Policy 31 (2012): 1–21.
[99] WILLIAMS, C. B. “Mendenhall’s Studies of Word-length Distribution in the Works of Shakespeare and Bacon.” Biometrika 62 (1975): 207–12.
[100]  YOU, H., AND X. ZHANG. “Financial Reporting Complexity and Investor Underreaction to 10-K Information.” Review of Accounting Studies 14 (2009): 559–86.
[101]  ZOBEL, J., AND A. MOFFAT. “Exploring the Similarity Space.” ACM SIGIR Forum 32 (1998):18–34.

关于机器学习,1.机器学习之KNN分类算法介绍: Stata和R同步实现(附数据和代码),2.机器学习对经济学研究的影响研究进展综述,3. 回顾与展望经济学研究中的机器学习,4.最新: 运用机器学习和合成控制法研究武汉封城对空气污染和健康的影响! 5.Top, 机器学习是一种应用的计量经济学方法, 不懂将来面临淘汰危险!6.Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了!7.前沿: 机器学习在金融和能源经济领域的应用分类总结,8.机器学习方法出现在AER, JPE, QJE等顶刊上了!9.机器学习第一书, 数据挖掘, 推理和预测,10.从线性回归到机器学习, 一张图帮你文献综述,11.11种与机器学习相关的多元变量分析方法汇总,12.机器学习和大数据计量经济学, 你必须阅读一下这篇,13.机器学习与Econometrics的书籍推荐, 值得拥有的经典,14.机器学习在微观计量的应用最新趋势: 大数据和因果推断,15.R语言函数最全总结, 机器学习从这里出发,16.机器学习在微观计量的应用最新趋势: 回归模型,17.机器学习对计量经济学的影响, AEA年会独家报道,18.回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现),19.关于机器学习的领悟与反思,20.机器学习,可异于数理统计,21.前沿: 比特币, 多少罪恶假汝之手? 机器学习测算加密货币资助的非法活动金额! 22.利用机器学习进行实证资产定价, 金融投资的前沿科学技术! 23.全面比较和概述运用机器学习模型进行时间序列预测的方法优劣!24.如何用机器学习在中国股市赚钱呢? 顶刊文章告诉你方法!

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存