【华安金工】人工智能可以读懂企业高管的想法吗?——“学海拾珠”系列之一百五十二

admin11个月前研报560
报告摘要

►主要观点

本篇是“学海拾珠”系列第一百五十二篇,作者利用美国公司定期季报和年报的文本信息,通过情绪模型、词袋模型和大型语言模型(LLM),来预测未来的公司盈余惊喜。实证结果发现,公开披露的公司文件中的积极和消极信息往往隐藏在其大量复杂的文本中,而近期的人工智能模型相比传统模型可以更好的识别信息。回到国内市场,财务报告中的文本信息尚待挖掘,可借鉴本文的研究思路寻找文本中的alpha。

·MD&A部分的长度与公司未来盈余呈负相关
与更复杂的情绪模型相比,管理层讨论与分析(MD&A)或风险因素(RF)章节的词汇长度能够更好地预测未来公司的表现。实证发现,具有较低的MD&A长度的公司显著优于具有较高MD&A长度的公司。

·词袋模型无法从过去公告中“学习”预测未来盈余
       文章实证表明,通过训练机器学习算法的词袋模型无法识别未来的积极或消极的盈余惊喜。作者认为传统的NLP方法失败的部分原因是公司公告日益增加的长度和复杂性。

·经过财务目标训练LLM模型可以有效预测未来盈余
       依据下个季度的预期盈余惊喜,在月底分为五组投资组合。经过财务目标训练的LLM模型在所有的多空投资组合策略都具有经济和统计上的显著并且预测盈余符号正确,显著优于情绪模型和词袋模型。

·风险提示

文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。

01

引言

在信息丰富的情况下,经济主体如何处理信息?文本数据在金融中已经广泛应用(Goldstein等人,2021),提取和处理这些数据的成本在过去十年中大幅降低。即使是在公司报告过程中最基本的项目,如季度(10-Q)和年报(10-K),披露信息中信号的丰富性和复杂性会导致投资者忽视微妙但重要的信号,(Cohen等人。2020年)。

为了应对企业文件日益增加的长度和过度复杂内容(Loughran和McDonald,2014),以及管理层通过提供无关或非实质的细节来混淆负面信息的动机(Li,2008),文献介绍了几种内容分析措施。最突出的一种方法是基于一个单词列表,其中每个单词被分为积极或消极两类,即手工构建的词汇方法。文献中的早期论文使用了《哈佛心理社会学词典》中的单词分类来识别积极与消极的新闻内容(Tetlock,2007)。然而Loughran和McDonald(2011)(以下简称LM2011)认为,哈佛词典列表可能不适用于金融应用,因为这些词在金融语境中有不同的内涵。LM2011在年报告的基础上创建了一个全面的积极和消极词汇列表,并认为他们的消极词汇列表比哈佛的列表更能捕捉年报基调。

另一种改进了LM2011分类是词袋模型(bag-of-words type models),它主要基于词典中每个词的权重。模型可以通过线性回归(Jegadeesh和Wu,2013)或经典的机器学习技术,如支持向量机(Manela和Moreira,2017)来实现。

然而最近,Cao等人(2023)发现,在LM2011发表后不久,期望从EDGAR获得年报下载量高的公司,即对报告进行机器算法分类的几率较高的公司,开始避免使用LM负面词汇。这不仅削弱了基于字典的方法,而且削弱了严重依赖于文档中的单词计数的词袋模型。因此,随着公司报告的长度在过去十年呈指数级增长(Cohen等人,2020),对未来财务业绩的正面和负面信息内容进行分类和识别仍然是一项具有挑战性的任务。

大型语言模型LLM与经典的NLP方法不同,其中ChatGPT自2022年11月公开发布以来是最知名的一种。它们并不仅仅依赖于单词或其数量,而是能够识别文档中单词、句子和段落之间的关系。从理论上讲,LLM模型应该更擅长从金融文本数据中捕获信息,因为金融书面文本具有高度语境化的性质,而这很难用被基于词汇的模型捕获。不仅仅是经典NLP模型的失败,市场参与者本身也无法领会微妙的管理信息,这些信息隐藏在大量的文本中(Cohen等人,2020)。

目前,考虑到所需的计算资源,最可能访问和最容易实现的LLM是由Google开发的预训练BERT(Devlin等人,2009年)。BERT是在一个大型文本语料库上进行预训练的模型,该语料库涵盖了互联网一系列内容,而不只是关注公司报告的财务背景。因此,这可能是一个适用于企业文件分类的嘈杂模型。Huang等人(2022)将财务分析报告分为积极、消极或中性的10000句话进行微调,将BERT命名为FinBERT,并认为与其他基于词典的方法相比,FinBERT对财务报告的分类精度更高。虽然这是一种改进,但FinBERT在对人工标注文本进行微调时也存在问题,管理人员可以控制这些文本、从一个报告更改到另一个报告,甚至开始避免使用这些文本。的确,Cao等人(2023)研究表明,FinBERT负面情绪分类率在2018年后的发布样本中有所下降。在本文的结果中,作者发现2011年LM和FinBERT负面分类分数之间的相关性很高,为0.68。因此,FinBERT甚至可以在2018年之前继承LM-2011基于词汇的方法(Cao等人,2023)的类似问题。此外,它已经对人类标注的文本语料库进行了彻底的微调,而报告的语言及其长度一直在动态变化(Cohen等人,2020年)。

到目前为止,还没有一项全面的研究讨论以下几点:(i)在确定的季报和年报中关于未来现金流和公司整体财务业绩的积极和消极信息方面,一种方法如何与另一种方法进行比较;(ii)鉴于管理层调整语言,公司报告的分类是否完全准确(Cao等人,2023);(iii)企业内部人士是否能够沟通,市场参与者是否能够把握和提取报告复杂性背后的正确信号(Cohen等人,2020)。后者本质上是对市场效率的一种间接检验—在由人类和机器仔细审查的公开季报和年报等公司文件中,是否存在未被发现、尚未被市场参与者感知并纳入价格的隐藏信息?

为了回答这些问题,利用美国公司历年的季报和年报,作者在三种方法之间进行比较:(i)情绪组:关键词词汇情感(LM2011),LLM情感分类(FinBERT)或管理讨论的长度(MD&A,或风险因素部分);(ii)词袋组:一种基于分类、回归的方法,类似于Jegadeesh和Wu(2013)或Manela和Moreira(2017),但使用了更广泛的经典ML算法;(iii)下文中介绍的新型LLM方法。

与Cohen等人(2020年)类似,作者的分析重点是报告的MD&A和风险因素部分。图表1显示了年报的MD&A和风险因子RF的平均长度。从1994年到2021年,MD&A的平均长度增加了6倍,RF的平均长度增加了4倍。报告的长度和复杂性不断增加,使得投资者忽视了未来公司业绩的重要基础信息(Cohen等人,2020)。

比较的规则是什么?与传统的NLP方法对文件进行情绪评分不同,在金融领域,我们习惯于看到这些标识提供的经济增值。换句话说,任何提出的改进都应该体现为正面评级公司与负面评级公司在未来报告中的显著价格差异。

本文将进行如下处理。首先,在方法论方面做出了贡献,与字典/关键词、LM2011或人类标记的金融文本训练方法(如FinBERT)不同,本文针对金融目标训练算法。大多数文献使用盈余公告日回报,或盈余公告窗口附近的异常回报作为财务目标(见其他文献LM2011,Jegadeesh和Wu(2013))。这些财务目标建立在市场效率假设的基础上。然而,Cohen等人(2020)清楚地表明,市场对财务文件格式的变化没有任何反应,这些文件随后预测在报告公开后的一个季度内的几个月内会出现重大财务损失和负回报。此外,盈余公告回报也因投资者对负面和正面惊喜的反应不足或过度而闻名(Atmaz和Basak(2018),Golez和Goyenko(2022))。综上所述,这些因素使得盈余公告回报成为一个嘈杂的目标。相反,我们将下一季度盈余惊喜作为一个财务目标,因为这些基本信息经过审计,不依赖于市场的解释/反应。Cohen等人(2020)也表明,随后的公告确实反映了市场在上一季度公告中忽略的信息。此外,作为财务目标的盈余惊喜,作者通过已实现盈余与分析师共识预测的偏差来衡量,可以直接与市场忽略的信息内容对话。虽然该目标是通过先前研究未处理的高标准(LM2011,Jegadeesh和Wu(2013)),但这是唯一没有噪声的目标。为了衡量来自这些预测的经济盈余,作者遵循Cohen等人(2020),并根据未来盈余惊喜预测将所有公司分类为五分位投资组合,然后衡量未来长期赢家(正盈余惊喜)和短期未来输家(负未预期盈余)五分位组合策略的绩效表现。

其次,作者是第一个提出分层的LLM架构,可以处理任意长度的财务披露报表,并针对财务目标训练这些模型。首先训练一个从原始的、现成的BERT(Devlin等人,2018)衍生出来的模型来预测盈余惊喜,将其命名为FrozenBERT;也就是说,作者不改变或微调原始BERT模型中的任何参数,只训练一个预测网络,一个基于预训练BERT表示的Transformer层。其次,在训练预测盈余惊喜时,对原始BERT进行了微调;将此模型命名为FtBERT(“微调BERT”)。据作者所知,在金融文献中,从来没有对LLM模型这样做过。当公司动态地改变和调整语言以适应机器阅读时,FtBERT克服了LM2011或FinBERT的问题(Cao等人,2023),因为作者对FtBERT进行了动态的再训练,学习新发布的基础知识和与之相关的管理讨论。这种动态再训练的目的是学习、捕捉和调整识别以适应可能的语言调整,无论是在时间序列上还是在横截面上。FtBERT还克服了原始BERT的问题,原始BERT是在大型通用文本语料库上训练的,因此在捕获特定于金融的文档的内容时可能是一种嘈杂的表示。

本文的研究结果是关注LLM/ChatGPT类方法纯粹的金融情绪评分。虽然FinBERT(Huang等人,2022)已经被证明在更精确的情感识别方面优于LM2011字典和其他词袋模型,但在本文的投资组合排序分析中表现最差。与Cao等人(2023)相似,作者将FinBERT负面情绪得分计算为通过FinBERT句子进行负面排名的数量除以并购部分和RF部分的总句子数量。最终发现,在市值加权投资组合中,负FinBERT得分最高的五分位投资组合不仅会产生未来正回报,而且这些回报还会显著超过最低五分位投资组合的回报,即存在一个错误的符号。然而,这一结果在回归分析中无法经受住规模和账面市值比的控制,因此变得不重要。此外,无论是2011年的LM方法,还是基于流行的基于前馈神经网络的词袋模型,甚至更复杂的词袋模型,都没有提供显著的高-低五分位数投资组合收益差。也就是说,这些方法虽然有助于识别报告中的情绪,但在预测未来的财务表现时却没有帮助。

令人惊讶的结果是,与更复杂的情绪和词汇识别相比,一个非常简单的测量方法,即MD&A部分本身的长度,能够更好地预测未来的表现。具有较低的MD&A长度的公司显著优于那些具有较高MD&A长度的公司。例如,在市值加权的投资组合中,最低的MD&A长度五分位数的CAPM模型中alpha值为每年3.8%(t=3.35)。在控制了Fama-French五个因素(Fama和French,2015)和动量(Carhart,1997)后,这个数字下降到2.3%(t=2.13)。高-低策略,即依据MD&A长度的五分位数低买高卖,在市值加权投资组合中产生的CAPM alpha值为每年4.13%(t=2.48)。在控制Fama-French五个因素后,这个alpha变得不显著。因此,市场似乎没有完全将与公司规模、账面市值比、盈余能力和投资等基本因素相关的短期报告的积极信息,与长期报告中负向信息相结合。然而,这与之前文献中的结果一致,即报告长度的增加与公司绩效的积极信息无关(Li(2008),Loughran和McDonald(2014),Cohen等人(2020))。然而,在使用各种企业和时间固定效应或企业特征作为控制变量的回归分析中,这种方法并不稳健。

本文引入的微调BERT模型(fine-tuning BERT),即FtBERT,通过了所有的稳健性检验,即拥有最佳的性能。在模型中,最积极的盈余收益预测的五分位数比最消极预测的五分位数每月的表现高出0.56%(t=2.94),或未经风险调整的原始回报每年的表现高出6.74%。这种高-低策略的CAPM风险调整后的回报非常相似,每月0.5%(t=2.57)或每年6.01%。因此,它完全不受市场趋势的驱动。这一战略的经济重要性开始下降,同时增加额外的因素调整,从每年4%的Fama-French五个因素到每年3.71%的所有六个因素包括动量。这些数字不仅具有经济意义,也在统计学上也具有意义。

作者还发现,在FF6因素调整后,FrozenBERT在投资组合分类方面的表现与FtBERT非常相似,但在未调整或仅经过CAPM风险调整的回报方面,它比FtBERT预测的高-低投资组合每年约低2%。然而,FrozenBERT在识别积极盈余惊喜方面的表现,即高-低策略的多头,几乎与MD&A长度最低的五分位相同。因此在长期,最积极的盈余惊喜预测组合,它未能优于简单的字母计数法。然而,它在识别负面/空头投资组合选择方面做得更好。相比之下,FtBERT在确定未来财务业绩的积极和消极方面占主导地位。

作者是否发现了整个市场未能捕捉到在FtBERT中能够识别的信息的证据?并没有。在季报、年报提交日期前后,作者发现FtBERT能够正确预测未来价格影响、累积提交后回报,这是由于对消息反应迅速的机构交易引起的(Huang等人,2020年)。然而,本文研究结果也表明,对于市场的其他部分需要几个月的时间才能将这些信息完全纳入价格中。

为什么会这样?本文用分析师预测的标准差来计算分析师分歧,发现FtBERT预测信号最负和最正的组合也是分析师分歧最大的组合。这并不是因为小市值股,是因为在本文截面中,所有的股票都高于平均市场规模。而且,FtBERT预测信号组合中最积极的股票规模最大,平均市值约为120亿美元。因此,市场对未来增长选择的分歧反映在分析师的普遍分歧上,这可能是反应不足或价格调整缓慢的根源。

FtBERT使用的关注机制允许作者识别MD&A和风险因素部分中对未来绩效预测最有影响力的段落。一般而言,未来的积极表现与管理层就未来前景的讨论以及管理层承诺实施的即时短期措施有关,以增加未来收入。下一季度的高股票表现与管理层通过高效执行的承诺有关。

相比之下,未来的负面表现与管理层讨论有关,要么过度关注过去的业绩,要么,与Cohen等人(2020)一致,风险因素部分过度强调各种行业特定的风险。例如,临床试验风险的强制性风险披露和FDA对医疗行业的干预,使FtBERT能够很好地预测未来的回报,特别是负向盈余惊喜。

本文的其余部分组织如下:第2节描述分析中的主要数据,第3节描述本文中使用的所有NLP方法,第4节主要进行了实证分析,第5节为文章主要结论。

02

数据

本文从几个来源获取数据。首先从SECEDGAR网站检索了1993年至2021年间提交的所有10-K、10-K405、10-KSB和10-Q文件。在Loughran和McDonald(2011)之后,通过删除标记标签、ASCII编码的图形、表格和其他非文本工件来解析每个归档文档。每个季度只包括一家公司的一份文件。在大多数情况下,在前三个季度使用10-Q(季报),在每个公司的财政年度的最后一个季度使用10-K(年报)。

作者关注两种主要类型的公司披露:管理层讨论与分析(MD&A),和类似于Cohen等人(2020)在10-Q和10-K文件的风险因素(RF)讨论小节。

由于MD&A部分未经审计,管理层在创建内容方面拥有最大的决定权。通常,本节提供对财务报表、控制、遵守法律法规、财务活动、为应对公司面临的任何挑战而计划或采取的行动的评论。重要的是,在这一部分管理层也讨论了公司的前景分析行业趋势、竞争环境、经济条件和金融市场的风险。

风险因素部分是公司概述可能对其业务、运营、财务状况或股价产生负面影响的潜在风险。根据SK条例(第305(c)项,SEC2005),公司在法律上有义务披露“使公司具有投机性或风险性的最重要因素”。典型的风险因素讨论包括当地经济、金融和政治条件、政府监管、营业执照或认证要求、对资金汇回和投资的限制以及外汇兑换限制,应付账款和较长的应收账款周期的变化,以及由此产生的对现金流的负面影响。如果不警告投资者潜在风险,公司可能会被起诉。因此,纳入所有可能远程或立即相关的风险讨论符合他们的利益。2005年以后开始有足够的文本数据覆盖RF部分。

作者通过捕获包含单词“item”和子部分名称的正则表达式来识别子部分的文本内容。各个编档的子部分标题非常不一致,所以要确保正则表达式足够灵活,以捕获这两个子部分的所有可能出现的情况。与Loughran和McDonald(2011)相似,本文要求至少250个单词出现在MD&A部分,因为在许多情况下,这些信息是“通过参考合并”的(通常延迟到股东年度报告)。如果文件中没有RF或MD&A,就排除观察结果。

作者从证券价格研究中心(CRSP)获得每月的股票回报。通常对个股的筛选条件是要求股票是在纽约证券交易所、美国证券交易所或纳斯达克上市的普通股。此外,作者调整退市收益率,剔除股价低于5美元的低价公司。

本文使用机构经纪人估计系统(I/B/E/S)的数据计算盈余惊喜。特别是,从1993年至2021年的IBES未调整文件中获得季度分析师预测和实际收益。I/B/E/S在不同日期收集下一季度的预测数据。为了在盈余发布之前获得最新的估计,依赖于预测收益的财政季度最后一个月产生的共识预测。作者将基于分析师预测的标准化盈余惊喜(SUE)定义为实际每股盈余减去分析师预测的平均值,除以盈余公告前20天的股价:

其中是公司i在第t个月公布的实际季度每股盈余,是相应的分析师平均预测,是盈余公布前20天的股价。

对于每个月t,作者收集所有具有合格盈余惊喜的公司,并根据它们的从最低到最高进行排列。然后根据t月份的公司数量对排名进行标准化,得到标准化排名得分,其中在t时刻最低(最高)的公司得分为0(1)。标准化排名得分为目标变量。

I/B/E/S、CRSP和EDGAR数据具有不同的股票标识符。首先,使用沃顿商学院研究数据服务(WRDS)提供的IBES-CRSP链接表,将IBES的股票代码(I/B/E/S标识符)与CRSP中的股票标识符永久标识号(“permno”)进行匹配。其次,使用CRSP链接表将SEC分配的中心索引键(CIK)、10-K和10-Q文件标识符与permno进行匹配。

为了训练大型语言模型(LLM),作者对历史样本使用以下方法。首先,样本的前10年,即1993年1月至2002年12月,为初始训练样本。训练样本的最后6个月总是保留以供验证。因此,对于第一个训练样本,实际有9.5年的训练,最后半年为验证样本。其次,对2003年进行了前四个连续的季度预测,即样本外预测。也就是说,保持2003年的模型参数不变,每年只对模型进行一次再培训,而一旦信息集更新,季度预测就会从一个季度变化到另一个季度。该方法与(Gu等人,2020)使用的方法相似。在此基础上,对模型2003年的绩效结果进行了评价。之后,将所有2003年的可用新数据添加到训练样本中,在保留2003年最后6个月进行验证的同时,重新训练模型,并对2004年进行预测。最后,将2004年的数据添加到培训中,并类似地继续到2021年。图表2以图形方式显示了这个扩展的培训窗口过程。

03

NLP方法

3.1 词汇(情感-得分)方法


LoughranMcDonald2011)之后,作者使用标准的自然语言处理技术来解析文本文档。首先,文档中的所有单词都转换为小写。第二,像“haven’t”这样的缩写可以扩展为“have not”。第三,文档中去掉了数字、标点符号和特殊符号。第四,去掉所有本身没有太多意义的“停止词”,包括冠词(“the”,“a”),连词(“and”,“or”),介词(“in”,“on”)等。第五,采用“词根化”的方法,即通过详细的形态学分析,用词根形式替换单词,例如“was”的词根是“be”,“mice”的词根是“mouse”。此外,词形还原超越了词的遗传转换,并考虑了词的语境。例如,“meeting”的词根可以是“meet”或“meeting”,这取决于它在句子中的实际用法。

随后,作者将文档分解为一组类似单词的构建块,称为标记。使用单个单词和单词对的标记,即一元和二元。这些标记被转换为单词计数的向量。

为了衡量每个文件的情绪,使用了著名的Loughran和McDonald(2011)财务语境词典。“Fin-Neg”词汇表中的词汇被归类为负面情绪词汇。每个文档的消极情绪测量(LM negative sentiment)等于消极词汇的总和,除以文档中总单词数。

与简单的单词计数不同,BERT模型可以提供考虑单词的含义,顺序和相互作用的整个句子的识别。与Cao等人(2023)类似,本文使用FinBERT(Huang等人,2022),一个用财务披露数据(包括10-K,电话会议记录和分析师报告)训练的BERT版本,将单个句子的情绪分类为积极或消极。因此,构造了FinBERT消极情绪指标,作为FinBERT否定句的数量与文档中总句子数量的比值。

最后一项衡量标准是基于以往文献的这一结论,即报告的长度和复杂性的增加并不一定伴随着积极信息内容的增加,而是在模糊和稀释负面新闻(Li(2008),Loughran和McDonald(2014),Cohen等人(2020))。此外,Loughran和McDonald(2014)认为,传统的可读性指标,如FOX指数,并不适合金融文档。相反,作者建议使用10-K完整提交文本文件的文件大小作为可读性的衡量标准。由于只使用MD&A和风险因素部分的信息,所以定义为这些部分中的字符总数。因此,最终作者引入了两种新的度量方法:MD&A长度和RF长度。

3.2 词袋模型



3.2.1 基本机器学习方法


跟随Gu等人(2020),作者考虑了多种线性和非线性机器学习方法作为基本模型。在最一般的形式中,将t时刻的标准化排名分数描述为:

这里为t−3时刻期望归一化排名得分,g(∙)为企业i的p维单词数向量的灵活函数,即,对应文档的一元和二元术语。为了保持相关性,训练样本中只有7000个最常见的一元和二元术语被保留在中(即P=7000),而出现在99.9%以上的文档中的常见术语被删除。

3.2.2 线性回归


线性回归是一种简单且广泛使用的方法,其假设g(∙)可以通过特征和参数向量θ的线性函数来近似:

本文基础线性回归模型是由普通最小二乘(OLS)通过最小化估计的。

这产生OLS估计量集合。式(5)中θ的估计是无偏有效的,前提是预测因子P的个数相对于T较小。在词袋模型设置下,文档项矩阵是高维稀疏的,导致预测因子P的个数与T相似或大于T,从而导致过拟合。为了解决文档术语矩阵的高维和稀疏性质,作者考虑了多种机器学习方法。

3.2.3 LM回归


受Jegadeesh和Wu(2013)的启发,作者对第3.1节中讨论的LM负面情绪测量的归一化排名得分进行回归。这种监督方法通过为回归预先选择单个协变量来减少过拟合。

3.2.4 惩罚线性回归


缓解式(5)过拟合的一种普遍方法是在目标函数中加入惩罚项。这种正则化方法有意降低模型的样本内性能,以增强其样本外的稳定性。相比于式(5),惩罚线性回归通过最小化来估计θ。

其中为惩罚函数。本文使用流行的弹性网络惩罚函数(EN),它的形式如下:

弹性网络包含两个非负参数,λ和ρ,并包括两种著名的正则化方法作为特殊情况。当ρ=0时,式(6)对应的是LASSO回归,它可以使θ的一个子集恰好为零,在规格上施加了稀疏性,因此可以认为是一种变量选择方法。当ρ=1时,式(6)对应于岭回归(RIDGE),它系数估计接近于零,但并不在任何地方施加精确的零。对于中间值ρ,弹性网络在收缩和稀疏之间妥协。调谐参数λ控制收缩量,λ越大对应于更大的收缩量。

3.2.5 梯度提升回归树和随机森林模型


回归树是一种非参数方法,可以有效地模拟非线性和预测因子之间的相互作用。这些树的构造方法是递归地将输入预测器空间划分为一系列不同的区域,并预测每个分区内响应的平均值。树的生长是通过一系列的步骤进行的,其中,在每一步中一个新的分支根据预测器和分割值对数据进行分割,使平方误差最小化。

回归树虽然灵活,但特别容易出现过拟合,因此需要正则化来提高其预测性能。在本研究中,作者检查了两种树的集合方法,通过组合来自多棵树的预测来实现正则化,以产生一个单一的预测。

第一种集成方法,随机森林(RF),建立一个非相关树的集合,并对它们的预测进行平均。在数据的一个引导样本上训练每个独立的树,并且在每个分支上,只考虑一个随机的预测器子集进行分裂。这个过程会产生一组不相关的树,每个树都有很高的方差。然而,通过对多个树的预测求平均,方差就会减少,从而产生更稳定的算法。

第二种集成方法,梯度提升回归树(GBT),依次构建一系列决策树,每棵树从其前一棵树的残差中学习。Boosting递归结合了来自众多浅层树的预测,这些浅层树各自作为预测能力有限的弱学习器发挥作用。然而,当它们按顺序组合时,就形成了一个更稳定、更准确的模型。在本研究中,采用XGBoost实现的梯度增强(Chen和Guestrin,2016),它集成了更高效的优化算法和额外的正则化技术,以防止过拟合。

3.2.6 支持向量回归


支持向量回归(SVR)是一种对高维数据(如文档术语矩阵)表现良好的技术(Manela和Moreira,2017)。与OLS最小化均方误差不同,SVR最小化以下目标函数:

其中,为ϵ不敏感度。SVR在不敏感范围内拟合出最佳超平面。ϵ不敏感度是预测输出线周围的缓冲区,在此范围内,尺寸小于ϵ的误差被忽略。C是一个超参数,有助于正则化估计的权重和避免过拟合。

为了管理数据的非线性转换,SVR主动使用核,如径向基核函数(RBF)。这些核有助于将数据转换为更高维度,从而使算法能够在这个新转换的空间中找到拟合超平面。“核技巧”允许算法在转换后的空间中操作,而不需要显式地计算数据坐标,这使得即使对于高维数据,问题在计算上也很容易处理。

3.2.7 前馈神经网络


本文包括一个传统的前馈神经网络(NN)作为一个简单的机器学习基准。前馈网络包括具有原始特征的输入层,一个或多个与预测器交互并非线性转换的隐藏层,以及将隐藏层合并成预测的输出层。作者利用了一个浅层神经网络结构,其中包含一个包含32个单元的隐藏层。整流线性单元,定义为,作为非线性激活函数。为了防止过度拟合,由于神经网络的高度参数化,我们应用正则化技术,包括惩罚项和批归一化。

3.2.8 模型微调


对于线性LASSO和EN回归,调谐参数λ是决定收缩程度的主要超参数。这个超参数控制模型复杂性和应用于模型系数的正则化程度之间的权衡。通过调整λ的值,可以平衡偏差-方差的权衡和最小化过拟合。

对于GBT和RF模型,主要的超参数包括树的数量、每棵树的最大深度和收缩参数λ(仅针对GBT)。增加树的数量可以提高模型的预测性能,但也可能增加过拟合的风险。更深层次的树可以捕获特征之间更复杂的交互,但它们也可能导致过拟合。λ较小会导致更为保守的模型,具有更低的过拟合风险,但可能需要更多的迭代来收敛。

在SVR中,主超参数C对权值进行正则化。C值越大可以优化优先拟合训练数据,C值越小,误差越大,但权重越小,可以防止过拟合。

神经网络需要选择许多超参数来找到最佳的模型灵活性。作者通过在具有不同收缩程度的损失函数中添加惩罚来防止模型过拟合。这种惩罚鼓励模型学习特征的稀疏降低了学习关系的复杂性,并最大限度地减少过拟合。同时这也为Adam随机梯度下降优化器选择了初始学习率(Kingma和Ba,2015)。较小的学习率会导致较慢但可能更准确的收敛,而较大的学习率会加速收敛,但可能会超出最优解。

图表3总结了本文中考虑的每个模型的超参数。为了在给定时间选取最优的超参数组合,将数据样本分为训练集和测试集。在训练数据上产生最低的3倍交叉验证误差的超参数被选为最佳模型。

        

3.3 大型语言模型(LLM):层次转换器方法


在本节中,描述了作者提出的Hierarchical Transformer方法,用于分析任意长度的管理层讨论和分析(MD&A)和风险因素(RF)部分。

Transformer(Vaswani等人,2017;Lin等人,2022)是一种机器学习体系结构,它已经成为跨自然语言处理(NLP)任务的事实上的标准,如语言翻译和文本分类(Yvon,2023)。Transformer的一个关键优势是它能够处理可变大小的序列输入,比如语言,而不需要循环神经网络(RNN)或卷积神经网络(CNN)。这是通过使用自我注意机制实现的,它允许模型有选择地注意输入序列的不同部分。这使得Transformer能够捕获输入序列中元素之间相对较长的依赖关系,这是使用RNN和CNN很难实现的。另外,Transformer已被证明对语言具有出色的标度特性,其中所谓的标度定律(scaling laws)描述了随着参数、训练数据和可用计算资源的数量分别增加,模型性能是如何提高的(Kaplan等人,2020;Bahri等人,2021)。

然而,Transformer的一个主要限制是其输入大小的计算缩放,这使得它不能直接处理非常长的序列。这是因为自注意机制需要对输入序列中的所有元素进行两两比较,从而导致计算时间随着序列长度的增加而增加。因此,Transformer通常用于序列长度为数百或至多数千个元素的任务。

在本文中,我们提出了Transformer架构的递归应用,以获得对相关感兴趣部分的全局理解,消除了现成的预训练Transformer的输入上下文限制。在图表4中说明作者的方法。在核心上,本文提出的模型重复使用了一个预先训练的BERT编码器大型语言模型(Devlin等人,2018),在10-X语料库上对其进行了微调。在高层次上,从下至上,模型处理输入报告如下,将在下面的章节中详细介绍:

1. 使用BERT标记器,将报告的MD&A和RF部分的文本转换为标记。将这个标记化的表示分为511个标记的组,并在每个组前添加特殊的BERT[CLS]标记,产生512个标记的块,这是BERT输入上下文限制。

2. 将每个块传送到预训练的仅限BERT编码器的大型语言模型中,并提取[CLS]令牌的输出,称为块嵌入(chunk embedding),块k在图中表示为

3. 将来自所有块的[CLS]标记合并到一个Transformer层中,隐藏维度为64,并且存在一个注意力机制。

4. 使用平均池化操作将这些标记减少为单个维度向量1024。

5. 之后该向量被传递给线性预测器,该预测器输出Beta分布的两个参数,我们使用这些参数对报告的预测归一化排序进行建模。Beta分布由于支持0到1之间是一个个较好的选择。

3.3.1 输入编码

MD&A和RF部分首先使用Spacy的Sentecizer进行划分,Spacy是一个流行的将文档分割成有意义的句子的库。然后将这些句子与中间的[SEP]标记连接在一起,使用BERT标记器进行标记化;令牌嵌入的维数为1024。最终标记化文本被分割成511+1个标记块,如上所述。假设总共有n个块。如果最后一个块计数少于511个令牌,它将被[PAD]令牌填充。

3.3.2 BERT层

接下来将每个块通过一个预先训练的BERT编码器,其中作者研究了两个版本:(i)第一个版本为从未微调过的预先训练的BERT模型,称为模型的FrozenBERT变体,(ii)第二个版本使用下面描述的程序微调BERT,称为模型的FtBERT变体。在每个块的编码器输出处,提取初始的[CLS]令牌,称之为块嵌入,块k的输出在图表4中表示为

3.3.3 Transformer层

这些向量被合并成一个Transformer层(如图表4所示)。这包含在Transformer架构的一个单层中,仅有一组注意力,它会以数学方式执行以下计算:

为标记化MD&A或RF段的第k块,的BERT编码器的输出。设为所有h的列连接,其中n为块的数量。最终,Transformer层的输出可以表示为:

由下列步骤组成:

其中,我们分别将Attention定义(自我)注意机制,FeedForward定义为带有64个隐藏单元的ReLU激活的两层前馈网络,LayerNorm定义为一层归一化操作(Ba等人,2016):

其中分别表示查询,键和值,其中分别是键和值的维数(在本文BERT设置中为1024)。其中W为可训练参数矩阵,b为前馈层的可训练偏置向量,为层归一化中仿射变换的可训练参数;ϵ是个小常数,用来避免被0除。

3.3.4 池化层

接下来,池化层对Transformer层产生的所有令牌进行平均,以生成单个向量,该向量捕获MD&A和RF部分的最显著特征。表示Transformer层的输出,具体计算为:

3.3.5 线性预测器

使用一个线性预测器将p映射到预测分布的α和β参数;由于Beta分布严格在0到1之间,这是如第2节所述的的自然表示。

为可训练参数,得到Beta分布的预测参数为:

其中,使用来保证是正的,表示z的第k个元素。最终得到公司的期望预测归一化秩为:

3.3.6 预测目标与损失函数

在训练模型时,通过最小化预测Beta分布的负对数似然(NLL)作为损失函数来预测公司i在t时刻的归一化秩

其中,对训练集中所有公司i和所有时间段t求和,由式(14)得到,Γ(∙)为gamma函数。通过使用Lion((EvoLved Sign Momentum)优化器对模型的所有可训练参数进行随机梯度下降来最小化NLL(Chen等人,2023)。

按照图表2所示的过程递归地交替模型训练和样本外评估。FrozenBERT和FtBERT的区别如下:

  • FrozenBERT:通过优化方程式中列出的所有可训练参数来最小化训练损失。在这个版本中,只依赖于预先训练的BERT模型,并且在训练过程中保持BERT参数不变。

  • FtBERT:对于前5个训练阶段,完全按照FrozenBERT进行训练,只修改等式中列出的参数。在这5个阶段之后,我们“解冻”了预先训练的BERT模型,并将其参数添加到可训练参数中,除了前面列出的参数。使用相同的损失函数。按照常见的微调实践,为此使用两种不同的学习速率:BERT模型以的学习速率进行微调,而Transformer层的学习速率为;作者发现这些速率可以维持稳定的训练。

这些超参数值是使用验证集确定的,作者也对该验证集执行了早期停止。对于选择作为测试集的每一年,验证集由6个月的公司报告组成,这些报告在测试集之前。当训练批数(epoch)的最大数目为200时,我们保存并使用在验证集上表现最好的模型(均方误差(MSE))。当MSE没有超过25个连续的批数时,停止训练,训练批数的数量可能不会达到200个。

04

实证分析:模型绩效比较

作者将所有模型分为三类。(i)基于词汇(关键字)的情绪识别:LM负面情绪、FinBERT分类分数的负面句子、MD&A长度、RF段长度。(ii)依赖于以下回归方法的词袋模型:OLS;LM负性情绪得分采用OLS加权(类似Jegadeesh和Wu(2013)),LM OLS;EN;Lasso;和SVR(类似于Manela和Moreira(2017))。(iii)接受过财务目标培训的LLM:FrozenBERT和FtBERT。

进一步比较模型在以下几个维度上的预测性能。Kelly等人(2023)认为,当涉及到股票回报的可预测性时,由于预测的方差,这可能是相当高的财务数据,传统的统计评估技术,如样本外或MSE并不含有太多信息。当预测的方差很大时,很容易为负,而在预计有最高回报的股票上做多策略的夏普比率,并卖空那些有最低预期回报的股票,可以实现相当高的正经济规模。换句话说,财务目标的可预见性绩效应基于特定投资策略的绩效进行评价。由于其高变异性,无法预测的盈余惊喜与股票回报一样具有挑战性。

根据Cohen等人(2020),作者调整了投资组合管理策略,根据股票的盈余惊喜预测将其排序为五分位数,然后评估高-低策略的OOS表现,该策略买入最高收益预测的五分位数,卖出最低收益预测的五分位数。作者评估等权重和市值加权的投资组合回报的表现,因为盈余惊喜的正负应该分别跟随更高或更低的股票回报。

对于那些通过投资组合绩效检验的指标,进一步验证了股票回报预测的横截面回归和时间序列回归结果的稳健性,并加入了时间和公司的固定效应,以及各种公司特征。

最后的稳健性检验是通过事件研究面板回归来预测盈余惊喜,或公告后5天的累积异常回报。

图表5给出了基于回归方法的组2和组3的统计量、MSE和。MSE可能看起来不是很大,因为在预测盈余惊喜的排名时,所有横截面观察都位于区间[0,1]内,因此横截面均值为0.5。即便如此,OLS方法仍然具有最高的均方误差(MSE),几乎是均值的一半。根据,OLS有很高的负值,说明对训练样本过拟合。其他具有高负值的方法有Lasso和NN。注意,只要是负指较大(Kelly等人,2023),就不能基于这些统计数据拒绝模型。其他模型的均为正向,其中RF和XGboost的值最高,分别为2.7%和1.4%。

4.1 投资组合分类


在这里,我们根据下个季度的预期回报,对股票投资组合的表现进行了评估。每个月,收集所有公开发布季报(10-Q)或年报(10-K)报告的股票。然后,依据下个季度的预期盈余惊喜,在月底将它们分成五分之一的投资组合,其中最高(最低)的投资组合包含下个季度预期盈余惊喜最高(最低)的股票。根据Cohen等人(2020),一旦被放置在一个五分位数投资组合中,一支股票将在这个投资组合中持有三个月,直到一个新的10-Q或10-K发布。然而,由于不同的公司在不同的月份提交报告,这些投资组合每月都会进行再平衡。

图表6报告了等权和市值加权,VW的在组1方法中的表现。对于每个投资组合,报告原始超额收益,一个因子(CAPM alpha),以及Fama-French的风险调整回报的五因子(FF5)和六因子(FF6)。Newey和West(1986)的3阶段滞后调整t统计量在括号中报告。此外,与Cohen等人(2020)相似,作者也报告了High-minus-Low策略的表现,即做多高五分位数投资组合(Q5),卖空低五分位数投资组合(Q1)。基于预测的投资战略的OOS绩效是在财务数据背景下对预测精度的最合适的评估(Kelly等人,2023)。

图表6的Panel A报告了基于2011年LM负面情绪得分的投资组合表现。High-minus-Low(H-L)组合的EW或VW收益率非常小,统计上不显著。这表明,目前基于负面词汇的情绪对未来表现并没有很强的预测作用。在基于否定句子的FinBERT分类和EW投资组合Panel B中也观察到了类似的现象。在VW投资组合和FinBERT分类中,结果与预期相反。这里负分值最高的投资组合Q5的收益率最高,这是一个错误的符号,H-L策略的正的,31个基点每月的原始收益率也是错误的。CAPM alpha也为正,每月25个基点(t=1.76)。即使在FF6因素调整后,它也没有变化,每月26个基点(t=1.83)。因此在VW投资组合中,FinBERT分类表现最差,因为它给出了相反的负面情绪表现预测。

Panel C报告MD&A长度的投资组合排序结果。在这里,对于EW和VW投资组合,长度最长的公司的投资组合具有最低的收益率,H-L投资组合的收益率分别为-0.189%(t=1.71)和-0.264%(t=1.92)。经市场变动调整后,这些投资组合的CAPM alpha分别为-0.23%(t=2.05)和-0.344%(t=2.48)。按年计算,MD&A长度最长的公司分别有3.8%和4.13%的表现不佳。这个结果非常有趣,因为像这样的简单度量方法优于更复杂如FinBERT的情绪度量方法。此外,具有最短长度Q1的投资组合具有正的且统计上显著的 alpha。因此,与文献中大多数成功捕获负面内容的其他指标不同(Loughran和McDonald(2011),Cohen等人(2020)),该指标能够识别积极信息。即使在FF6因子调整后,Q1的正alpha仍然具有统计学显著性。EW投资组合每月37个基点(t=5.88),或4.4%的年度基准表现,VW投资组合为19个基点(t=2.13),或2.3%的年度基准表现。此外,投资组合的alpha几乎单调下降,从Q1度到Q5的分位数的EW和VW的投资组合。然而,在FF5或FF6风险调整后,H-L策略在统计学上变得不显著。因此,该指标在识别负面信息方面不是特别稳健。

最后,Panel D报告了按RF部分长度排序的投资组合的表现。我们没有发现高和低RF长度的投资组合之间的未来表现差异的证据,和H-L收益差大多是不显著的,除了EW组合和FF5和FF6因子调整。在这里,原始超额收益率和CAPM alpha是微不足道的。然而,FF5和FF6 alpha突然变得比单独的CAPM alpha更高,H-L投资组合alpha也是如此。原因是这些投资组合的价值、盈余能力和投资FF5因子的贝塔值为负,这解释了与CAPM调整相比alpha的增加。请注意,FF6因子旨在解释相关的5到6个特征分类投资组合的溢价,而不一定适合文档长度分类投资组合溢价特征。此外,该结果不同于(Cohen等人,2020年),他们提供了与从一份报告到另一份报告的RF部分格式变化相关的时间序列证据,而本文提供了与报告总长度相关的横截面证据。

综上所述,这组表现最好的是一个简单的方法,MD&A部分的长度,并大多在最短长度是释放积极信息。

组2(基于词袋模型)类似的五分位投资组合业绩回报。识别经济和统计显著性的主要标准是EW和VW组合之间表现的一致性,以及风险调整后回报的显著性。本表中报告的模型均未通过对因子风险调整的一致性和稳健性检验。

最终作者结论是,词袋模型无法识别未来的积极或消极的盈余惊喜。

最后,图表7报告了LLM的投资组合绩效结果。与前面的所有表格不同,这里所有的H-L投资组合策略都具有经济和统计上的显著并且符号正确。

在Panel A中,投资组合基于FrozenBERT预测进行排序。原始超额收益和风险调整后的投资组合alpha几乎单调增加,从低到高五分位组合。对于VW投资组合,H-L原始超额收益率为每月43个基点(t=2.51),或每年5.16%。经过一个因子(CAPM alpha)风险调整后,它下降到每月37个基点(t=2.12)或每年4.44%。最后,经过FF6因素调整后,它变成每月32个基点(t=2.01)或每年3.8%,这仍然是一个经济意义上的高数字。这些异常回报中的大多数是由Q5五分位数,即多头头寸驱动的。结果是非常相似的EW投资组合。

Panel A显示了基于FtBERT预测的投资组合的更加一致和具有经济意义的结果。在这里,原始超额收益和风险调整后的alpha严格单调增加的投资组合五分位数。VW投资组合的结果在经济意义上更高。H-L原始超额收益率为每月56个基点(t=2.94),或每年6.74%。在CAPM风险调整后,这个数字几乎没有变化,每月50个基点(t=2.57),或每年6.01%。这令人印象深刻,因为FtBERT识别与一般市场运动无关。进一步风险调整导致H-L异常表现较低,FF5因子调整为每月33个基点(t=1.88),或每年4%,FF6因子风险调整为每月31个基点(t=1.77),或每年3.71%。与前面的讨论类似,FF5或FF6不是这些投资组合类型风险调整的最佳基准模型。例如,H-L价差随着FF5因子调整而减小,主要是因为低五分位数投资组合的alpha,即空头头寸,与相应的CAPM alpha相比在经济幅度上增加近10倍。例如,低市值加权五分位数(L)的未调整原始超额收益率为每月77个基点(t=2.67)。在CAPM风险调整后,它下降到每月-0.106%,在传统水平上微不足道。然而,在FF5调整后,它增加到-0.0002%,或在FF6调整后增加到正0.008%。

对于EW投资组合来说,这一点更加明显,低五分位数的CAPM投资组合alpha从统计上不显著的每月0.057%,跳到每月0.22%,在FF5之后变得显著(t=2.30),或者在FF6因子调整后每月0.234%(t=2.45)。这是由于FF5/6因子的负载荷造成的,除了市场因子。即使所有的H-L异常表现仍然保持显著的统计水平。作者认为一个简单的CAPM alpha是一个更好的指标来衡量这些投资组合的异常表现。

总的来说,OOS投资组合策略评估中唯一明确和一致的赢家,是财务数据中的主要准确性测试(Kelly等人(2023)),即组3(LLM)。在这一组中,FtBERT在经济规模上略优于FrozenBERT。组2在所有标准上都没有正确识别,而组1的唯一基本通过大多数标准的是MD&A小节长度。

4.1.1 动态跨期投资组合绩效

随着时间的推移,这些投资组合的表现如何?图4显示了基于2003年1月初1美元初始投资的累积OOS投资组合表现(高/Q5与低/Q6)。FtBERT,FrozenBERT和MD&A长度分类的低/Q1五分位数,并进一步将其与作为基准的类似时期的S&P500累积收益进行比较。

FtBERT确定的高投资组合是表现最好的,在2003年1月至2022年3月的OOS期间,最初的1美元投资升值超过20倍。由FrozenBERT识别的高投资组合和由低MD&A长度五分位数识别的低投资组合相互跟踪。这是一个复杂的,预先训练的LLM。在微调之前,在识别积极信息方面做了非常相似的工作,作为一个非常简单的字符计数测量。FrozenBERT在2018年之前在所有互联网的文本语料库上进行了训练,即使它从未见过EDGAR文件本身,金融新闻也远不是训练文本的主要部分。因此,FrozenBERT带有非金融文本的“噪音”,在识别积极信息方面,它的表现与简单长度的MD&A部分没有什么不同。

此外,MD&A部分的长度较长并不一定意味着糟糕的表现,因为这个投资组合主要跟踪标准普尔500指数。换句话说,MD&A部分的长度无助于识别负面信息。

相反,FtBERT和FrozenBERT在识别负面信息或表现不佳的公司方面非常相似,因为这些指标的低五分位组合表现明显低于市场。因此,FrozenBERT非常类似于文献中的其他度量(例如,Cohen等人(2020)),其成功识别负面信息。与文献中的所有其他指标不同,FtBERT成功地确定了未来业绩的积极和消极信息。

4.2 预测股票回报:线性回归法

在本节中,作者评估了在面板、时间序列和横截面回归中主要结果的稳健性,同时控制了其他知名公司特定的回报预测因子。

图表8给出了预测下个月超额公司收益的组1结果,在一个简单的单因子回归中(Panel A),添加主要的公司特征,如市值,账面市值比,动量和反转(Panel B)。每个面板都有时间(月)和公司固定效应。作者评估的主要预测因子是MD&A和RF长度,将其除以,使其与股票回报、FinBERT识别的负面句子的比例以及FrozenBERT和FtBERT预测盈余惊喜排名相同。

在单因子回归中,Panel A,类似于投资组合排序,FinBERT具有正向系数,与预期相反并且略微显著。在控制了企业效应和时间效应后,企业管理与决策长度不显著。FrozenBERT和FtBERT的系数均为正且极为显著。在Panel B中加入其他公司特定回报预测因子后,它们的系数仍然非常相似,并且在统计上高度显著。

在加入规模大小、BM、动量和反转控制变量后,FinBERT的系数变为负值,与预期相符,但与0在统计不显著。

4.3 事件研究回归:盈余公告

FrozenBERT和FtBERT被明确训练来预测盈余惊喜。上述所有测试都集中在月回报的可预测性上,隐含的假设是正(负)盈余惊喜将导致随后的正(负)回报。在这里关注的是盈余公告本身,以及公告后的5天累计异常收益率。

潜在的问题是,鉴于目前的10-Q,10-K发布是关于未来回报的信息,并且这些信息是公开的,作者应该看到市场对当前发布的一些反应。例如,Huang等人(2020)认为,机构对最新消息反应迅速,他们的交易有助于价格发现,即预测股票回报的方向。因此,如果本文指标可以正确识别信息,他们也应该预测价格发现的方向,即在事件、归档日、窗口内,归档后返回。

10-Q、10-K报告可在提交两天后从EDGAR网站免费下载。只要支付特别费用,就可以在提交日立即获得它们。那么累计异常的报告日后日回报(CAR[1,5]),可以是基于对发布消息的快速反应的真实的交易利润(Huang等人,2020年)。因此,本文指标的最终稳健性测试是预测这种价格发现及其方向。

本文计算CAR异常收益率作为CAPM调整后的收益率,使用市值加权CRSP市场指数作为市场组合的代理。在每个月底,通过回归股票在过去一年中的每日超额收益来估计每只股票的市场beta系数,同时市场超额收益以及市场收益的五个滞后,以说明小市值股票的流动性不足(Dimson,1979)。作者将市场beta系数计算为六个OLS回归系数的总和。然后,通过将事件期间的市场超额收益乘以事件前一个月的预计市场beta来估计预期回报。然后计算报告日后5天累计异常收益率CAR[1,5],即5天累计已实现收益率与相应预期收益率之差。

图表9显示了FrozenBERT(Panel A)和FtBERT(Panel B)在提交日前后的回归结果。首先,这两种方法都积极且在统计上显著地预测了未来的盈余惊喜(SUE_(t+3))。这是因为他们被预期训练执行这些预测。然而,每个面板中的第一列提供了进一步的OOS稳健性检验。

最后的稳健性检验是这些指标是否正确地预测了回报的方向,即价格发现和价格影响与这些发布的知情机构交易相关(Huang等人,2020)。FrozenBERT没有通过这个测试,因为CAR[1,5]可预测性的系数尽管有正确的正符号,但是并不显著的。相比之下,FtBERT能够预测机构交易的方向,其CAR[1,5]的可预测性系数为正且在统计上显著。最终的结论是,只有FtBERT能够捕获专业机构投资者识别的信息。但是,考虑到之前的结果,作者也认为,在财报公布后,这些信息需要几个月的时间才能完全纳入股价。后一种结论与之前文献广泛报道的盈余公告后的趋势完全一致。

05

结论

本文做出了以下贡献:(i)在最受公众关注的季报(10-Q)和年报(10-K)文件中,对不同的NLP方法在识别积极和消极信息内容方面的效率提供了全面的分析;(ii)在财务背景下引入LLM的新应用,特别是对信息进行分级聚合以及处理任意长度的公司披露;(iii)在10-Q和10-K归档文件中不仅能够识别出与以往文献相似的负向信息内容,也能够识别出正向信息内容,以及将未来的股票异常回报分为负向和正向。

本文有几个重要的结论。首先,没有一种传统的NLP方法能够稳健地识别未来正或负公司的估值变化。然而,这并不意味着10-Q或10-K报告在向市场参与者传达新的前瞻性信息方面没有用处。传统方法失败的部分原因是报告的复杂性。

第二,即使经过财务目标的培训,现成的LLM也可能不值得付出努力,因为它们与更简单的字符计数方法效果相同。

第三,对LLM的财务目标进行微调和训练,或在使用他们的预测之前“让LLM先学习金融”是一种解决方案,也是未来研究的一条富有成果的道路。在本文中引入的FtBERT在识别未来的积极和消极性能方面提供了无可比拟的结果。此外,作者还可以确定FtBERT在做出正面预测和负面预测时,哪些金融文本的权重最高。在事后进行了手工交叉检查,确认事后的表现是否确实归因于FtBERT最依赖的报告文本,并确认其高准确性。

最后,需要注意10-Q报告和10-K报告中有价值的信息内容。作者还发现,市场参与者对这一信息的反应非常缓慢,很大程度上是因为对其解释存在高度分歧。





文献来源:

核心内容摘选自Nicolas Chapados、Zhenzhen Fan、Russ Goyenko、Russ Goyenko、Fred Liu和Chengyu Zhang在Social Science Research Network Electronic Journal上的文章《Can AI Read the Minds of Corporate Executives?》



风险提示

文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。


重要声明
本文内容节选自华安证券研究所已发布证券研究报告:《人工智能可以读懂企业高管的想法吗?——“学海拾珠”系列之一百五十二》(发布时间:20230802),具体分析内容请详见报告。若因对报告的摘编等产生歧义,应以报告发布当日的完整内容为准。分析师:严佳炜 || 执业证书号:S0010520070001,分析师:吴正宇 || 执业证书号:S0010522090001。




往期报告
--基金研究--
31.《小荷才露尖尖角:黑马基金经理如何挖掘?》
30.《权益仓位再创新高,大幅加仓计算机——权益基金2023年一季报解析》
29.《基民收益启示录:寻找低落差感基金》
28.《寻找基金经理中的“稀缺基因”》
27.《加仓国防军工、交运,投资热点渐趋分散》
26.《FOF弹性与收益增厚:聚焦赛道ETF轮动》
25.《大幅加仓食品饮料,风格向大市值切换——权益基金2022年二季报解析》
24.《市场未出现大规模赎回,电新加仓成首位重仓行业——权益基金2022年一季报解析》
23.《揭秘布局优秀行业主题基金的“必要条件”》
22.《多只重仓股获主动减仓,分散持股趋势延续——权益基金2021年四季报解析》
21.《医药基金深度解析:持仓、业绩、逻辑的演绎与印证》
20.《沪深300 Pro Max——国泰300增强ETF投资价值分析》
19.《持股集中度下降,风格切换正当时——权益基金2021年三季报解析》
18.《基金投资如何选准对标的“锚”:华安分类标签框架介绍》
17.《公募权益基金的舒适管理规模是多少?》
16.《权益基金增配科技,风格向小市值切换》
15.《海纳百川:权益基金经理全景标签池
14.《百舸争流:公募固收+产品盘点与剖析 |2021固收+产品投资策略展望
13.《群雄逐鹿,公募基金销售渠道之争
12.《银行获公募大幅加仓,港股龙头配置趋势不减》
11.《剖玄析微:公募对冲基金2020年报分析
10.《基金持仓跟踪牢,抱团风向早知道》
9.狭路相逢勇者胜:精选赛道下的精选基金框架
8.《分享注册制改革红利,把握网下打新机遇》
7.权益基金市场扩容万亿,龙头公司持股进一步集中
6.《公募权益基金智能图鉴》
5.《2020年打新策略对基金的收益增厚有多少?》
4.《公募绝对收益基金持续发力》
3.《透视机构抱团行为,量化视角全面解析》
2.《公募基金产品的绝对收益之路》
1.《基金反编译:绩优指数增强基金的绝技》

--量化研究--
14.《股价和资金流间的引力和斥力》
13.《可比公司法的量化实践:重塑价值因子》
12.《寻找选股策略与行业轮动策略的“舒适区”
11.《个股alpha与行业beta的双剑合璧》
10.《震荡行情下,如何挑选估值合理、成长性强的“宝藏股”?》
9.《企业生命周期理论如何运用在选股中?》
8.《如何借鉴赛道型基金持仓?基于业绩归因视角》
7.《当价值遇见成长:均衡估值因子》
6.《成长因子再升级:盈利加速度》
5.《昼夜分离:隔夜跳空与日内反转选股因子》
4.《留存收益、投入资本视角下的估值因子改进》
3.《信息提纯,寻找高质量反转因子》
2.《量价关系的高频乐章》
1.《高频视角下成交额蕴藏的Alpha》

--中观量化--
4.《行业轮动逻辑的标签化应用:重构轮动框架》 

3.《企业生命周期理论如何运用在行业轮动中?》 

2.《消费升级,需求为王:景气度视角下的消费行业轮动策略》 

1.《盈利、估值视角下寻求板块轮动的确定性


--量化绝对收益之路--
5.《FOF赋能绝对收益:基金组合构建实战(下)》

4.《固收+组合构建白皮书:大时代的小尝试(下)

3.《固收+组合构建白皮书:大时代的小尝试(中)

2.《FOF赋能绝对收益:基金组合构建实战(上)》

1.《固收+组合构建白皮书:大时代的小尝试(上)》



--学海拾珠--
151.《A股的流动性、波动性及其溢出效应
150.《运用少量ETF可以复制主动基金的业绩吗?
149.《基于强化学习和障碍函数的自适应风险管理在组合优化中的应用
148.《投资者情绪能预测规模溢价吗
147.《基金抛售资产时的选择性偏差
146.《盈余公告披露的现象、方法和目的
145.《股票因子个性化:基于股票嵌入的因子优化
144.《动量、反转和基金经理过度自信》
143.《模糊因子与资产配置》
142.《chatGPT交易策略15个月收益500%+
141.《前景理论能否解释共同基金的业绩
140.《是否存在宏观公告溢价现象》
139.《利用深度神经网络改进时间序列动量策略
138.《基金的协偏度择时能力
137.《ETF交易与分析师预测
136.《基于堆叠自编码器和长短期记忆网络的金融时间序列深度学习框架
135.《基金窗口粉饰行为的新指标
134.《策略拥挤与流动性冲击
133.《盈余公告前的已实现测度是否能预测公告后的股票回报?
132.《共同基金的长周期表现如何?
131.《股票市场流动性、货币政策与经济周期》
130.《媒体效应如何影响基金投资者和基金经理的决策?》

129.《基于盈利公告发布日期的交易策略》

128.《基金在阶段业绩不佳后会调整激进程度吗?》

127.《20和21世纪风格因子表现的趋势和周期》
126.《基金持仓集中度究竟如何影响基金业绩?》
125.《投机股与止损策略》
124.《基金具有情绪择时能力吗?》
123.
122.
121.
120.
119.
118.
117.
116.ETF
115.BABBeta
114.
113.
112.线
111.
110.Beta
109.
108.
107.
106.
105.
104.
103.
102.
101.
100.
99.
98.
97.
96.
95.Beta
94.
93.
92.退
91.
90.
89.
88.
87.
86.
85.
84.
83.
82.
81.
80.
79.
78.
77.
76.
75.
74.
73.
72.
71.
70.
69.
68.
67.
66.
65.
64.

63.

62.

61.

60.使
59.
58.
57.
56.
55.
54.
53.
52.
51.

50.

49.
48.
47.
46.
45.
44.
43.
42.
41.
40.
39.
38.
37.
36.
35. 
34.
33.
32.
31.
30.
29.
28.
27.
26.Alpha
25.betabeta
24.
23.
22.Alpha
21.
20.Alpha
19.Beta
18.Alpha
17.
16.
15.
14.
13.
12.
11.
10.
9.VIX
8.
7.
6.
5.
4.
3.
2.
1.

--打新跟踪--

136.《创业板新股涨幅、参加账户数双升》

135.《科创板年内最大IPO华虹公司完成询价》

134.《创业板新股密集上市,月度打新收益率创新高》

133.《创业板新股收益回暖,情绪指数持积极态度》

132.《新股首日涨幅回暖,A类参与户数回升》

131.《农科巨头先正达成功过会,拟募资650亿元》

130.《本周新股涨幅环比下行,发行规模有所上升》

129.《5月双创破发率30%,主板打新收益回落》

128.《近期新股上市节奏维稳》

127.《新股首日涨幅分化,打新情绪底部回暖

126.《主板注册制运行满月,打新收益较为稳健

125.《4月创业板新股情绪回落,破发比例达62.5%》

124.《双创又见破发,打新收益环比下行

123.《首批注册制主板新股上市首日表现亮眼双创

122.《科创板新股首日涨幅回暖,首批注册制主板新股迎来上市

121.《首批注册制主板新股中签结果公布

120.《注册制首批主板新股询价状况如何?

119.《注册制下首批主板企业过会

118.《北交所迎本年首只网下询价新股

117.《二月上市节奏回温,打新收益环比上涨

116.《打新参与账户略有回升,核准制“扫尾”发行提速

115.《全面注册制正式文件落地

114.《打新收益显著上行,情绪指数维持积极态度

113.《情绪冷暖指数建议近期打新持积极态度

112.《1月发行节奏缓慢,打新收益环比下行

111.《北交所做市业务持续推进

110.《百花齐放不复在,潜心耕耘结硕果——2023年网下打新展望

109.《北证破发率居高,多家待上市企业下调发行底价

108.《2022年A类2亿资金打新收益率约3.47%

107.《新股收益与参与账户数环比维持稳定》

106.《新股收益环比小幅下行,本周维持零破发》

105.《双创打新收益稳步增长,北证迎来发行高峰》

104.《11月打新收益环比上行》

103.《北证50指数产品发行在即,推进北交所高质量扩容》

102.《打新收益企稳,参与账户数缓慢回升》

101.《北交所推出融资融券制度》

100.《北交所下半年发行提速,北证50成分股公布

99.《麒麟信安上市表现亮眼,10月打新收益回温》

98.《破发率降低,打新收益自底部回暖》

97.《科创板股票做市交易业务准备就绪》

96.《科创板破发幅度较大,参与账户数显著下降》

95.《新股破发率企高,上市涨幅较低》

94.《北交所开启网下询价,发行制度实践更加完善》

93.《破发有所改善,但上市涨幅仍维持低迷》

92.《破发再现,打新收益率显著降低》

91.《八月上市规模环比上升,打新收益创年内新高》

90.《新股上市涨幅维稳,本周维持零破发》

89.《打新收益持续回温,海光信息贡献突出》

88.《打新收益回暖,机构参与积极》

87.《7月新股破发率提升,打新收益环比下降》

86.《近期新股定价PE上移,破发比例或再度上升》

85.《新股涨幅下降,单周打新贡献为负》

84.《新股破发再现,仍需警惕定价较高风险》

83.《新股首发PE中枢回落,定价趋于理性》

82.《六月新股打新收益创今年新高》

81.《科创板打新参与账户数量回升》

80.《新股上市涨幅大幅回暖,账户数量趋稳》

79.《五月上市规模较小,但网下询价新股均未破发》

78.《询价新规常态化运作,打新收益测算调整》

77.《打新收益回暖,本周新股申购密集》

76.《询价节奏缓慢,本月尚未有注册制新股上市》

75.《新股破发率较高,近期询价节奏缓慢》

74.《4月科创板打新呈负收益,主板中国海油收益较高》

73.《新股破发加剧,部分固收+产品率先退出打新》

72.《近期新股上市首日涨幅维持低迷》

71.《机构打新参与度持续走低》

70.《机构精选个股参与打新,定价能力日益突出》

69.《新股再现密集破发,单周打新负贡献》

68.《打新市场回温,3月上旬打新收益已超2月》

67.《大族数控成节后首只破发新股,2月打新收益较低》

66.《本周询价新股密集,预计总募资过百亿》

65.《创业板已成为打新收益主要来源》

64.《节后上市节奏缓慢,本周暂无询价新股》

63.《2022年1月A类2亿资金打新收益率0.36%》

62.《新股表现大幅回暖,单周打新贡献突出》

61.《上周市场情绪不佳,新股现密集破发》
60.《北证网上申购热情高涨,本周科创板打新负收益》
59.《发行节奏稳中有进,打新制度红利尚存——网下打新2021回顾与2022展望》
58.《2021全年新股发行规模超5000亿》
57.《2021至今A类2亿资金打新收益率12%》
56.《北交所网下投资者管理特别条款正式发布》
55.《新规后新股上市日内价格怎么走?》
54.《新股上市表现回暖,参与账户数趋稳》
53.《科创板年内最大新股百济神州询价待上市》

52.《从收益角度调整打新能力评价指标》

51.《北交所首批IPO新股采用直接定价发行》

50.《打新账户数量降低,机构参与热情下降》

49.《多只新股破发,打新收益曲线调整》

48.《新股发行价显著上行,中自科技上市首日破发》

47.《部分新股定价突破“四值”孰低》

46.《网下询价分散度提升,有效报价区间拓宽

45.《本周注册制新股询价新规正式落实》

44.《如何估测未来网下打新收益率?》

43.《打新账户数量企稳,预计全年2亿A类收益率11.86%》

42.《新股上市涨幅回落,下调打新收益预期》
41.《2021至今A类2亿资金打新收益率9.8%》
40.《注册制发行制度优化、促进定价博弈平衡》
39.《从交易情绪中预测次新股走势》
38.《各类“固收+”打新基金推荐 》
37.《新股上市后价格一般怎么走?(下)》
36.《新股上市后价格一般怎么走?(中)》
35.《新股上市后价格一般怎么走》
34.《新股上市首日流动性分析》
33.《2021上半年打新回顾:常态发行,稳中有进》
32.《寻找主动进取型打新固收+产品》
31.《寻找红利低波型打新固收+产品》
30.《寻找防御型打新固收+产品》
29.《年内最大新股三峡能源等待上市
28.《单周上市规模200亿,和辉光电涨幅不及预期》
27.《优质新股集中上市,单周打新收益突出》
26.《新股上市首日最佳卖出时点有所后移》
25.《新股发行稳中有升,IPO排队现象缓和》
24.《2021新股上市规模破千亿 
23.《新股上市节奏趋于平稳,上市表现有所回暖》
22.《2021打新收益的规模稀释效应更加显著》
21.《科创板C类打新账户数量渐超A类》
20.《单周新股上市规模超百亿,3月规模环比上升》
19.《注册制上市涨幅维持150%,主板略微回落
18.《A类账户数量企稳,2021打新收益可期》
17.《极米科技上市涨幅超300%,打新贡献显著
16.《IPO发行常态化,2021新股规模可期》
15.《2021至今A类2亿资金打新收益率1.3%》
14.《1月新股上市规模同比下降》
13.《滚动跟踪预测2021打新收益率》
12.《基金打新时的资金使用效率有多少?》
11.《A股IPO发行定价历程回望
10.《注册制助推IPO提速,2021新股储备较为充足》
9.《如何筛选打新基金?》
8.《如何测算2021年网下打新收益率?》
7.《6个月锁定期对打新收益有何影响?》
6.《新股何时卖出收益最高?(下)》
5.《新股何时卖出收益最高?(上)》
4.《网下询价谋定而后动》
3.《从参与率和入围率两个角度筛选打新基金》
2.《网下打新报价入围率整体略有下滑》
1.《新股上市降速,蚂蚁暂缓发行》

--其他研究--
--指数研究--
6.《编制规则修改,沪深300指数或迎新成员——2021年12月主要指数样本股调整预测》
5.《2021年6月主要指数样本股调整预测
4.《美国ETF监管新规导读》
3.《沪深300杠杆反向基金在港交所上市》
2.《半透明主动ETF:海外资管新风口》
1.《亚洲首支权益主动型ETF在香港上市
--事件点评--
5.《全面注册制改革启动,打新收益或重获关注
4.《震荡环境下的A股市场展望》
3.《侧袋机制在公募产品中的应用展望》
2.《上证综指编制规则优化简评》
1.《T+0交易制度的境外发展与境内探索》
--数据智库--
7.《2021Q2基金重仓股与重仓债券数据库》
6.《2021Q1基金重仓股与重仓债券数据库》
5.《打新策略定期跟踪数据库》
4.《权益基金定期跟踪指标库》
3.《2020Q3基金重仓股与重仓债券数据库》
2.《ETF跟踪模板发布》
1.《指数增强基金跟踪模板发布
--产品分析--
11.《华商基金张晓:俯筛赛道,仰寻个股》
10.《以静制动,顺势而为:景顺长城中证红利低波动100ETF投资价值分析》
9.《华商基金余懿:注重平衡,兼顾逆向和景气》
8.《华商基金彭欣杨:自上而下与自下而上相结合》
7.《华商基金厉骞:擅长进攻的”固收+“名将》
6.《华富基金尹培俊:擅长资产配置的绩优“固收+”舵手》
5.《华富成长趋势投资价值分析报告》
4.《创业板中报业绩亮眼,创业板指配置正当时》
3.《宽基中的宽基:国泰上证综指ETF投资价值分析》
2.《聚焦行业龙头,布局电子赛道》
1.《应对不确定性,黄金配置正当时》





关于本公众号
“金工严选”公众号记录华安证券研究所金融工程团队的研究成果,欢迎关注

重要声明

适当性说明

《证券期货投资者适当性管理办法》于2017年7月1日起正式实施,通过本微信订阅号/本账号发布的观点和信息仅供华安证券的专业投资者参考,完整的投资观点应以华安证券研究所发布的完整报告为准。若您并非华安证券客户中的专业投资者,为控制投资风险,请取消订阅、接收或使用本订阅号/本账号中的任何信息。本订阅号/本账号难以设置访问权限,若给您造成不便,敬请谅解。我司不会因为关注、收到或阅读本订阅号/本账号推送内容而视相关人员为客户。市场有风险,投资需谨慎。


投资评级说明

以本报告发布之日起12个月内,证券(或行业指数)相对于沪深300指数的涨跌幅为标准,定义如下:

行业及公司评级体系

买入—未来6-12个月的投资收益率领先市场基准指数15%以上;增持—未来6-12个月的投资收益率领先市场基准指数5%至15%;中性—未来6-12个月的投资收益率与市场基准指数的变动幅度相差-5%至5%;减持—未来6-12个月的投资收益率落后市场基准指数5%至15%;卖出—未来6-12个月的投资收益率落后市场基准指数15%以上;无评级—因无法获取必要的资料,或者公司面临无法预见结果的重大不确定性事件,或者其他原因,致使无法给出明确的投资评级。市场基准指数为沪深300指数。


分析师承诺

本人具有中国证券业协会授予的证券投资咨询执业资格,以勤勉的职业态度、专业审慎的研究方法,使用合法合规的信息,独立、客观地出具本报告,本报告所采用的数据和信息均来自市场公开信息,本人对这些信息的准确性或完整性不做任何保证,也不保证所包含的信息和建议不会发生任何变更。报告中的信息和意见仅供参考。本人过去不曾与、现在不与、未来也将不会因本报告中的具体推荐意见或观点而直接或间接收任何形式的补偿,分析结论不受任何第三方的授意或影响,特此证明。


免责声明

华安证券股份有限公司经中国证券监督管理委员会批准,已具备证券投资咨询业务资格。本报告中的信息均来源于合规渠道,华安证券研究所力求准确、可靠,但对这些信息的准确性及完整性均不做任何保证,据此投资,责任自负。本报告不构成个人投资建议,也没有考虑到个别客户特殊的投资目标、财务状况或需要。客户应考虑本报告中的任何意见或建议是否符合其特定状况。华安证券及其所属关联机构可能会持有报告中提到的公司所发行的证券并进行交易,还可能为这些公司提供投资银行服务或其他服务。


本报告仅向特定客户传送,未经华安证券研究所书面授权,本研究报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品,或再次分发给任何其他人,或以任何侵犯本公司版权的其他方式使用。如欲引用或转载本文内容,务必联络华安证券研究所并获得许可,并需注明出处为华安证券研究所,且不得对本文进行有悖原意的引用和删改。如未经本公司授权,私自转载或者转发本报告,所引起的一切后果及法律责任由私自转载或转发者承担。本公司并保留追究其法律责任的权利。


有态度的金融工程&FOF研究

长按识别二维码关注我



本篇文章来源于微信公众号: 金工严选

本文链接:http://17quant.com/post/%E3%80%90%E5%8D%8E%E5%AE%89%E9%87%91%E5%B7%A5%E3%80%91%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E5%8F%AF%E4%BB%A5%E8%AF%BB%E6%87%82%E4%BC%81%E4%B8%9A%E9%AB%98%E7%AE%A1%E7%9A%84%E6%83%B3%E6%B3%95%E5%90%97%EF%BC%9F%E2%80%94%E2%80%94%E2%80%9C%E5%AD%A6%E6%B5%B7%E6%8B%BE%E7%8F%A0%E2%80%9D%E7%B3%BB%E5%88%97%E4%B9%8B%E4%B8%80%E7%99%BE%E4%BA%94%E5%8D%81%E4%BA%8C.html 转载需授权!

分享到:

相关文章

【方正金工】主动权益基金整体上涨,市场资金申购宽基指数ETF——公募基金一周复盘回顾

【方正金工】主动权益基金整体上涨,市场资金申购宽基指数ETF——公募基金一周复盘回顾

本文来自方正证券研究所于2022年12月4日发布的报告《主动权益基金整体上涨,市场资金申购宽基指数ETF——公募基金一周复盘回顾》,欲了解具体内容,请阅读报告原文,分析师:刘洋 S1220522100...

【方正金工】主动权益基金年内收益明显收敛,基金投顾管理规模近1200亿元——公募基金一周复盘回顾

【方正金工】主动权益基金年内收益明显收敛,基金投顾管理规模近1200亿元——公募基金一周复盘回顾

本文来自方正证券研究所于2023年3月13日发布的报告《主动权益基金年内收益明显收敛,基金投顾管理规模近1200亿元》,欲了解具体内容,请阅读报告原文,分析师:刘洋 S1220522100001,联系...

【中信建投策略】围绕业绩趋势,相对均衡——行业比较月报2023年4月

【中信建投策略】围绕业绩趋势,相对均衡——行业比较月报2023年4月

重要提示:通过本订阅号发布的观点和信息仅供中信建投证券股份有限公司(下称“中信建投”)客户中符合《证券期货投资者适当性管理办法》规定的机构类专业投资者参考。因本订阅号暂时无法设置访问限制,若您并非中信...

医药成公募基金重仓首位,债基久期上升;FOF增配医药类基金——2023年公募基金&FOF四季报解析

医药成公募基金重仓首位,债基久期上升;FOF增配医药类基金——2023年公募基金&FOF四季报解析

重要提示:通过本订阅号发布的观点和信息仅供中信建投证券股份有限公司(下称“中信建投”)客户中符合《证券期货投资者适当性管理办法》规定的机构类专业投资者参考。因本订阅号暂时无法设置访问限制,若您并非中信...

【德邦金工|周报】本周A股日均成交额超12000亿,电子、计算机融资净流入居前——德邦金工择时周报20230409

【德邦金工|周报】本周A股日均成交额超12000亿,电子、计算机融资净流入居前——德邦金工择时周报20230409

 摘要 投资要点A股整体上涨。 A股整体领涨于全球股市,其中科创50上涨7.35%;美国股市整体表现微跌,其中道琼斯工业指数上涨0.63%;欧洲股市微涨,其中英国富时10...

开源一席谈•量化 会议预告:金安达

开源一席谈•量化 会议预告:金安达

嘉宾简介:金安达,华夏基金社保投资部基金经理。中央财经大学数理经理与数理金融学士,北京大学汇丰商学院金融学硕士和香港中文大学理学硕士。7年金融从业经历,2年基金投资运作管理经验。曾任鹏华基金量化及衍生...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。