中金 | 另类数据策略（2）：如何优化新闻文本因子

admin1年前 (2023-09-16)研报1002

Abstract

摘要

新闻数据是目前另类数据中覆盖度较高、使用场景丰富、历史相对较长的数据种类之一。能够驱动股价变化的上市公司相关信息基本会被对应的新闻所报道。我们使用提高信噪比、计入预期与行业聚合等方法对新闻文本数据进行优化后得到的新闻因子在因子层面和行业轮动层面都有明显效果。

新闻文本全景测试：新闻参数对因子策略的敏感性

数据量迅速上升、覆盖度维持高位：随着移动互联网的迅速普及，新闻数据总量在过去十年逐年上升。本篇报告使用的数库新闻数量从2016年前的不足60万篇到2022年已超过800万篇；覆盖度在基本宽基指数中较为稳定，近十年全A覆盖率也稳定高于90%，这意味着新闻数据在全样本因子策略层面或具备基础条件。

新闻数据的问题与标签系统：新闻数据体量大、信噪比低但信息总量高，若想要应用于量化策略开发，首先需要解决如信息冗余、低相关非重大信息占比高等问题。我们全面测试了数库的新闻标签分布，利用新闻相关度以及新闻等级等关键要素对原始新闻文本因子进行改造。

新闻因子表现对新闻关键参数的敏感性分析：我们发现新闻与公司的相关度、新闻等级筛选新闻提升信噪比的同时会导致新闻数量不足进而使得因子表现先升后降。我们对多种BERT模型进行迁移训练得到不同准确度的模型构建新闻因子，测试发现新闻情感准确度在超过某一阈值后对于新闻因子表现的增益边际减弱。

新闻动量因子与新闻情感因子构建方法

新闻动量因子具有信息增量：选择有新闻日期的收益率按月度将收益率综合构建新闻驱动的动量因子。我们使用市值、行业以及传统动量因子同时中性化因子后发现中性化前后ICIR分别为0.49和0.38，2016年以来多空年化收益率中性化前后分别为6.81%与3.03%，由此可知新闻动量因子相对传统动量因子仍有一定信息增量。

标签筛选新闻因子构建：我们将单条新闻文本聚合成上市公司日度新闻得分因子。我们发现对新闻进行筛选提升信噪比、结合预期信息进行修正或者向上聚合得到行业新闻得分等手段均对原始因子具有明显提升效果，优化后的新闻因子与传统非另类数据因子相关性较低。

新闻文本因子优化方向：提高信噪比、计入预期与行业聚合

高信噪比新闻因子多空年化收益13.8%：原始新闻文本因子的ICIR仅0.19，多空组合年化收益2.7%，整体效果不佳。我们考虑结合前期敏感度分析对新闻进行筛选，在使用60%公司相关度、2级级别筛选新闻后聚合得到高信噪比新闻因子，其多空年化收益达13.8%，夏普提升至1.60，超额部分年化收益7.2%，夏普为1.75。

计入预期的新闻因子超额夏普1.90：我们认为新闻因子策略的主要难点还在于即使对于新闻本身判断完全正确且新闻本身重大且高相关，后续股价仍会因为提前计入预期等原因和新闻方向背离。我们针对这种情况构建20日预期调整的新闻因子，多空策略和多头超额的夏普可进一步提升至1.73和1.90，且与现有因子相关性均较低。

行业聚合的新闻因子多头年化9.1%：将原始新闻因子z-score处理后聚合至行业层面测试发现，IC均值6.3%，ICIR为0.29，多空组合与多头超额年化收益率为12.5%和7.0%。加入公司相关度和新闻级别筛选新闻后构建的单因子多头年化收益率达到9.1%，夏普比率提升至1.37。

整合入现有行业轮动2.0系统有所提升：新闻文本行业因子收益率在中金行业轮动2.0系统中排名靠前，且与现有轮动因子相关性较低。新闻因子加入行业轮动2.0系统中的波动率大类后，将原模型年化10.85%收益率提升至10.99%，夏普比率提升至1.64。我们单独测算新闻因子的行业持仓发现与现有行业轮动模型持仓重合度偏低。

风险

模型基于历史数据构建，未来可能存在失效风险；全文模型结果基于文本数据来源的稳定性，当文本数据来源发生变化时，模型效果也会出现偏差，例如数据商提供另类数据时可能会对数据进行初步筛选和处理，处理方法变更可能对模型表现有影响；本文提到的所有量化模型仅在特定的测试框架下可以达到文中展示的测试效果，测试框架变化会对模型表现有一定影响。

Text

正文

2022年底以来以GPT系列为首的大模型引起广泛的讨论，文本数据在量化策略中的应用也开始受到重视。但丰富的NLP模型和海量的文本信息本身都给量化策略应用另类数据带来了不小难度。本文中我们专注于新闻文本信息，讨论新闻文本的构建与优化方法，并测试其在因子策略以及行业轮动中的效果。

新闻文本数据全景测试

新闻文本数据作为另类数据的主要来源之一，具有体量大、信噪比低、信息种类丰富等特点。对投资来说有如下优缺点：

► 个股层面：新闻文本数据中包含了大量的情感信息，投资者可以通过情感分析了解市场参与者对特定公司或行业的情感态度；

► 大势判断：通过对大量新闻文本数据的分析，投资者可以更好地对大势进行研判。从社会事件、政治动态到经济指标，新闻文本数据可以提供多维度的信息，帮助投资者把握市场的变化；

► 风险管理：通过对新闻数据的监测，投资者可以发现公司潜在问题、产品质量问题等风险，从而做出适当的风险规避调整；

► 与现有策略相关性低：投资决策需要综合考虑多方面的因素，新闻文本数据可以与其他数据源（如财务数据、社交媒体数据等）融合，构建更全面的分析体系。这有助于减少信息偏差，提高投资决策的准确性。

但也有部分缺点难以忽略：1）新闻数据的问题主要在于信息较为冗余、主次难以分辨；2）具有大量与上市公司无关的新闻降低信噪比等。

图表1：新闻数据应用在投资中的优缺点

资料来源：数库，中金公司研究部

公司覆盖度高、逐年增长、重复度高、低相关多

新闻数据是目前另类数据中使用场景较丰富，历史也相对较长的数据种类之一。不仅可以根据新闻本身的热点属性创造市场热点轮动的投资组合，还可以根据新闻的新闻情感构造因子策略，或者将新闻数据聚合至行业风格做进一步轮动策略。本章将以数库科技（ChinaScope，下称数库）提供的新闻文本数据库为例详细统计新闻数据的分布及变迁。后续的新闻文本数据也来自数库提供的新闻文本数据库。

数库的新闻数据数量总量在过去十年逐年上升，2016年前涉及上市公司的新闻数量不超过60万篇，至2022年已超过800万篇；覆盖度在基本宽基指数中的覆盖率也较为稳定，近十年在中证800中的覆盖率稳定高于97%，全A覆盖率也稳定高于90%。

图表2：数库新闻数据数量

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表3：数库新闻数据覆盖度

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表4：数库全部新闻数据A股占比

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表5：数库 A股新闻情绪数据分布

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

我们在上一节提到新闻数据的问题主要在于信息较为冗余、主次难以分辨，大量新闻主体与上市公司无关。这些问题对于数据处理效率和作为量化策略数据的使用都有一定的负面影响。

图表6：重复新闻较多

资料来源：数库，中金公司研究部

新闻的重点标签：相关性与新闻级别

我们认为如果新闻文本要被应用到量化策略中，第一步需要首先处理上述诸如新闻数据重复等传统问题，也即是对新闻文本数据的信噪比进行提升。我们可以利用数库中包含的新闻标签，本文主要使用其中的两类标签：新闻与公司的相关性、新闻级别，将以上标签进行组合对新闻进行筛选，一定程度上可以解决新闻数据冗余、与上市公司低相关等问题。

新闻与上市公司的相关性

识别新闻与哪些公司相关对于分析财经新闻而言是一项重要的基础性工作，通过提取新闻中的公司能够将新闻与具体的公司进行关联，进而将新闻中提及的其他内容，如行业、事件、新闻等关联到相关公司并计算相关性。我们使用数库提供的上市公司标签进行统计和后续计算。数库目前采用了以知识库为基础，加入Lattice LSTM+CRF的神经网络模型进行语义消歧的算法。并根据从财经新闻中提取公司这个特定的需求，进行了一系列针对性的优化。该标签的数值范围为0到1区间内的连续值，值越高，代表当前新闻与对应的公司相关性越高。自2013年起，新闻数量逐年提升；新闻总量中，相关性超过0.5的不足50%，再次验证了新闻数据中存在冗余的问题。

图表7：新闻与上市公司相关性分布

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表8：新闻与上市公司相关性年度分布

注：数据截至2023-08-31
资料来源：数库，Wind，中金公司研究部

图表9：数库新闻相关性标签样本

资料来源：数库，Wind，中金公司研究部

新闻的等级分布

数库的新闻等级标签主要和新闻事件类型绑定，对新闻事件进行分类后，利用人工标注标记不同类别事件的新闻等级，得到五个不同的新闻等级。随着新闻等级的升高，对应事件的级别相应提升。可以看到每年A股新闻中1级和2级的新闻占比较高，而0级，3级和4级新闻的比例则较低；总量分布中，2级新闻占比超过50%。

本文使用的新闻等级分类取自数库科技提供的新闻数据库中的事件等级划分标签，数库的做法是将所有新闻事件按照一定算法划分大类，不同类别的事件对应不同等级事件，例如公司债发行事件等级大概率低于公司高管变动事件。需要注意的是事件等级的划分与数库提供的事件分类标准相关度较高，数库科技提供的事件分类标准发生改变将使得事件等级划分结果有所变化。

图表10：新闻通过事件类别划分事件等级

注：上述事件分类和新闻级别数据均来自数库科技

资料来源：数库，Wind，中金公司研究部

图表11：不同级别新闻事件示例

注：上述事件分类和新闻级别数据均来自数库科技

资料来源：数库，Wind，中金公司研究部

图表12：数库A股新闻等级分布

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表13：数库A股新闻等级年度分布

注：数据截至2023-08-31
资料来源：数库，Wind，中金公司研究部

图表14：数库新闻等级标签样本

资料来源：数库，Wind，中金公司研究部

新闻信噪比和新闻准确度如何影响因子表现？

新闻因子构建的基础在于新闻的新闻分类结果，新闻分类的结果会很大程度影响新闻因子的表现，然而新闻分类的准确度到底如何影响因子表现市面上没有太多讨论。我们在《另类数据策略（1）：文本数据的可能性》中提到数据信息含量丰富度较高、覆盖面广，NLP模型的复杂度和新闻准确度对于量化策略效果的提升或许不是唯一重点，尝试提高数据信噪比和提高数据与投资的丰富组合方式，针对不同场景使用合适的NLP模型也是同样重要的探索方向。我们认为当新闻准确度较低时开始提升确实对新闻因子表现有所帮助，但当提升到某一阈值后进一步提升新闻判别准确度对量化模型的表现会迅速衰减。

数库的新闻文本数据基于新闻的标题及摘要内容，采用了基于卷积神经网络和支持向量机模型的组合方法，并加入了事件信息进行修正。具体做法是首先对新闻进行摘要提取，然后使用支持向量机模型对新闻的标题和正文进行分析，使用卷积神经网络对新闻的标题和摘要进行分析，并使用事件标签算法对新闻标题进行事件提取，然后对三组结果进行组合得出新闻情感结果。新闻分类任务可以看作一个正、负和中性的三分类问题，但对于新闻分析而言，正负面分类往往更加重要，数库新闻数据抽样下的总误判率为6.41%，正面结果准确率为95.7%，负面结果召回率为97.3%，总体与我们人工抽查主观判断的准确率评估接近。我们认为在千万级别体量新闻数据中数库新闻判别的平均准确率基本可以满足量化策略的要求。因此在下一部分我们研究不同模型的新闻判别准确度时为计算和对比方便，我们假定数库新闻判别准确度为100%。

图表15：数库文本新闻分类模式

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表16：数库随机抽样准确率结果

注：数据截至2023-08-31
资料来源：数库，Wind，中金公司研究部

为了进一步说明不同新闻判别准确度对于量化策略的影响，我们使用相对直观和经典的应用场景因子策略来说明这一参数对结果的影响。我们使用了经典词袋模型（BOW）、BERT预训练模型等模型得到不同准确率的新闻判别结果。聚合至个股日度新闻得分构建不同模型的新闻因子。我们发现不同准确度的新闻判别模型得出的新闻因子在表现上与新闻判别准确率（相对数库）成明显正相关关系，但准确率超过一定阈值后因子表现将不再显著上升，我们认为此时新闻因子的优化方向重点将不再只是提高NLP模型复杂度或准确度本身，提升新闻因子表现的“梯度下降的方向”可能需要另外探索。考虑模型测试时间成本，我们首先使用80%公司相关度标签和2级新闻等级对新闻做一次筛选，将千万级别的新闻数据降低至十万级别的同时降低模型训练时间成本。

► 词袋模型（BOW）新闻测试

采用《如何挖掘基金经理展望文本中的隐含信息？》中提到的BOW的方式对新闻进行新闻判别，流程分为两步：首先统计每条新闻标题中包含的积极词汇和消极词汇的数量；其次根据积极和消极词汇统计数量的相对大小关系，判定当前新闻的新闻性，若积极词汇多于消极词汇，则为正向新闻，否则为负向新闻。以数库新闻标签作为对照，分别按照如下公式计算BOW新闻文本预测算法的总准确率和正面结果准确率分别为78.62%和93.47%。

总准确率 = [(数库正向标签，预测正向标签)+(数库负向标签，预测负向标签)] / 全体样本数

正面结果准确率 = (数库正向标签，预测正向标签)/ 数库正向标签样本数

召回率 = (数库负向标签，预测负向标签) / [(数库负向标签，预测正向标签)+(数库负向标签，预测负向标签)]

图表17：中文金融正负词表来源

资料来源：姜富伟、孟令超、唐国豪，“媒体文本情绪与股票回报预测”，《经济学(季刊)》，2021年第4期，第1323-1344页；中金公司研究部

图表18：词袋模型（BOW）新闻判别流程图

资料来源：数库，中金公司研究部

► BERT迁移学习新闻测试

BERT（Bidirectional Encoder Representations from Transformers）是一个基于深度双向预训练语言理解模型。Bidirectional也是BERT的主要创新点：BERT前的预训练语言模型，如ELMO和GPT的方向都为单向，忽略了结合上下文的语义信息对文本理解任务的重要性。

BERT的预训练：BERT预训练的流程大致分为三步：1）使用WordPiece模型对英语维基百科和BooksCorpus的大约33亿个单词进行分词处理，将分词后的文本序列输入到BERT的嵌入层，生成词嵌入（word embedding）；2）这些词嵌入被送入多层Transformer Encoder（即Encoder Stack）中；3）在经过Transformer Encoder处理的词向量上进行MLM（Masked Language Modeling）和NSP（Next Sentence Prediction）这两个训练任务，并产生一个联合训练的损失函数从而迭代更新整个模型参数，使模型能够更好地理解文本的语义和上下文信息。由于BERT在上述预训练过程中同时可以获悉文本前后的内容，其新闻判别能力相对较强。

BERT的微调：BERT 模型微调过程需要在模型中再额外添加一个输出层。下图的 (a)、(b)分别是多句子和单句子的分类任务，Transformer输出中[CLS]标记位的向量经过一层维度为 H(隐藏层维数)×K(分类数)的网络W后用softmax进行分类，在特定任务数据集中对 Transformer模型和网络W进行有监督的训练直至收敛。具体训练方法介绍请见《另类数据策略（1）：文本数据的可能性》。

预训练阶段的算力和时间成本较高，我们直接使用huggingface.co网站中公开可得的两种已经使用中文金融新闻语料训练的bert-base-chinese 模型和bardsai/finance-sentiment-zh-base模型在数库新闻判别结果中进行微调训练。使用一千条具有数库新闻标签的新闻标题信息在4070ti显卡上进行迁移训练，花费时间为30分钟以内。最终我们得到总体正负新闻准确度为90%和86%的微调后BERT模型，下文称BERTCN模型和BERTNEWS模型。

图表19：BERT模型预训练的两类任务

资料来源：Devlin, J., Chang, M., Lee, K., & Toutanova, K, 2018, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”

图表20：BERT模型的迁移训练（微调）

资料来源：Devlin, J., Chang, M., Lee, K., & Toutanova, K, 2018, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”

新闻准确率超90%后对因子表现影响边际减弱

我们在本节采用不同新闻判别算法得到不同的新闻判别结果标签，假设数库的新闻判别准确率为100%。测试后发现词袋模型（BOW）、BERTNEWS和BERTCN模型相对数库原版的正负新闻准确率分别为78%、86%和90%，我们再手动将数库新闻判别结果手动调反30%标签可得准确率70%新闻判别准确率结果。一共可以得到准确率逐渐上升的四类新闻判别模型，我们再将四类模型输出的新闻聚合至上市公司当日作为日度新闻因子。比较四种不同的新闻预测算法我们对比以上四种模型的结果发现，合成的新闻因子的性能，可以得到两个主要结论：

► 在新闻识别准确率较低时，新闻因子表现与新闻准确率呈明显正相关，具体体现在五种模型的新闻识别准确率逐渐上升时，对应的因子表现也有下降；

► 但在新闻准确率达到90%及以上时，新闻识别准确率的上升对新闻因子性能影响有限，以数库和BERTCN来源的因子表现为例，BERTCN模型的新闻识别准确率（数库为对照）约为90%，但两个模型对应的因子表现较为接近，后者多空年化收益还略高于数库原始因子。

图表21：不同新闻识别算法合成新闻因子表现

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

相关性、新闻等级与新闻数量的平衡

本节采用不同的标签（相关性和新闻等级）阈值对新闻进行筛选并聚合为对应的新闻因子，比较因子对不同标签阈值的敏感性表现。我们发现对新闻文本有更高标准的要求确实可以提升新闻的信噪比，但随着对新闻要求逐渐严格，新闻数量逐渐降低，因子缺失值逐渐增多，表现的稳定性也快速降低。因此我们发现新闻的标签筛选和入选的新闻数量也需要寻找一个平衡点，我们发现对于相关性、新闻等级来说，优化结果显示参数应使用60%相关性和2级新闻事件。

我们发现相关性标签取值在60%附近时对因子表现影响较小，新闻因子ICIR稳定在0.3上下，多空收益则在7%-8%区间内浮动。当使用2或3级新闻等级作为筛选阈值，新闻因子表现较为稳定，IC均值高于1.4%且多空夏普超过1.7。

图表22：新闻因子对相关性敏感度测试IC表现

资料来源：数库，Wind，中金公司研究部

图表23：新闻因子对相关性敏感度测试收益表现

资料来源：Wind，Bloomberg，中金公司研究部

图表24：新闻因子对新闻等级敏感度测试IC表现

资料来源：Wind，Bloomberg，中金公司研究部

图表25：新闻因子对新闻等级敏感度测试收益表现

资料来源：数库，Wind，中金公司研究部

新闻文本因子的构建方法

新闻数据因子化的方向较为多样，我们本节主要构建和测试了新闻动量和新闻文本因子。新闻动量的构建方法为综合有新闻日期的收益率作为新闻动量因子，其与传统动量因子高相关。使用市值、行业以及传统动量因子中性化后，仍有较稳定的IC序列以及多空收益，表明其具有一定信息增量。

新闻文本较为直观的应用为使用新闻情感指标作为因子打分，正向新闻意味着新闻报道了关于某公司的正向新闻，可能是公司基本面的改善或某科研项目进展顺利等，有可能推升未来股价，负面新闻则相反。

但我们发现直接使用原始新闻文本数据在因子层面的效果不明显，主要可能有以下原因1. 新闻本身感情倾向较弱；2. 新闻本身与上市公司相关性不强；3. 新闻的情感倾向较强但可能属于非重点新闻。我们在上一章节初步测试了不同新闻筛选标准对新闻因子新闻应用的影响，在本章我们针对上述问题对基础的公司新闻进行相关性筛选、计入预期和向行业聚合等多种方法均对于新闻因子有一定提升。

图表26：新闻因子优化流程图

资料来源：中金公司研究部

新闻动量因子：高相关性但有一定增量信息

我们在《量化投资新趋势（3）：驶向另类数据的信息蓝海》中提到新闻动量因子的构建方法，是将上市公司过去一个月内有新闻的交易日的收益率综合计算作为当月新闻综合收益率指标。我们认为受到新闻驱动的收益率更有可能在下一期自然反转。

该因子ICIR为0.49，多空年化收益率6.8%，但其与现有新闻动量因子表现相关性较高。我们将该因子取负值后对市值、传统1个月动量和行业同时中性化后可以发现累计IC有所下降，但仍然呈现稳定上升的趋势，中性化前后ICIR分别为0.49和0.38，2016年以来分十组的多空组合年化收益率分别为6.81%与3.03%。该因子累计IC序列稳定，分组年化收益率单调性较为明显。

图表27：新闻动量因子与原动量因子IC相关性较高

注：数据截至2023-08-31
资料来源：数库，Wind，中金公司研究部

图表28：中性化前后累计IC表现

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表29：中性化前后多空净值曲线

注：数据截至2023-08-31
资料来源：数库，Wind，中金公司研究部

上述新闻动量具有一定增量信息，但相对传统动量因子提升较为有限。我们认为其主要原因为虽然引用了新闻信息对传统动量和波动率因子进行改良，但仍以传统收益率的信息为主。尤其近年来移动互联网发展较快，后期新闻对上市公司的覆盖度较高，因此新闻中集合入新闻动量的日期比例逐渐提高，新闻动量因子的表现也仅能逐渐收敛至传统动量因子。因此我们下一章将引入新闻的新闻信息，深入挖掘新闻文本因子在因子策略的表现。

新闻文本因子：多重筛选提高信噪比

新闻文本较为直观的应用为使用新闻指标构建新闻情感因子策略，正向新闻意味着新闻报道了关于某公司的正向新闻，可能是公司基本面的改善或某科研项目进展顺利等，有可能推升未来股价，负面新闻则相反。

因此我们首先直接使用数库提供的新闻文本数据，将负面、中性、正面新闻分别设置为-1，0和1，将其与各自的新闻判别可能性相乘，获得每条新闻的置信度加权新闻，这样可以解决新闻判断倾向性较弱但仍然占据过高权重的问题。我们将每天的新闻文本得分聚合到上市公司，将上市公司新闻得分作为其因子值，我们在对其做市值和行业中性化之后测试结果如下。

原始新闻因子IC均值为0.34%，ICIR为0.11。通过构建多空策略，买入因子高得分组，卖出因子得分低的一组，得到2015年7月以来的收益曲线如图。多空策略的年化收益2.7%，夏普比率为0.63，胜率为56%。

图表30：原始新闻因子IC与累计IC序列

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表31：原始新闻分组收益率与夏普比率表现

注：数据截至2023-08-31
资料来源：数库，Wind，中金公司研究部

图表32：原始新闻多空与多头超额收益净值曲线

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表33：原始新闻因子测试结果统计

注：数据截至2023-08-31
资料来源：数库，Wind，中金公司研究部

我们发现直接使用新闻因子整体表现不佳。我们认为可能主要有两方面的原因：1.大量和公司相关性较低的新闻被计入新闻因子挤占高相关新闻信息；2.不同新闻等级的新闻被简单相加，可能忽略其中更重要新闻的信息，下面我们将针对以上两种问题优化原始的新闻文本因子。

采用60%公司相关性为筛选参数

我们在新闻参数的敏感度测试章节已经介绍公司的相关性得分对新闻数据有较显著影响，体现在随着相似度筛选要求的升高，因子表现越强；但超过60%相关性后表现因子表现开始逐渐衰退。我们认为主要原因是当新闻等级筛选标准变严苛时，随着新闻信噪比提升因子收益表现会逐渐提升。但如果筛选标准过强，会导致入选新闻数量过少将影响因子收益的稳定性。

图表34：新闻因子相关性敏感度测试IC表现

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表35：新闻因子相关性敏感度测试收益表现

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

我们在本节展示仅使用60%相关性筛选因子测试结果如下。结果显示IC均值为0.89%，ICIR为0.29。通过因子将股票分10组构建多空策略，得到2015年7月以来的收益曲线如图。多空策略的年化收益8.1%，夏普比率为1.64，最大回撤为7%，胜率为66%，相较于原始新闻因子在IC和多空收益层面均有较明显提升。

图表36：因子IC与累计IC序列

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表37：分组收益率与夏普比率表现

注：数据截至2023-08-31
资料来源：数库，Wind，中金公司研究部

图表38：多空与多头超额收益净值曲线

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表39：因子测试结果统计

注：数据截至2023-08-31
资料来源：数库，Wind，中金公司研究部

采用2级新闻级别为筛选参数

本节我们在60%上市公司筛选的基础上使用新闻级别2级标签对新闻进行进一步筛选。将新闻数据聚合至上市公司层面形成日度新闻因子。新闻因子的测试结果显示使用新闻等级和相关性双重标准筛选的新闻文本构建的因子相对只使用新闻相关性筛选有明显提高。加入新闻等级筛选后的超额基准的夏普比率从1.18提升至1.75，多空收益与多头超额也分别从8.1%和4.0%提升至13.8%和7.2%。

图表40：新闻因子对新闻等级敏感度测试IC表现

注：数据截至2023-08-31

资料来源：数库，中金公司研究部

图表41：新闻因子对新闻等级敏感度测试收益表现

注：数据截至2023-08-31
资料来源：数库，中金公司研究部

图表42：因子IC与累计IC序列

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表43：分组收益率与夏普比率表现

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表44：多空与多头超额收益净值曲线

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表45：因子测试结果统计

注：数据截至2023-08-31
资料来源：数库，Wind，中金公司研究部

新闻文本因子的优化方向

计入预期的新闻文本因子稳定性有所提升

一直以来新闻文本在因子策略中没有特别突出的效果，其中很大一部分原因是当具有重大新闻的新闻出现的时候，对于该信息的预期可能早已提前计入股价。此时无论我们如何再通过提升信噪比对新闻进行筛选都只能适得其反。因为当我们机械地仅依照新闻本身的新闻正负指导下一期的投资判断时，会出现利空落地是利好的现象，进而完全判断错误未来一段时间的股价。我们在《另类数据策略（1）文本数据的可能性》中提到，对于新闻文本来说，单纯靠新闻文本的正负来判断股价的涨跌会出现较明显的问题。我们在这里可以试举两例：

1. 美国高科技企业陷入“裁员潮”（2022-12-05）：美国高科技行业持续了近20年的繁荣，在2022年突遭寒冬。企业业绩低迷，股价暴跌，猝不及防的大规模裁员潮在硅谷蔓延——公司裁员人数动辄数以千计乃至上万，裁员比例甚至高达两位数。

2. Google遭法国重罚5亿欧元新闻内容不再是免费午餐（2021年7月14日）：法国商业竞争监管部门不满美国谷歌（Google）没能依照其法定命令与该国新闻机构谈判内容版权补偿问题，对谷歌裁罚5亿欧元（5.93亿美元；38.14亿元人民币）。

在上述两则新闻中，毫无疑问都显示出负面的情绪，无论是使用简单的正负新闻词袋法，还是BERT、GPT等模型来计算，其负面情绪的结果是非常确定的，但是他们对于股价的影响却不能简单地因为其负面新闻就判断会下行，很多情况是刚好相反。还是以上述两条新闻为例：

1. 降薪裁员有可能增厚ROE，引起股价上升。

2. 股价不反映情况的绝对好坏，而是反映相对预期的好坏。利空出尽是利好：当靴子悬而未落时股价会逐渐计入预期；当靴子落地，股价反而会根据实际情况与前期预期进行调整。

因此我们认为新闻文本数据在进行提升信噪比改造后，还需要结合其他信息对其进行一定的改造。我们将在下文中将尝试以下两种改造思路：计入预期或向上聚合至行业抵消个股间的预期效果。

图表46：两种优化思路：向上聚合与计入预期

资料来源：数库，Wind，中金公司研究部

图表47：利用涨跌幅将过去的预期调整新闻

资料来源：数库，Wind，中金公司研究部

我们通过使用个股过去一个月收益率来调整个股的新闻文本因子，尝试将过去一个月的股票收益率作为其已被计入的预期，我们消除这部分影响后得到计入预期后的新闻文本因子。测试结果显示计入过去20个交易日涨跌情况的新闻因子有一定提升。我们按照上述思路将过去一个月的涨跌幅作为已实现的新闻，通过简单相除的方法调整现有新闻数据的因子值。具体做法为：

1）将新闻数据标准化至0-1，数值越大新闻越偏向于正面；

2）将过去一个月涨跌幅+1作为涨跌幅调整乘数；

3）将新闻数据除以涨跌幅调整乘数得到计入预期后新闻因子。

举例来说，如果前期股票涨幅20%，新闻得分为0.8也较为正面，我们将0.8除以120%得到下调的新闻因子0.67；相反如果前期是跌幅为20%，则将0.8除以80%得到1分，即为上调新闻得分。我们使用上一章根据新闻相关性、新闻等级程度双重筛选后的新闻因子通过计入预期的方法进行改造，得到计入预期的新闻因子。

个股层面的因子测试发现以收益率为预期的计入预期新闻因子的表现与单纯提高信噪比的因子相比有一定提升，主要体现在夏普比率和最大回撤的提升。因子多空和多头超额的夏普比率分别提升至1.73和1.90，超额基准的年化收益率也相应提升至7.9%。我们将行业与市值中性化后的因子结果与常见因子做相关性分析发现另类数据因子与现有传统数据构建的因子的IC相关性以及因子截面平均相关性均处于较低水平，这也是另类数据挖掘出的因子的优势之一。

图表48：计入预期的新闻因子IC表现

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表49：计入预期的新闻因子分组表现

注：数据截至2023-08-31
资料来源：数库，Wind，中金公司研究部

图表50：计入预期的新闻因子多空与超额净值

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表51：计入预期的新闻因子测试结果统计

注：数据截至2023-08-31
资料来源：数库，Wind，中金公司研究部

图表52：新闻因子与现有因子截面相关性低于15%

注：数据截至2023-08-31
资料来源：数库，Wind，中金公司研究部

行业聚合新闻因子多头年化超额收益达9.1%

我们在上一章节提到对新闻文本优化的另一思路为向上聚合，可以是向行业甚至风格层面进行聚合。我们首先考虑将其聚合至行业层面。我们使用数库在新闻数据中为新闻标记的正负新闻作为每条新闻的新闻数据，将每只股票每天的新闻数据求算术平均，再使用SAMI聚合方法将其映射到中信一级行业中，市值中性化之后结果显示，对于行业轮动有较显著效果。

我们首先直接测试原始新闻因子聚合得到行业因子测试得到行业层面IC均值为5.65%，ICIR为0.29。通过构建分5组的多空策略得到 2016年来多空策略的年化收益为8.6%，夏普比例为0.83，多头超额年化4.7%，盈亏比1.31。

图表53：行业原始新闻因子IC序列

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表54：行业原始新闻因子分组表现

注：数据截至2023-08-31
资料来源：数库，Wind，中金公司研究部

图表55：多空与多头超额收益净值曲线

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表56：行业原始新闻因子测试结果统计

注：数据截至2023-08-31
资料来源：数库，Wind，中金公司研究部

原始新闻行业因子虽然在收益率方面有一定表现，但其在分组测试下的不同组别收益率单调性还有提升空间。第二组因子得分的年化收益率反而比第一组因子得分更高。我们下面尝试使用三年期z-score的新闻标准分因子聚合得到行业因子，发现表现相对原因子表现有所优化。多头收益和整体稳定性都有所提高：IC均值为6.30%，ICIR为0.30。通过构建多空策略得到2016年以来多空与多头超额年化收益分别为12.5%和7.0%，夏普比率为1.09和1.08。新闻标准分因子在多空收益率、稳定性以及因子单调性层面都有了明显提升。

图表57：新闻标准分因子IC序列

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表58：新闻标准分因子IC序列分组表现

注：数据截至2023-08-31
资料来源：数库，Wind，中金公司研究部

图表59：多空与多头超额收益净值曲线

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表60：新闻标准分因子测试表现统计

注：数据截至2023-08-31
资料来源：数库，Wind，中金公司研究部

提升新闻信噪比对行业因子仍有显著作用

我们进一步测试了预期改造因子在行业轮动中的应用，我们发现上节使用公司相关性和新闻级别筛选后的因子，对于多头超额来说也有显著提升。在使用20日预期改造的方式后发现在行业轮动层面并无类似的显著作用，这也印证了行业聚合的过程中这些单个股票的预期信息互相抵消，起到了和预期调整类似的作用。

本节我们使用上文选取的60%相关性和2级新闻筛选的高信噪比新闻因子聚合到行业效果如下：IC均值为5.70%，ICIR为0.28。我们发现提升信噪比后的新闻文本分组单调性发生了下降，但多空组合和多头超额的收益率有了大幅提高，多头超额年化收益率达到9.1%，夏普比率达1.37，盈亏比达1.84。但我们同时注意到虽然多头超额有明显提升，但分组表现的单调性受到一定影响。我们认为可能的原因是在对新闻进行信噪比筛选后，新闻数量减少导致的稳定性下降。高信噪比新闻对正面新闻的筛选作用更强，导致选择的行业在多头超额方面有更好表现。

图表61：高信噪比新闻因子IC序列

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表62：高信噪比新闻分组表现

注：数据截至2023-08-31
资料来源：数库，Wind，中金公司研究部

图表63：高信噪比新闻多空与超额净值表现

注：数据截至2023-08-31

资料来源：数库，Wind，中金公司研究部

图表64：高信噪比新闻因子测试表现统计

注：数据截至2023-08-31
资料来源：数库，Wind，中金公司研究部

在现有行业轮动体系中的应用

行业单因子测试结果显示行业新闻因子在行业轮动层面表现突出。为测试因子在现有框架下是否有效，我们将上一章表现较为优秀的行业因子应用到中金行业轮动2.0体系中，发现原始新闻因子加入波动率大类因子中有一定提升，但我们发现使用高信噪比新闻因子对于现有轮动模型的表现无明显提升。我们认为主要的原因是原始新闻因子的多头超额表现虽然没有筛选后新闻因子强，但其单调性更优秀。后者多头超额虽强，但单调性不强也导致了与其他因子组合使用时，表现一般的行业会被赋予相对高分。因此我们仅测试原始新闻行业因子对我们行业轮动模型的提升，高信噪比新闻因子不能简单与其他因子加总复合使用。

图表65：新闻因子表现在2016年以来在现有大类行业轮动因子中表现居前

注：样本区间为2016-01-04至2023-08-31
资料来源：数库，Wind，中金公司研究部

我们的中金行业轮动2.0通过挑选在行业层面较为有效的个股因子聚合至行业，并结合行业轮动速度区分快速轮动因子和慢速轮动因子，自动适应行业间的切换速度。我们将另类因子与行业轮动2.0系统中现有因子进行对比，发现单因子在行业轮动2.0模型中选用的行业轮动因子表现排名靠前。当使用新闻因子加入行业轮动2.0中的波动率大类中我们发现模型表现有一定提升，年化收益率从10.85%提升至10.99%，夏普比率也提升至1.64。

图表66：行业轮动2.0模型加入原始新闻因子前后表现对比

注：样本区间为2015-07-01至2023-08-31
资料来源：数库，Wind，中金公司研究部

但当单因子作为新闻因子自成一类时，对于模型的收益率层面的无明显提高，但月度胜率有所提升。我们认为可能的原因是当新闻文本因子自成大类时，其核心仍在于热点抓取，其行业打分可能与现有因子体系的偏重成长和公司质量的行业选择风格有一定偏离，因此简单加入行业轮动2.0体系中并无直接提升，即使单因子表现在已有体系因子中收益率排名靠前。也基于上述原因，我们观察到新闻行业轮动因子的持仓与现有2.0行业轮动模型持仓重合度较低，新闻因子与现有行业轮动模型因子的相关性也普遍偏低。

图表67：新闻因子与行业轮动因子相关性绝对值低于20%

注：样本区间为2016-01-04至2023-08-31
资料来源：Wind，中金公司研究部

图表68：新闻因子与行业轮动2.0持仓重合度平均低于30%

注：样本区间为2016-01-04至2023-08-31，黄色为仅新闻轮动因子持仓，红色为与行业轮动2.0模型重合持仓
资料来源：Wind，中金公司研究部

量化策略应用新闻文本数据的潜在风险

本文提到的模型的构建均基于历史数据回测，未来可能存在失效风险。例如在选取筛选标准时，采用60%相关度标签筛选的新闻文本因子表现可能在未来并不会一直比其他参数更好。有可能随着新闻数量逐渐增长，筛选的标准还需进一步提高。并且需要说明的是基于文本数据构造的模型表现很大程度上取决于新闻数据来源的稳定性。当新闻数据来源发生变化时，模型效果也会出现偏差，例如数库提供新闻数据时可能会对数据进行初步筛选和处理，处理方法变更可能对模型表现有影响，当数库升级新闻情感判别模型时，其更新情感打分可能会出现与历史打分不一致的情况。当新闻数据质量及关键数据分类标准如新闻事件级别的划分将影响测试结果，该结果同样依赖数库科技对新闻划分标准和对事件库的维护等因素。

另一方面，本文提到的所有量化模型仅在特定的测试框架下可以达到文中展示的测试效果，测试框架变化可能对模型表现有一定影响。例如我们使用的单因子回测表现均为默认对因子做市值和行业中性化后测试的结果，换仓频率为月度换仓，组合选取基于全市场股票池等。当测试框架与中金量化策略测试框架不同时，测试效果将与本篇报告中展示的模型效果不一致

Source

文章来源

本文摘自：2023年9月12日已经发布的《另类数据策略（2）：如何优化新闻文本因子》

分析员古翔 SAC 执业证书编号：S0080521010010 SFC CE Ref：BRE496

联系人郑文才 SAC 执业证书编号：S0080121120041 SFC CE Ref：BTF578

联系人陈宜筠 SAC 执业证书编号：S0080122080368 SFC CE Ref：BTZ190

分析员周萧萧 SAC 执业证书编号：S0080521010006 SFC CE Ref：BRA090

分析员刘均伟 SAC 执业证书编号：S0080520120002 SFC CE Ref：BQR365

Legal Disclaimer

法律声明

特别提示

本公众号不是中国国际金融股份有限公司（下称“中金公司”）研究报告的发布平台。本公众号只是转发中金公司已发布研究报告的部分观点，订阅者若使用本公众号所载资料，有可能会因缺乏对完整报告的了解或缺乏相关的解读而对资料中的关键假设、评级、目标价等内容产生理解上的歧义。订阅者如使用本资料，须寻求专业投资顾问的指导及解读。

本公众号所载信息、意见不构成所述证券或金融工具买卖的出价或征价，评级、目标价、估值、盈利预测等分析判断亦不构成对具体证券或金融工具在具体价位、具体时点、具体市场表现的投资建议。该等信息、意见在任何时候均不构成对任何人的具有针对性的、指导具体投资的操作意见，订阅者应当对本公众号中的信息和意见进行评估，根据自身情况自主做出投资决策并自行承担投资风险。

中金公司对本公众号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。对依据或者使用本公众号所载资料所造成的任何后果，中金公司及/或其关联人员均不承担任何形式的责任。

本公众号仅面向中金公司中国内地客户，任何不符合前述条件的订阅者，敬请订阅前自行评估接收订阅内容的适当性。订阅本公众号不构成任何合同或承诺的基础，中金公司不因任何单纯订阅本公众号的行为而将订阅人视为中金公司的客户。

一般声明

本公众号仅是转发中金公司已发布报告的部分观点，所载盈利预测、目标价格、评级、估值等观点的给予是基于一系列的假设和前提条件，订阅者只有在了解相关报告中的全部信息基础上，才可能对相关观点形成比较全面的认识。如欲了解完整观点，应参见中金研究网站（http://research.cicc.com）所载完整报告。

本资料较之中金公司正式发布的报告存在延时转发的情况，并有可能因报告发布日之后的情势或其他因素的变更而不再准确或失效。本资料所载意见、评估及预测仅为报告出具日的观点和判断。该等意见、评估及预测无需通知即可随时更改。证券或金融工具的价格或价值走势可能受各种因素影响，过往的表现不应作为日后表现的预示和担保。在不同时期，中金公司可能会发出与本资料所载意见、评估及预测不一致的研究报告。中金公司的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本资料意见不一致的市场评论和/或交易观点。

在法律许可的情况下，中金公司可能与本资料中提及公司正在建立或争取建立业务关系或服务关系。因此，订阅者应当考虑到中金公司及/或其相关人员可能存在影响本资料观点客观性的潜在利益冲突。与本资料相关的披露信息请访http://research.cicc.com/disclosure_cn，亦可参见近期已发布的关于相关公司的具体研究报告。

本订阅号是由中金公司研究部建立并维护的官方订阅号。本订阅号中所有资料的版权均为中金公司所有，未经书面许可任何机构和个人不得以任何形式转发、转载、翻版、复制、刊登、发表、修改、仿制或引用本订阅号中的内容。