【华安金工】机器学习与基金特征如何选择正 Alpha 基金？——“学海拾珠”系列之一百六十八

admin1年前 (2023-11-30)研报981

报告摘要

►主要观点

本篇是“学海拾珠”系列第一百六十八篇，文献探究了使用机器学习方法，通过基金特征选择多头基金组合的可能性，并且深入分析了机器学习选出的多头组和传统方法的区别，揭示了基金特征在预测未来业绩方面的非线性相互作用。回到国内市场，我们可以使用类似的方法构造策略。

·传统线性方法与文献研究方法

传统研究中，某些基金特征可以用来预测基金的业绩（Jones和Mo，2020）。通常会每月或每季度对基金基于特征进行排名，然后将资金分成五组或十组，评估这些基金组合的多空业绩。然而只有少部分特征在扣除全部费用后能选择出正Alpha的多头基金组合。

文献使用17个基金特征，采用三种机器学习方法：弹性网络（elastic net）、梯度提升（gradient boosting）和随机森林（random forests）来预测基金alpha，并将预测值前10%的基金构建成组合。同时对比普通最小二乘法（OLS）以及两个朴素策略：基金等权组合和资产加权组合。

·机器学习方法能够显著优化基金多头策略

梯度提升和随机森林下基金多头组合的费后净Alpha为每年2.36%和2.69%（FF5因子+动量模型评估）。相比之下，基于线性方法（弹性网络和OLS）的组合净alpha为每年1.09%和1.21%，统计不显著，等权和资产加权组合分别实现了每年-0.22%和-0.44%的负的净Alpha。

因此，美国主动基金在扣除成本后平均业绩不及被动基金（平均净Alpha为负），线性模型可以帮助投资者避免业绩不佳的基金（正向不显著的Alpha），只有通过非线性和相互作用的机器学习方法才能通过主动管理获益（正的显著的Alpha）。

·基金特征与未来业绩之间的非线性关系

拆解结果后发现，value added、Alpha的t-统计值、市场Beta t-统计值和R²是梯度提升和随机森林方法中最重要的特征。基金主动程度与未来业绩之间存在高度的非线性关系，对于主动度更高的基金来说，过去的业绩是一个特别强大的预测因子。

线性方法下，发现排名前10%的基金“太小”，机器学习有助于选择基金不仅因为它可以识别有Alpha的管理者，且可以识别Alpha不完全被规模报酬递减抵消的管理者。

·文献来源

核心内容摘选自Victor DeMiguel , Javier Gil-Bazo , Francisco J. Nogales, André A.P. Santos在《Journal of Financial Economics》发表的文章《Machine learning and fund characteristics help to select mutual funds with positive alpha》

·风险提示

文献结论基于历史数据与海外文献进行总结；不构成任何投资建议。

引言

关于共同基金的研究表明，考虑到交易成本、费用及其他支出，主动管理基金的平均风险调整回报（Alpha）往往为负（参见Sharpe, 1966；Jensen, 1968；Gruber, 1996；Ferreira等, 2013年的研究）。虽然Wermers (2000)、Barras等人 (2010)、Fama和French (2010)、Kacperczyk等人 (2014)、Berk和Van Binsbergen (2015)的研究记录到一些管理者的业绩超越了基准，但要事先识别出这些优秀的基金非常困难。本文献通过利用机器学习方法挖掘基金特征与业绩间的非线性关系和相互作用，展示了如何构建多头策略的可交易共同基金组合，以获得扣除所有成本后显著的样本外Alpha。文献的结果显示，如果投资者使用能捕捉基金特征与业绩之间复杂关系的高级预测方法，那么他们通过投资主动管理的共同基金可以赚取显著的Alpha。

近期，被动型基金在美国的规模已经超过了主动型基金，许多专家认为，被动型基金的兴起是因为大多数主动管理者长期无法超越费率更低的被动替代品（参见Gittelsohn, 2019）。为了探究是否存在业绩突出的主动管理者，研究人员已经对过去的基金回报是否能预测未来业绩进行了研究。从这些研究中得出的共识是，净Alpha值的持续正增长是不可能的，尤其是在考虑到共同基金回报对市场动量因子的敏感性之后（参见Carhart, 1997）。

Berk和Green（2004）的模型与基金净Alpha缺乏持续性的观点一致。在这个模型中，投资者会根据过去的回报，无限制地向他们认为业绩优异的基金注入资金。如果投资组合管理存在规模报酬递减，在平衡状态下，历史拥有正Alpha的基金会吸引更多资产，从而获得与其他主动基金相同的预期净Alpha：即等于被动基准（零）。然而，信息摩擦可能会阻碍投资者资金的流动，使得基金业绩不会完全趋向于零（参见Dumitrescu和Gil-Bazo, 2018; Roussanov等人, 2021）。因此，共同基金业绩是否可预测，实际上是一个需要经验数据支撑的问题，这一问题在文献中受到广泛关注。有几项研究显示，共同基金的特征可以用来预测基金的业绩；详见Jones和Mo（2020）的综述。通常，这些研究会根据共同基金的特征，每月或每季度对基金进行排名，然后，将资金分配到五组或十组，并评估这些基金组合的多空业绩。然而，过往文献的基金特征中，只有少部分指标在扣除交易成本、费用和其他支出之后仍能选择出正Alpha的多头基金组合，因为基金不能轻易做空，投资者只能通过选择正净Alpha的多头组合来从主动管理中获益。

文献研究方法如下：首先，用到了17个不同的基金特征来预测业绩，更全面地考虑问题的复杂性。基金业绩受到多种因子影响，包括管理者的多方面能力、投资组合约束、管理者激励和代理问题，以及基金的交易成本、费用和其他支出。其次，采用三种机器学习方法来预测基金业绩：弹性网络（elastic net,）、梯度提升（gradient boosting）和随机森林（random forests）。这些方法能够处理不相关或高度相关的预测因子，因此，在考虑多个特征的同时降低过度拟合的风险，这种风险通常低于普通最小二乘法（OLS）。此外，两种基于决策树的方法（梯度提升和随机森林）能够识别非线性和交互作用，可能会发现弹性网络或OLS等线性方法可能错过的可预测性。第三，策略需要可以交易，因此只考虑基金多头组合且仅使用过去的数据来构建，并根据净Alpha评估其未来（样本外）业绩，同时扣除费用、交易成本和其他支出。最后，文献根据基金特征采用动态方法进行组合再平衡，允许特征与业绩之间的关系随时间变化，以适应由投资者学习或市场条件变化而引起的基金业绩决定因子的变化。

文献比较三种机器学习方法、OLS以及两种简单策略（所有基金的等权重和资产加权组合）构建的基金组合的样本外费后业绩。使用1980至2020年期间美国主动管理共同基金的回报和17个特征的月度数据，只考虑无附加费用基金，以确保Alpha是扣除所有成本之后的。使用前10年的数据来训练这三种机器学习方法和OLS，预测未来一年的净Alpha，使用Fama和French（2015）以及动量因子的五因子模型来进行估计。17个基金特征的滞后值为预测因子，多头组合包含预测净Alpha排名前十分之一的基金，并计算该组合在接下来12个月的净回报，对于每一个接下来的年份，将训练样本向前推进一年，构建一个新的前十分之一的基金组合，并跟踪其接下来12个月的净回报。通过这种方式，构建了一个从1990年到2020年的月度样本外净回报时间序列。最后使用了四种不同的模型评估整个样本外时期的组合净Alpha：Carhart（1997）的四因子模型；Fama和French（2015）的五因子模型（FF5）（增加了动量因子的FF5）；以及增加了动量和Pástor与Stambaugh（2003）的流动性因子的FF5。

研究有五个主要发现：

1、利用非线性和相互作用能力的两种机器学习方法（梯度提升和随机森林）做出的多头基金组合在扣除所有成本后分别实现了每年2.36%和2.69%的显著净Alpha（基于增加了动量因子的FF5模型评估），这些Alpha值在经济上也具有意义，是样本中平均费率（1.11%）的两倍以上。相比之下，基于线性方法（弹性网络和OLS）的组合只能提供每年1.09%和1.21%的净Alpha，统计意义上与零无显著差异。等权重和资产加权的组合分别实现了−0.22%和−0.44%的每年净Alpha，与现有证据一致。即平均而言，主动管理基金在扣除成本后业绩不及被动基金。换用其他因子模型来评估样本外Alpha时，结果类似。总体来看，尽管例如数据中的预测性指标可以帮助投资者避免业绩不佳的基金，但只有通过非线性和相互作用的机器学习方法（梯度提升和随机森林），投资者才能通过投资于主动管理基金获得显著的正净Alpha。

2、发现机器学习揭示了基金特征与未来业绩之间的非线性关系和相互作用。在非线性机器学习方法中，最重要的特征包括各种过去业绩指标和基金主动程度（fund activeness）的指标。基金主动程度与未来业绩之间存在高度的非线性关系，对于最主动的基金，这种关系显著正向，但对于其他基金则相对平坦，对于主动程度更高的基金来说，过去业绩是一个特别强大的未来业绩预测因子。

3、鉴于非线性机器学习方法中发现了过去业绩与基金主动程度之间相互作用，文献进一步探索双重筛选基金的可能性，即同时考虑业绩指标和基金主动程度，以实现正净Alpha。尽管通过双重筛选能够获得正净Alpha，但这种组合的业绩对过去业绩和基金主动程度的指标极为敏感。且过去业绩和基金主动程度的相对预测能力会随时间发生显著变化，因此，为了实现样本外的超额业绩，投资者应当动态地运用机器学习来识别每个时间点上重要的特征和相互作用。

4、Roussanov等人（2021）曾经使用贝叶斯方法估计基金skill，发现skill分布前10%的基金“太小”，无法抵消其规模报酬递减。文献计算了四种预测方法产生的10%投资组合的平均净skill和基金规模，发现排名前10%的基金“太小”，两种非线性机器学习方法下排名前10%的基金尤其小。这些发现为结果提供了经济学解释：机器学习有助于选择基金不仅因为它可以识别有技能的管理者，且它可以识别技能不完全被规模报酬递减抵消的管理者。

5、第五， Jones and Mo（2020）发现，由于套利活动和基金竞争的增加，基金特征预测业绩的能力随着时间的推移而下降。因此观察1991年至2020年不同投资组合的alpha值变化。发现从1991年到2011年，三个组合（梯度增强、随机森林和OLS）的业绩优于两个朴素投资组合（等权重和资产加权）。然而三个组合的业绩在2012年至2018年与朴素投资组合相似，最后两年（2019、2020年），三个组合都优于两个朴素组合。还发现，非线性机器学习投资组合在不同商业周期和情绪下的表现差异在统计上并不显著。

数据

2.1 CRSP 样本数据

文献的数据源自CRSP无幸存者偏差美国共同基金数据库，收集月度信息，只研究不收取前端或后端佣金的基金份额，时间跨度从1980年1月至2020年12月。在数据处理上，遵循共同基金文献中常见的过滤标准：1、仅纳入主动管理的基金，排除了ETF和被动型基金。2、只考虑投资组合中超过70%投资于股票的基金。3、为避免偏差，至少需要有36个月的记录且总净资产（TNA）至少500万美元。最终样本包含8,767个唯一的基金份额，其中7,921个属于多元化股票基金（占样本总TNA的95%），846个属于行业基金。

2.2 共同基金特征

关于基金特征，构建一个包含17个特征的数据集，这些特征基于基金的历史回报和其他信息，不依赖于组合持仓信息。

对于第𝑚个月的第𝑖个基金，获取其扣除费用和交易成本后超过无风险利率的回报（），总净资产（），费用比率（）以及组合换手率等数据。此外，计算基金年龄（即自成立以来的月数）、月度资金流入（即调整费后回报后的TNA相对增长）、资金流入的波动性（即年内流动性的标准差）以及基金经理的任期（以年为单位）。

此外，获取回报与Fama和French（2015年）以及动量因子（简称为FF5+MOM）的时间序列回归相关的几个特征。具体而言，对于每个基金份额和每个月，运行一个“滚动窗口”回归，将回报与过去36个月的FF5+MOM因子回报进行回归，计算alpha的t-统计值和beta的t-统计值。选择使用t-统计值而非原始的alphas和betas作为预测因子，是为了考虑到估计误差（参见Hunter等人，2014）。此外，还使用FF5+MOM滚动窗口回归的R²作为基金业绩的一个预测因子。如Amihud和Goyenko（2013）所建议，R²被解释为基金主动程度的衡量指标，因为低R²的基金与基准的跟踪程度较低。文献还计算了第 𝑖 个基金在第 𝑚 个月的月度实现 alpha（）为：

β是第 i 个基金的超额回报相对于 FF5+MOM 因子的因子载荷，使用截至第 m−1 个月的 36 个月估计窗口计算得出。

最后，根据Berk和Van Binsbergen（2015）的定义，使用方程（2）中定义的实现alpha来计算增值（value added）。这个变量旨在捕捉基金经理从市场创造的价值。

图表2列出了17个特征及其定义。图表3为特征的平均值、中位数、标准差以及观察数。与过往文献一致，样本平均呈现负alpha，平均R²高达90.7%，表明FF5+MOM因子很大程度上解释了股票基金回报的时间序列变化。

2.3 目标与预测变量

本节将17个共同基金特征转换为适用于机器学习的目标和预测变量。首先，将数据从月度频率转换为年度频率，因为一些特征只在季度或年度频率下可用，即使在月度频率下可用的一些特征也非常持久。对于每个日历年，将年度实现alpha、增值和资金流动的月度值平均后乘以12，资金流动波动性将其乘以12的平方根来年化。对于其他所有特征，使用每年12月的值。

其次，对每个特征进行标准化，使其在横截面上具有零均值和单位标准差。这确保了机器学习方法在估计过程中的尺度不变性。将每个标准化特征的缺失观测值设置为其横截面均值（零）。

第三，构建了包含目标变量和预测因子的最终数据集。目标变量是每个日历年的已实现alpha。使用的17个预测因子是滞后一年的标准化变量，包括已实现alpha、alpha的t-统计值、TNA、费率、年龄、资金流动、资金流动波动性、管理者任期、增值、R²以及市场、盈利能力、投资、规模、价值和动量beta的t-统计值。图表4为目标变量与滞后预测因子之间的相关性矩阵。目标变量与滞后的预测因子相关性较低。然而，一些预测因子之间存在相当的相关性，其中滞后流动性和流动性波动性之间的绝对相关性最高，为61%。

机器学习方法

数据整理成面板结构，年份索引为 𝑡 = 1, 2,…, 𝑇，基金索引为 𝑖 = 1, 2,…,

。将普通最小二乘法（OLS）作为基准方法：

其中是第 𝑖 个基金在第 𝑡+1 年的实现 alpha，是第 𝑖 个基金在第 𝑡 年的 𝐾 维标准化特征向量，𝜃 是 𝐾 维参数向量。OLS 估计的实现 alpha，，是基金特征的线性函数。尽管 OLS 提供了无偏和可解释的预测，但对于展现高方差、非线性和相互作用的数据，机器学习方法通常优于 OLS。

文献考虑三种机器学习方法：弹性网络、随机森林和梯度提升。弹性网络是一种类似于OLS的线性方法，但通过正则化来减轻过拟合的风险。而为了捕捉数据的非线性和特征间的相互作用，考虑两种基于决策树的集成方法，即随机森林和梯度提升，这些方法通常在处理结构化（表格）数据时比线性方法更为有效，参见Medeiros等人（2021）的研究。

另外，神经网络作为一种流行的机器学习方法，在处理非结构化数据或高度非线性的结构化数据时表现出色。神经网络通过大量参数来捕捉复杂的非线性关系，但也因此需要大量的数据来获得准确的估计。因此，在本文研究中神经网络可能不如基于树的方法合适。

3.1 弹性网络（Elastic net）

在具有大量预测变量的数据集中，正则化通常被用来减轻过拟合。Zou 和 Hastie（2005）的弹性网络使用了 1-范数和 2-范数两种正则化项来缩小估计参数的大小。弹性网络的目标函数，带有两个正则化项，为：

其中和是参数向量 𝜃 的 1-norm和 2-norm，𝜆 和 𝜌 是超参数。1-norm（）可用于控制估计参数向量 𝜃 的稀疏性，2-norm（）用于增加其稳定性。当 ρ=0 时，目标函数（4）仅包含2-norm ，此时弹性网络等同于岭回归，它提供了参数向量 θ 的密集估计。另一方面，若 ρ=1，目标函数则只包含1-norm ，相当于执行最小绝对值收缩和选择算子（LASSO）回归，这种情况下提供了一个稀疏估计。第3.4节解释如何校准这两个超参数ρ和 λ。

3.2 随机森林（Random forests）

随机森林由Breiman（2001）提出，是基于引导聚合算法（bootstrap aggregation）构建的决策树集合。决策树通过递归地将样本分割成同质且不重叠的区域（形似高维盒子）来工作，其生成过程通常以树的形式表示，在每个节点根据该节点最相关的特征来分割样本。树从根节点生长至叶节点，预测值是每个叶节点中目标变量的平均值。

尽管决策树具有很高的可解释性，但由于其预测的高方差，其表现可能不佳。随机森林通过计算森林中众多决策树的预测平均值来降低预测方差。预测方差的减少与树之间的不相关性成反比。为了实现这一点，随机森林采用了引导抽样法（bootstrap sampling）从原始数据中生成多个样本，并在每个树的节点上考虑特征的随机子集。

在本研究中，随机森林方法从原始数据中生成了𝐵 = 1,000个样本。对于每个样本，在每个节点选择𝑚 < 𝐾个特征的随机子集，并从这些𝑚个特征中选择最佳特征来分割样本，从而生成一棵决策树。第3.4节介绍如何调整超参数𝑚。随机森林在存在大量预测变量且这些变量与目标变量之间的关系是非线性的并包含相互作用时，具有优秀的预测表现（参见Medeiros等人，2021；Coulombe等人，2020）。

3.3 梯度提升（Gradient boosting）

梯度提升同样基于决策树集合，但与随机森林不同，它不是独立地聚合决策树，而是顺序地聚合它们，以赋予那些之前预测结果较差的数更多权重。梯度提升从弱决策树（预测能力仅略优于随机猜测）开始，逐渐收敛至强树（预测能力更好）。梯度提升通过同时减少预测方差和偏差来改进预测效果（参见Schapire和Freund，2012）。

在梯度提升的每次迭代中，都使用一棵新的决策树来拟合当前集合的残差。这意味着，新的决策树给予那些当前集合预测较差的结果更多权重，然后使用这棵新的决策树来更新集合。梯度提升中的一个关键超参数是学习率，它决定了集合对最新决策树的依赖程度。

不同于随机森林，梯度提升更容易过拟合数据。为了避免这一问题，梯度提升采用了多种正则化技术，并需要调整额外的超参数，例如限制聚合的决策树数量、每棵树的深度、节点数量，以及叶节点中的最小观察数等。

3.4 超参数的交叉验证

对于每次估计，采用了五折交叉验证（five-fold cross-validation）来调整弹性网络、随机森林和梯度提升的超参数，参考Hastie等人（2009, 第7章）的方法。具体而言，文献为超参数设定了一个可能值的范围网格。将样本分为五个相等的部分（“folds”）。对于每个fold（j从1到5），移除第j个fold，用剩下的4个fold来获取与不同超参数值相对应的预测。然后，在第j个fold上评估与每个超参数值相关的预测误差（即交叉验证误差）。在完成交叉验证的过程后，选择那些最小化平均交叉验证误差的超参数值。

另一种考虑数据时间序列特征的交叉验证方法是时间序列交叉验证，它保留训练样本末尾的一部分用于评估。文献在互联网附录中报告结果，发现五折交叉验证的表现略优于时间序列交叉验证。

机器学习组合的业绩

4.1 业绩评估方法

使用1981年至1990年的前10年数据来训练每种机器学习方法和OLS，然后利用1990年12月的基金特征值（未用于训练）来预测1991年的基金业绩，组建一个由预测业绩排在前10%的基金组成的等权重组合，并追踪其在1991年的12个月内的回报（扣费后的净值）。如果在该期间，组合中的基金从样本中消失，其投资金额会平均分配给剩余基金。对于每个后续年份，将训练样本向前扩展一年，再次训练算法，为下一年做出新的预测，并构建一个新的前10%的基金组合，追踪其在接下来12个月的净回报。通过这种方式，文献构建了一个从1991年1月至2020年12月（共360个月）的前10%的基金组合的样本外月度净回报时间序列。被选入前10%组合的基金平均数量为159，最少为11，最多为326。

为评估前10%基金组合的样本外业绩，对360个样本外月度组合超额回报与同时期的风险因子回报进行时间序列回归。基金组合的alpha为时间序列回归的截距。考虑四因子模型来评估：Carhart（1997）提出的增加动量的Fama和French（1993）三因子模型（FF3+MOM）；Fama和French（2015）五因子模型（FF5）；增加动量的FF5模型（FF5+MOM）；以及增加动量和Pástor和Stambaugh（2003）的总体流动性因子的FF5模型（FF5+MOM+LIQ）。然而，需要注意的是，无论使用哪种情况，基金选择都是基于根据FF5+MOM模型预测的业绩。

4.2 样本外费后业绩

图表5列出了三种机器学习方法（梯度提升、随机森林和弹性网络）以及OLS的前10%基金组合的样本外费后alpha。为了达到比较目的，还展示了两种朴素基金组合的alpha：所有基金的等权组合和资产加权组合，均年度再平衡。

两种机器学习方法（梯度提升和随机森林）选出的多头基金组合在FF5+MOM模型的基准下分别实现了每月19.7个基点（即每年2.36%）和22.4个基点（即每年2.69%）的统计显著净Alpha。相比之下，基于线性方法（弹性网络和OLS）的组合分别实现了每月9.1个基点（即每年1.09%）和10.1个基点（即每年1.21%）的净Alpha，与0的差异在统计意义上不显著。等权重和资产加权组合分别实现了每月-1.8个基点（即每年-0.22%）和-3.7个基点（即每年-0.44%）的负净Alpha。

总体来说，虽然利用数据中的预测性指标确实帮助投资者避免了业绩不佳的基金，但只有通过应用非线性和相互作用的机器学习方法（梯度提升和随机森林），投资者才能显著受益于投资主动管理的基金。当使用其他三个因子模型评估样本外Alpha时，这些结论非常稳定，唯一的例外是在FF5+MOM+LIQ模型下，OLS在10%的统计水平下显著。

梯度提升和随机森林的多头基金组合实现正净Alpha不仅在统计意义上显著，而且在经济上也具有意义。例如，Jones和Mo（2020年）在他们考虑的预测因子排序的基金组合中，前五分之一和后五分之一组合之间的样本内Alpha差值的中位数为每月21.91个基点（每年2.62%），梯度提升和随机森林组合实现的净Alpha与此类似，并且是样本外的，此外，这个值是文献样本中主动基金平均费用率（1.11%）的两倍多。

尽管梯度提升和随机森林选出的非线性机器学习组合的Alpha显著不等于零，但是否也显著优于OLS方法仍需评估。在此分析一个组合，该组合做多机器学习方法选出的基金，做空OLS方法选出的基金。图表6显示，梯度提升与OLS组合之间的业绩差异在统计上显著，在四个因子模型下每月差异从8.9个基点到13.6个基点不等（每年1.1%到1.6%）。随机森林组合相对于OLS组合的超额业绩每月在11.7个基点到17.8个基点之间不等（每年1.4%到2.1%）。相反，弹性网络组合在统计上与OLS组合无显著差异。等权和资产加权组合业绩均低于OLS，且差异通常在统计上显著。

图表7报告了每个基金组合的净超额平均回报、净回报的标准差、夏普比率、Sortino比率、信息比率、最大回撤以及基于99%置信度的历史模拟法的在险价值（VaR）。两个最佳方法（梯度提升和随机森林）也提供了夏普比率最高的组合。考虑到下行风险，文献的结论不变：梯度提升和随机森林选择了具有最高Sortino比率的基金组合。在最大回撤方面，弹性网络和OLS选择的组合似乎是具有最高风险的，而在VaR方面，等权和资产加权组合是最安全的。不同组合在信息比率方面的相对业绩与基于净Alpha的业绩密切相关。

了解排名前10%的组合需要进行多少交易是有必要的。图表7的最后一列报告了前10%组合的平均年度换手率（双边）。朴素组合的换手只有20%，主要由于可用基金池的变化和（对于等权重组合）基金价值的变化。相比之下，基于弹性网络和OLS的业绩预测的组合每年交易约60%的组合价值，而基于梯度提升和随机森林则需要交易70%的组合价值。这表明，为了在主动管理的基金中实现优越的业绩，投资组合经理需要在这些基金中进行积极交易，因此，在评估组合业绩时考虑基金佣金是重要的。

综合来看，可以利用现有的基金特征来选择共同基金组合，这些组合在净Alpha方面显著优于等权重或资产加权的组合，即使采用弹性网络和OLS也能达到这一点。但弹性网络和OLS虽然帮助投资者避免了业绩不佳的基金，但并不足以让投资者事前识别出具有显著正净Alpha的基金。只有当允许基金特征与后续业绩之间存在非线性和相互作用时，如梯度提升和随机森林所做的，才能发现具有大量且显著Alpha的基金。

哪些特征和相互作用比较重要？

本节分析这些机器学习方法所利用的非线性和相互作用的性质。SHAP（SHapley Additive exPlanations）是一种基于合作博弈论的方法，用于估计每个特征对每个单独预测的贡献。SHAP是一种加法方法，因为将SHAP值跨特征聚合后，可以恢复个别观察的预测与所有观察的平均预测之间的差异。图表8报告了OLS、弹性网络、梯度提升和随机森林的特征重要性。为了量化特征的重要性，文献计算了所有绝对SHAP值的平均值。重要性评估是在最后一个估计窗口内进行的，该窗口覆盖了1980至2019年。

图表8有两个主要发现：首先，value added、Alpha的t-统计值、市场Beta t-统计值和R²是梯度提升和随机森林这两种非线性方法中属于排名前五的最重要的特征。这表明非线性机器学习方法能够利用至少两种不同的过去业绩指标（Alpha截距t-统计值和增值）来预测未来的Alpha。非线性方法还利用基金主动程度来预测未来业绩。例如，市场Beta t-统计值可以被视为基金主动程度的度量，因为不太主动的基金通常具有高度统计显著的Beta。实际上，图表4显示市场Beta t-统计值与R²有54%的高相关性，而Amihud和Goyenko（2013）将R²视为基金主动程度的指标。

其次，非线性和线性方法在特征重要性方面存在显著差异。例如，对于线性方法（如弹性网络和OLS），特征重要性在最重要的两个特征之后迅速下降，而在非线性方法（如梯度提升和随机森林）中，特征重要性的下降则更为平缓，约有七个特征几乎同等重要。一个显著的区别是，在非线性方法中，value added被视为两个最重要的特征之一，而在线性方法中却不那么重要。此外，基金费率是线性方法中的第六大重要特征，但在非线性方法中其重要性较小。

投资者可以利用特征与业绩之间的非线性和相互作用来选择主动管理的股票基金。为了探究这些非线性关系的本质，图表9、图表10展示了梯度提升和随机森林最重要的四个特征的SHAP图：Alpha的t-统计值、value added、市场Beta t-统计值和R²。每个SHAP图中，水平轴表示标准化特征值，垂直轴显示每个观察的特征SHAP值（绿点）和条件均值SHAP值（实心深绿线）。

比较图表9、图表10，发现两种机器学习方法识别的非线性模式非常相似。Alpha的t-统计值与其条件均值SHAP值之间存在大致线性的关系，这可能解释了为什么它是两种线性方法中最重要的特征。然而，其他三个特征与未来业绩之间存在显著的非线性关系。例如，基金主动程度与未来业绩之间的关系高度非线性，对于最活跃的基金而言，这种关系强烈正向，但对于其他基金则较为平坦。低市场Beta t-统计值能预测优异的业绩，而高市场Beta t下，Beta t-统计值与未来业绩的关系则是平坦的。同样，R²与业绩之间在-2.75到-2之间的R²值业绩为负相关，但对于标准化R²值高于-2的情况，这种关系基本上是平坦的。最后，value added与其条件均值SHAP值之间的关系在低于-0.06的情况下是平坦的，在中等时呈现U型，在0到0.15之间是单调增加的，而在超过0.15时则是下降的。

本节还研究了相互作用的重要性。图表11展示了梯度提升和随机森林中30个最重要特征相互作用的强度。Alpha截距t-统计值和value added不仅是独立的预测因子，而且它们与市场Beta t-统计值和R²这类基金主动程度的相互作用至关重要。例如，随机森林中最重要的相互作用是Alpha截距t-统计值与市场Beta t-统计值之间的关系。

综合来看，Alpha截距t-统计值对于更主动的共同基金是未来业绩的特别强大的预测因子，类似地，Alpha截距t-统计值特别有助于预测低R²的基金的未来业绩，即那些回报无法由常见风险因子解释的基金。

鉴于以上结论，探讨是否可以通过基于过去业绩和基金主动程度的双重筛选策略来获得正净Alpha。在样本外期间的每年初，首先根据前一年的业绩指标对所有基金进行排序，并选择排名在前的基金。然后根据前一年末的主动程度对选定的基金进行排序，并选择排名在后的基金，构建了一个包含10%基金的组合。图表12为该组合Alpha的月度值。

基于过去业绩和基金主动程度的双重筛选策略，确实可以实现正净Alpha。例如，结合Alpha t-统计值和R²形成的基金多头组合的Alpha，在10%的水平显著，尽管这一水平略低于非线性机器学习方法在图表5达到的水平。更引人注目的是，基于Alpha t-统计值和市场Beta t-统计值的双重筛选策略形成的基金组合所实现的Alpha在5%的统计水平上显著，与非线性机器学习方法实现的Alpha相当。这一结果验证了Amihud和Goyenko（2013）记录的R²与过去业绩的相互作用的重要性，并揭示了市场Beta t-统计值作为另一种基金主动程度指标的重要性，以及其与过去业绩的相互作用对于识别业绩优异的基金的重要作用。

然而，基于value added和市场Beta t-统计值或R²的双重筛选组合的样本外净Alpha与0无显著差异，且远小于非线性机器学习组合。此外，需要注意的是，图表12中的结果可能存在前视偏差，因为用于双重筛选的特征组合是基于整个样本期间计算的特征和相互作用的重要性选择的。尽管基于简单的双重筛选策略可以实现良好的样本外业绩，但投资者应动态地使用非线性机器学习方法，以在每个时间点（仅基于过去的数据）识别相关的特征和相互作用，从而实现更优的业绩。

图表13、图表14分别展示了梯度提升和随机森林在样本外期间每年中每个预测因子的重要性，诸如Alpha t-统计值、value added和R²等特征的重要性随时间发生了显著变化。

结论

基金投资者是否能通过投资主动型基金获得正净Alpha的问题一直受到学者、业界从业者和监管机构的广泛关注。本研究指出，文献中普遍存在的悲观观点可能源于对基金业绩可预测性方法的限制。本文展示了机器学习方法如何动态地识别和利用基金特征与业绩之间的非线性和相互作用，进而帮助投资者选择能够在扣除佣金和交易成本后仍保持正Alpha的基金。过去业绩指标和基金主动程度之间的相互作用对于预测未来基金业绩至关重要：投资者确实可以从主动管理型的共同基金中受益，前提是他们有能力借助捕捉基金特征与业绩之间复杂关系的高级预测方法。

文献来源：

风险提示

文献结论基于历史数据与海外文献进行总结；不构成任何投资建议。

重要声明

本文内容节选自华安证券研究所已发布证券研究报告：《机器学习与基金特征如何选择正 Alpha 基金？——“学海拾珠”系列之一百六十八》（发布时间：20231129），具体分析内容请详见报告。若因对报告的摘编等产生歧义，应以报告发布当日的完整内容为准。分析师：严佳炜 || 执业证书号：S0010520070001，分析师：钱静闲 || 执业证书号：S0010522090002。

往期报告

--基金研究--

34.《权益基金加仓电子、非银等行业，白酒、创新药主题重获青睐——权益基金2023年三季报解析》

33.《买卖之间的心理迷思：处置效应下基金经理的行为模式》

32.《TMT行情降温，权益基金加仓通信、汽车等行业——权益基金2023年二季报解析》

31.《小荷才露尖尖角：黑马基金经理如何挖掘？》

30.《权益仓位再创新高，大幅加仓计算机——权益基金2023年一季报解析》

29.《基民收益启示录：寻找低落差感基金》

28.《寻找基金经理中的“稀缺基因”》

27.《加仓国防军工、交运，投资热点渐趋分散》

26.《FOF弹性与收益增厚：聚焦赛道ETF轮动》

25.《大幅加仓食品饮料，风格向大市值切换——权益基金2022年二季报解析》

24.《市场未出现大规模赎回，电新加仓成首位重仓行业——权益基金2022年一季报解析》

23.《揭秘布局优秀行业主题基金的“必要条件”》

22.《多只重仓股获主动减仓，分散持股趋势延续——权益基金2021年四季报解析》

21.《医药基金深度解析：持仓、业绩、逻辑的演绎与印证》

20.《沪深300 Pro Max——国泰300增强ETF投资价值分析》

19.《持股集中度下降，风格切换正当时——权益基金2021年三季报解析》

18.《基金投资如何选准对标的“锚”：华安分类标签框架介绍》

17.《公募权益基金的舒适管理规模是多少？》

16.《权益基金增配科技，风格向小市值切换》

15.《海纳百川：权益基金经理全景标签池》

14.《百舸争流：公募固收+产品盘点与剖析 |2021固收+产品投资策略展望》

13.《群雄逐鹿，公募基金销售渠道之争》

12.《银行获公募大幅加仓，港股龙头配置趋势不减》

11.《剖玄析微：公募对冲基金2020年报分析》

10.《基金持仓跟踪牢，抱团风向早知道》

9.《狭路相逢勇者胜：精选赛道下的精选基金框架》

8.《分享注册制改革红利，把握网下打新机遇》

7.《权益基金市场扩容万亿，龙头公司持股进一步集中》

6.《公募权益基金智能图鉴》

5.《2020年打新策略对基金的收益增厚有多少？》

4.《公募绝对收益基金持续发力》

3.《透视机构抱团行为，量化视角全面解析》

2.《公募基金产品的绝对收益之路》

1.《基金反编译：绩优指数增强基金的绝技》

--量化研究--

16.《收益和波动共舞：非对称性理论蕴含的alpha》

15.《ChatGPT与研报文本情绪的碰撞》

14.《股价和资金流间的引力和斥力》

13.《可比公司法的量化实践：重塑价值因子》

12.《寻找选股策略与行业轮动策略的“舒适区”》

11.《个股alpha与行业beta的双剑合璧》

10.《震荡行情下，如何挑选估值合理、成长性强的“宝藏股”？》

9.《企业生命周期理论如何运用在选股中？》

8.《如何借鉴赛道型基金持仓？基于业绩归因视角》

7.《当价值遇见成长：均衡估值因子》

6.《成长因子再升级：盈利加速度》

5.《昼夜分离：隔夜跳空与日内反转选股因子》

4.《留存收益、投入资本视角下的估值因子改进》

3.《信息提纯，寻找高质量反转因子》

2.《量价关系的高频乐章》

1.《高频视角下成交额蕴藏的Alpha》

--中观量化--

4.《行业轮动逻辑的标签化应用：重构轮动框架》

3.《企业生命周期理论如何运用在行业轮动中？》

2.《消费升级，需求为王：景气度视角下的消费行业轮动策略》

1.《盈利、估值视角下寻求板块轮动的确定性》

--量化绝对收益之路--

5.《FOF赋能绝对收益：基金组合构建实战（下）》

4.《固收+组合构建白皮书：大时代的小尝试（下）》

3.《固收+组合构建白皮书：大时代的小尝试（中）》

2.《FOF赋能绝对收益：基金组合构建实战（上）》

1.《固收+组合构建白皮书：大时代的小尝试（上）》

--学海拾珠--

166.《企业季度投资激增与股票横截面收益》

166.《基金波动率来源与基金业绩》

165.《均衡配置宏观经济因子：分散效果如何？》

164.《MemSum：基于多步情景马尔可夫决策过程的长文档摘要提取》

163.《奇异值分解熵对股市的动态预测能力》

162.《基金超额能力、规模报酬递减与价值创造》

161.《因子间相关性与横截面资产回报》

160.《交易量对波动率的非对称效应》

159.《基金定期报告中的文本语气能否预测未来业绩？》

158.《因子投资中所蕴含的宏观经济风险》

157.《基于隐含波动率和实际波动率的系统风险指标》

156.《使用机器学习识别基金经理投资能力》

155.《通胀是否会影响会计信息-股票价格间的相关性?》

154.《信息不确定性、投资者情绪与分析师报告》

153.《Alpha与风格因子的综合风险平价策略》

152.《人工智能可以读懂企业高管的想法吗？》

151.《A股的流动性、波动性及其溢出效应》

150.《运用少量ETF可以复制主动基金的业绩吗？》

149.《基于强化学习和障碍函数的自适应风险管理在组合优化中的应用》

148.《投资者情绪能预测规模溢价吗》

147.《基金抛售资产时的选择性偏差》

146.《盈余公告披露的现象、方法和目的》

145.《股票因子个性化：基于股票嵌入的因子优化》

144.《动量、反转和基金经理过度自信》

143.《模糊因子与资产配置》

142.《chatGPT交易策略15个月收益500%+》

141.《前景理论能否解释共同基金的业绩》

140.《是否存在宏观公告溢价现象》

139.《利用深度神经网络改进时间序列动量策略》

138.《基金的协偏度择时能力》

137.《ETF交易与分析师预测》

136.《基于堆叠自编码器和长短期记忆网络的金融时间序列深度学习框架》

135.《基金窗口粉饰行为的新指标》

134.《策略拥挤与流动性冲击》

133.《盈余公告前的已实现测度是否能预测公告后的股票回报？》

132.《共同基金的长周期表现如何？》

131.《股票市场流动性、货币政策与经济周期》

130.《媒体效应如何影响基金投资者和基金经理的决策？》

129.《基于盈利公告发布日期的交易策略》

128.《基金在阶段业绩不佳后会调整激进程度吗？》

127.《20和21世纪风格因子表现的趋势和周期》

126.《基金持仓集中度究竟如何影响基金业绩？》

121.《投资者关注度在市场择时中的作用》

120.《社会责任基金的业绩与持续性》

119.《基于财报文本的竞争关系与股票收益》

118.《基金投资者的真实择时能力如何？》

117.《技术相似性对股票收益的预测能力》

116.《ETF的资金流动是否蕴含独特信息？》

115.《BAB增强版：与包含定价噪音的Beta为敌》

114.《基金经理能选出好的“投机性”股票吗？》

113.《明星分析师能否在糟糕的信息环境中做出更好的覆盖决策？》

112.《股票短线交易与收益异象》

111.《分析师反应不足和动量策略》

110.《共同资金流Beta与因子定价》

109.《被动投资对共同基金管理能力和市场效率的影响》

108.《低频交易的主动基金业绩表现如何？》

107.《不同的回撤指标之间存在差异性吗？》

102.《“聪明钱”、“糊涂钱”与资本市场异象》

101.《无形资产对因子表现的影响》

100.《因子动量与动量因子》

99.《基金评级的变化是否会对股票价格产生系统性影响？》

98.《预期收益、成交量和错误定价之间的关系》

97.《基于回撤控制的最优投资组合策略》

96.《基金抛售对股票价格影响的外溢效应》

95.《已实现半Beta：区分“好的”和“坏的”下行风险》

94.《基金业绩面板回归模型的展望应用》

93.《如何构建更稳健的风险平价投资组合？》

92.《衰退期职业起点与基金业绩影响》

91.《资产配置与因子配置：能否建立统一的框架？》

90.《基金对业务单一公司的偏好》

89.《如何理解因子溢价的周期性？》

88.《货币政策的冲击对基金投资的影响》

87.《度量共同基金经理的绩效表现—基于松弛度经理绩效指数》

86.《基金业绩预测指标的样本外失效之谜》

85.《付出越多，回报越多？—基金公司调研行为与基金绩效的实证研究》

84.《时变的基金业绩基准》

83.《席勒市盈率与宏观经济环境》

82.《基金可持续性评级的公布与资金流量》

81.《关于资产分散化的新思考》

80.《应对通胀时期的最佳策略》

79.《如何基于持仓刻画共同基金的择时能力？》

78.《基金经理可以在股市错误估值时把握住择时机会吗？》

77.《企业盈余管理是否与分析师预测有关？》

76.《主成分分析法下的股票横截面定价因子模型》

75.《盈余公告前后的收益特征是否与投机性股票需求有关？》

74.《债券基金交易风格与市场流动性风险》

73.《高点锚定效应和跨公司收益预测》

72.《贝叶斯动态面板模型下的基金业绩持续性》

71.《企业员工流动对股票收益的影响》

70.《双重调整法下的基金业绩评价》

69.《持仓技术相似性与共同基金业绩》

68.《基金组合如何配置权重：能力平价模型》

67.《财务受限，货币政策冲击和股票横截面收益之间的关系》

66.《基金流动性不足会加剧资产价格的脆弱性吗？》

65.《基于分析师目标价格及相对估值的策略》

64.《基金的“择时”选股能力》

63.《凸显效应对股票收益的影响》

62.《国内基金经理更换对业绩的影响》

61.《流动性不足对股票横截面和时间序列收益的影响》

60.《使用同类基准来评估基金表现有何效果？》

59.《如何用现金流特征定义企业生命周期？》

58.《基金投资者与基金持股的“分割”关系》

57.《高成交量溢价能预测经济基本面信息吗？》

56.《基金经理自购与基金风险》

55.《因子动量与行业动量，孰因孰果？》

54.《基金公司内部的信息传播速度》

53.《共同基金持仓拥挤度对股票收益的影响》

52.《基金的下行风险择时能力》

51.《社交媒体效应、投资者认知和股票横截面收益》

50.《投资者评价基金时会考虑哪些因素？》

49.《公司盈利季节性和股票收益》

48.《信息消化与资产定价》

47.《日历更替：研究盈余公告发布时点影响的新视角》

46.《收益的季节性是由于风险还是错误定价？》

45.《公司复杂性对盈余惯性的影响》

44.《如何衡量基金经理把握股票基本面的能力？》

43.《企业预期管理与股票收益》

42.《基金的资金流压力会对股价造成冲击吗？》

41.《投资者对待公司财报措辞变化的惰性》

40.《处置偏差视角下的基金经理行为差异》

39.《现金流能比利润更好的预测股票收益率吗？》

38.《基金经理个人投入度对业绩的影响》

37.《历史收益的顺序能否预测横截面收益？》

36.《基金买卖决策与其引导的羊群效应》

35.《分析师重新覆盖对市场的影响》

34.《基金规模和管理能力的错配》

33.《股利是否传递了有关未来盈利的信息？》

32.《基金换手提高能否增加收益？》

31.《基本面分析法下识别价值成长溢价的来源》

30.《有多少分析师建议是有价值的？》

29.《不同的经济环境下应如何配置资产》

28.《公募基金投资者是否高估了极端收益的概率》

27.《市场竞争对行业收益的影响》

26.《基金竞争格局对Alpha持续性的影响》

25.《度量beta风险新视角：盈利beta因子》

24.《知情交易的高频指标》

23.《因子择时的前景和挑战》

22.《基金在Alpha和偏度间的权衡》

21.《拥挤交易对板块轮动与因子择时的指示意义》

20.《横截面Alpha分散度与业绩评价》

19.《情绪Beta与股票收益的季节性》

18.《分解公募基金Alpha：选股和配权》

11.《羊群效应行为是否能揭示基金经理能力？》

5.《分析师共同覆盖视角下的动量溢出效应》

--打新跟踪--

152.《北证新股涨幅强劲，网上申购户数突破20万》

151.《新股赚钱效应持续，多只涨幅超100%》

150.《新股首日涨幅稳定，近期询价入围率较高》

149.《10月新股发行量较少，单只个股首日涨幅趋高》

148.《新股涨幅继续回暖，打新情绪指数持积极态度》

147.《新股涨幅底部回暖，打新账户数居于年内高位》

146.《节后首周新股遭破发，单周打新贡献收负》

145.《新股破发再现，9月打新收益回落至本年平均水平》

144.《近期新股涨幅进一步回落》

143.《新股涨幅有所“降温”，北证网上打新参与户数攀升》

142.《多只新股上市首日涨幅超100%，情绪维持”高温“》

141.《IPO“低速”运行，破发率处于历史低位》

140.《IPO节奏将阶段性收紧》

139.《打新赚钱效应持续，次新反复活跃》

138.《新股市场受资金追捧，打新收益陡升》

137.《破发改善，打新情绪指数持积极态度》

136.《创业板新股涨幅，参与账户数双升》

135.《科创板年内最大IPO华虹公司完成询价》

134.《创业板新股密集上市，月度打新收益率创新高》

133.《创业板新股收益回暖，情绪指数持积极态度》

132.《新股首日涨幅回暖，A类参与户数回升》

131.《农科巨头先正达成功过会，拟募资650亿元》

130.《本周新股涨幅环比下行，发行规模有所上升》

129.《5月双创破发率30%，主板打新收益回落》

128.《近期新股上市节奏维稳》

127.《新股首日涨幅分化，打新情绪底部回暖》

126.《主板注册制运行满月，打新收益较为稳健》

125.《4月创业板新股情绪回落，破发比例达62.5%》

124.《双创又见破发，打新收益环比下行》

123.《首批注册制主板新股上市首日表现亮眼双创》

122.《科创板新股首日涨幅回暖，首批注册制主板新股迎来上市》

121.《首批注册制主板新股中签结果公布》

120.《注册制首批主板新股询价状况如何？》

119.《注册制下首批主板企业过会》

118.《北交所迎本年首只网下询价新股》

117.《二月上市节奏回温，打新收益环比上涨》

116.《打新参与账户略有回升，核准制“扫尾”发行提速》

115.《全面注册制正式文件落地》

114.《打新收益显著上行，情绪指数维持积极态度》

113.《情绪冷暖指数建议近期打新持积极态度》

112.《1月发行节奏缓慢，打新收益环比下行》

1 11.《北交所做市业务持续推进》

1 10.《百花齐放不复在，潜心耕耘结硕果——2023年网下打新展望》

1 09.《北证破发率居高，多家待上市企业下调发行底价》

1 08.《2022年A类2亿资金打新收益率约3.47%》

1 07.《新股收益与参与账户数环比维持稳定》

1 06.《新股收益环比小幅下行，本周维持零破发》

1 05.《双创打新收益稳步增长，北证迎来发行高峰》

1 04.《11月打新收益环比上行》

1 03.《北证50指数产品发行在即，推进北交所高质量扩容》

1 02.《打新收益企稳，参与账户数缓慢回升》

101 .《北交所推出融资融券制度》

100.《北交所下半年发行提速，北证50成分股公布》

99.《麒麟信安上市表现亮眼，10月打新收益回温》

98.《破发率降低，打新收益自底部回暖》

97.《科创板股票做市交易业务准备就绪》

96.《科创板破发幅度较大，参与账户数显著下降》

95.《新股破发率企高，上市涨幅较低》

94.《北交所开启网下询价，发行制度实践更加完善》

93.《破发有所改善，但上市涨幅仍维持低迷》

92.《破发再现，打新收益率显著降低》

91.《八月上市规模环比上升，打新收益创年内新高》

90.《新股上市涨幅维稳，本周维持零破发》

89.《打新收益持续回温，海光信息贡献突出》

88.《打新收益回暖，机构参与积极》

87.《7月新股破发率提升，打新收益环比下降》

86.《近期新股定价PE上移，破发比例或再度上升》

85.《新股涨幅下降，单周打新贡献为负》

84.《新股破发再现，仍需警惕定价较高风险》

83.《新股首发PE中枢回落，定价趋于理性》

82.《六月新股打新收益创今年新高》

81.《科创板打新参与账户数量回升》

80.《新股上市涨幅大幅回暖，账户数量趋稳》

79.《五月上市规模较小，但网下询价新股均未破发》

78.《询价新规常态化运作，打新收益测算调整》

77.《打新收益回暖，本周新股申购密集》

76.《询价节奏缓慢，本月尚未有注册制新股上市》

75.《新股破发率较高，近期询价节奏缓慢》

74.《4月科创板打新呈负收益，主板中国海油收益较高》

73.《新股破发加剧，部分固收+产品率先退出打新》

72.《近期新股上市首日涨幅维持低迷》

71.《机构打新参与度持续走低》

70.《机构精选个股参与打新，定价能力日益突出》

69.《新股再现密集破发，单周打新负贡献》

68.《打新市场回温，3月上旬打新收益已超2月》

67.《大族数控成节后首只破发新股，2月打新收益较低》

66.《本周询价新股密集，预计总募资过百亿》

65.《创业板已成为打新收益主要来源》

64.《节后上市节奏缓慢，本周暂无询价新股》

63.《2022年1月A类2亿资金打新收益率0.36%》

62.《新股表现大幅回暖，单周打新贡献突出》

61.《上周市场情绪不佳，新股现密集破发》

60.《北证网上申购热情高涨，本周科创板打新负收益》

59.《发行节奏稳中有进，打新制度红利尚存——网下打新2021回顾与2022展望》

58.《2021全年新股发行规模超5000亿》

57.《2021至今A类2亿资金打新收益率12%》

56.《北交所网下投资者管理特别条款正式发布》

55.《新规后新股上市日内价格怎么走？》

54.《新股上市表现回暖，参与账户数趋稳》

53.《科创板年内最大新股百济神州询价待上市》

52.《从收益角度调整打新能力评价指标》

51.《北交所首批IPO新股采用直接定价发行》

50.《打新账户数量降低，机构参与热情下降》

49.《多只新股破发，打新收益曲线调整》

48.《新股发行价显著上行，中自科技上市首日破发》

47.《部分新股定价突破“四值”孰低》

46.《网下询价分散度提升，有效报价区间拓宽》

45.《本周注册制新股询价新规正式落实》

44.《如何估测未来网下打新收益率？》

43.《打新账户数量企稳，预计全年2亿A类收益率11.86%》

42.《新股上市涨幅回落，下调打新收益预期》

41.《2021至今A类2亿资金打新收益率9.8%》

40.《注册制发行制度优化、促进定价博弈平衡》

39.《从交易情绪中预测次新股走势》

38.《各类“固收+”打新基金推荐》

37.《新股上市后价格一般怎么走？（下）》

36.《新股上市后价格一般怎么走？（中）》

35.《新股上市后价格一般怎么走》

34.《新股上市首日流动性分析》

33.《2021上半年打新回顾：常态发行，稳中有进》

28.《单周上市规模200亿，和辉光电涨幅不及预期》

27.《优质新股集中上市，单周打新收益突出》

26.《新股上市首日最佳卖出时点有所后移》

25.《新股发行稳中有升，IPO排队现象缓和》

24.《2021新股上市规模破千亿》

23.《新股上市节奏趋于平稳，上市表现有所回暖》

22.《2021打新收益的规模稀释效应更加显著》

21.《科创板C类打新账户数量渐超A类》

20.《单周新股上市规模超百亿，3月规模环比上升》

19.《注册制上市涨幅维持150%，主板略微回落》

18.《A类账户数量企稳，2021打新收益可期》

17.《极米科技上市涨幅超300%，打新贡献显著》

16.《IPO发行常态化，2021新股规模可期》

15.《2021至今A类2亿资金打新收益率1.3%》

14.《1月新股上市规模同比下降》

13.《滚动跟踪预测2021打新收益率》

12.《基金打新时的资金使用效率有多少？》

11.《A股IPO发行定价历程回望》

10.《注册制助推IPO提速，2021新股储备较为充足》

9.《如何筛选打新基金？》

8.《如何测算2021年网下打新收益率？》

3.《从参与率和入围率两个角度筛选打新基金》

2.《网下打新报价入围率整体略有下滑》

1.《新股上市降速，蚂蚁暂缓发行》

--其他研究--

--指数研究--

6.《编制规则修改，沪深300指数或迎新成员——2021年12月主要指数样本股调整预测》

5.《2021年6月主要指数样本股调整预测》

4.《美国ETF监管新规导读》

3.《沪深300杠杆反向基金在港交所上市》

2.《半透明主动ETF：海外资管新风口》

1.《亚洲首支权益主动型ETF在香港上市》

--事件点评--

5.《全面注册制改革启动，打新收益或重获关注》

4.《震荡环境下的A股市场展望》

3.《侧袋机制在公募产品中的应用展望》

2.《上证综指编制规则优化简评》

1.《T+0交易制度的境外发展与境内探索》

--数据智库--

7.《2021Q2基金重仓股与重仓债券数据库》

6.《2021Q1基金重仓股与重仓债券数据库》

5.《打新策略定期跟踪数据库》

4.《权益基金定期跟踪指标库》

3.《2020Q3基金重仓股与重仓债券数据库》

2.《ETF跟踪模板发布》

1.《指数增强基金跟踪模板发布》

--产品分析--

12.《华商基金孙志远：稳守反击型FOF名将》

11.《华商基金张晓：俯筛赛道，仰寻个股》

10.《以静制动，顺势而为：景顺长城中证红利低波动100ETF投资价值分析》

9.《华商基金余懿：注重平衡，兼顾逆向和景气》

8.《华商基金彭欣杨：自上而下与自下而上相结合》

7.《华商基金厉骞：擅长进攻的”固收+“名将》

6.《华富基金尹培俊：擅长资产配置的绩优“固收+”舵手》

5.《华富成长趋势投资价值分析报告》

4.《创业板中报业绩亮眼，创业板指配置正当时》

3.《宽基中的宽基：国泰上证综指ETF投资价值分析》

2.《聚焦行业龙头，布局电子赛道》

1.《应对不确定性，黄金配置正当时》

关于本公众号

“金工严选”公众号记录华安证券研究所金融工程团队的研究成果，欢迎关注

重要声明

适当性说明

《证券期货投资者适当性管理办法》于2017年7月1日起正式实施，通过本微信订阅号/本账号发布的观点和信息仅供华安证券的专业投资者参考，完整的投资观点应以华安证券研究所发布的完整报告为准。若您并非华安证券客户中的专业投资者，为控制投资风险，请取消订阅、接收或使用本订阅号/本账号中的任何信息。本订阅号/本账号难以设置访问权限，若给您造成不便，敬请谅解。我司不会因为关注、收到或阅读本订阅号/本账号推送内容而视相关人员为客户。市场有风险，投资需谨慎。

投资评级说明

以本报告发布之日起12个月内，证券（或行业指数）相对于沪深300指数的涨跌幅为标准，定义如下：

行业及公司评级体系

买入—未来6-12个月的投资收益率领先市场基准指数15%以上；增持—未来6-12个月的投资收益率领先市场基准指数5%至15%；中性—未来6-12个月的投资收益率与市场基准指数的变动幅度相差-5%至5%；减持—未来6-12个月的投资收益率落后市场基准指数5%至15%；卖出—未来6-12个月的投资收益率落后市场基准指数15%以上；无评级—因无法获取必要的资料，或者公司面临无法预见结果的重大不确定性事件，或者其他原因，致使无法给出明确的投资评级。市场基准指数为沪深300指数。

分析师承诺

本人具有中国证券业协会授予的证券投资咨询执业资格，以勤勉的职业态度、专业审慎的研究方法，使用合法合规的信息，独立、客观地出具本报告，本报告所采用的数据和信息均来自市场公开信息，本人对这些信息的准确性或完整性不做任何保证，也不保证所包含的信息和建议不会发生任何变更。报告中的信息和意见仅供参考。本人过去不曾与、现在不与、未来也将不会因本报告中的具体推荐意见或观点而直接或间接收任何形式的补偿，分析结论不受任何第三方的授意或影响，特此证明。

免责声明

华安证券股份有限公司经中国证券监督管理委员会批准，已具备证券投资咨询业务资格。本报告中的信息均来源于合规渠道，华安证券研究所力求准确、可靠，但对这些信息的准确性及完整性均不做任何保证，据此投资，责任自负。本报告不构成个人投资建议，也没有考虑到个别客户特殊的投资目标、财务状况或需要。客户应考虑本报告中的任何意见或建议是否符合其特定状况。华安证券及其所属关联机构可能会持有报告中提到的公司所发行的证券并进行交易，还可能为这些公司提供投资银行服务或其他服务。

本报告仅向特定客户传送，未经华安证券研究所书面授权，本研究报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品，或再次分发给任何其他人，或以任何侵犯本公司版权的其他方式使用。如欲引用或转载本文内容，务必联络华安证券研究所并获得许可，并需注明出处为华安证券研究所，且不得对本文进行有悖原意的引用和删改。如未经本公司授权，私自转载或者转发本报告，所引起的一切后果及法律责任由私自转载或转发者承担。本公司并保留追究其法律责任的权利。