华夏基金孙蒙|机器学习与量化投资

admin1年前 (2023-03-04)研报502

2023年2月，招商证券于杭州成功举办了招商证券2023年春季交流会。在该交流会的指数与量化论坛中，招商证券量化与基金评价团队邀请到包括华宝基金、景顺长城基金、鹏华基金、南方基金和华夏基金的多位业内优秀专业人士，就《“衍生”新格局》这一主题进行了交流与分享。

本文是华夏基金孙蒙关于《机器学习与量化投资》的观点分享。

注：相关材料由招商证券量化与基金评价团队整理，以下发言内容仅代表嘉宾观点，本材料仅供公众号使用。

引言

很高兴有机会给大家做一些我们在策略上的分享，我们之前出来讲的比较少，但是我们其实是公募里面在机器学习领域做的时间比较长的，我们从2017年开始就和微软亚洲研究院在智能投资上面去做比较深入的合作。我们在公募当中也有相对比较成熟的策略应用，我们从2020年开始就推出了中证500指数增强，然后过去几年的业绩其实都是在行业当中比较靠前，今天也是把我们过去在机器学习上面的一些理解和认识，包括我们在产品上的实践跟大家做分享。今天的介绍会主要分成几个部分，首先是给大家做简要的回顾，包括所谓的AI在量化投资可能在哪些场景得到使用，然后到我们产品上的一些策略实践。

机器学习与量化投资

首先理解量化投资到底是在做一件什么事情，其实本质和主动投资不会有特别大的区别，都是首先有对于策略的想法，然后我们把这样的策略去做数据化或者模型化的变换，然后拿到样本外去做回测，如果有效的话，我们可能会收集到实盘策略当中，我们认为可能没那么有效的策略，可能就会去重新做策略的迭代。

从美国的历史来看的话，其实最早的投资组合理论是从60年代开始马科维茨组合投资的理论开始，然后从70年代套利定价理论的出现，使得量化投资有了比较大的发展。

其实大家去理解像多因子的投资，本质也是套利定价原理的变形，我们去做的都是在对截面做股票的定价，背后的理论基础是具备类似特征的标的要有类似的定价，我们对每个截面做股票的定价和合理的价格预测，然后我们去做截面上的选股。再到2010年之后，随着 AI技术的发展，量化投资有了更快的发展。

那么去回顾国内量化的情况，我们认为主要会分成几个阶段，第一个阶段是摸索的阶段，是从2004年到2010年，这个时候是局限于数据和模型，可能所用到的数据是相对比较低频的，同时对于模型上处理往往也是比较简单的。比较快速的发展阶段，是从2010年开始，也是随着股指期货的推出，大家有了对冲手段，中性的策略可以比较好的去应用，这个期间像中高频的和量价关系的策略可能得到比较好的应用。再到2015年至今，其实是竞争日趋激烈的环境，像高频的数据，包括AI技术的应用，也首先是在私募上有非常多的应用，到现在其实像我们在公募上面也开始有逐步的策略应用。

再去理解所谓的AI在量化投资上能做什么事情，我们先去理解AI到底是什么样的概念，所谓的人工智能就是让机器去展现人的智力，去达到这样的目标，一般是通过机器学习的方法，像传统的一些机器学习模型都是来去实现这样的目标的。随着2010年之后的硬件发展，包括算法的进步，早期的一些深度学习的技术是可以被实现的，一些大参数的模型可以在硬件层面去做实现和有效的学习，包括最近比较火的ChatGPT，本质也是对于时序序列处理的深度学习模型。

机器学习算法的分类主要是分成三大类，包括监督学习，无监督学习和强化学习。所谓的监督学习一般是给定模型的输入和输出，那算法所做的事情就是把输入和输出去做映射关系。它所对应的模型一般有线性回归、支持向量机和神经网络等等，都是一些比较成熟的算法的应用。对于无监督学习来说，本质是做了聚类的过程，我们没必要对算法去做打标签的工作，本质是去寻找不同数据之间的相似性区分，哪些数据可能是相似，哪些数据可能是不相似的。强化学习也是最近几年比较有效的应用，其实最早的大家比较熟悉的是AlphaGo在2015年的实践，其实在现在很多的算法交易也都是通过强化学习的模式来去实现的，本质是算法和环境不断的去形成交互，形成最优的无论是投资还是决策的过程。

这是给大家举简单的例子，然后帮助大家去理解就AI到底是在做什么样的事情。这里举的例子是数字图像识别，这个本质其实做的事情是把这样的手写数字和真实数字去做对应模型输入到的信息是这样的图像的二维的矩阵。那算法所做的事情就是把这样二维矩阵和真实数字去做对应关系，去做这样的映射是通过一套神经网络结构来去进行的。

神经网络其实也有一定的生物学的含义，大家可以看到每神经元其实都是模拟了人的神经元的激活函数，所谓的模型训练其实就是在调节每神经元的参数，使得刚才提到的输入和输出之间能够形成有效的映射关系，这个背后其实也有一定的理论的支持，就是所谓的一致近似理论的支持，它背后是说具有至少一个隐层的神经网络，是可以无限逼近于任何的连续函数的。

也就是说如果某个“真相”是存在的话，我们通过这样算法是一定可以能发掘到这样的真相。

再到机器学习在量化投资领域的应用，我们会总结从几个方向，首先是从预测的角度，我们可以通过机器学习的算法，提高股票走势预测的精度。

刚才也提到了像资产定价APT的模型，也是可以对于非线性的问题去做一定的改进，包括在交易执行上面前面也提到了像强化学习的逻辑是可以去优化决策的效率，包括一些对于文本的分析，包括NLP其实都是可以从非结构化的数据当中提取到一些有用的信息，其实都是我们可以把人工智能技术所应用的点。

那么我们去应用这样的技术有可能存在的优势有哪些?首先算法是可以看到大量的数据的，那算法所做的事情就是把在海量数据当中挖掘有效规律，算法从中挖掘到的信息一定是非线性的，同时由于硬件设备的提升，我们是可以迅速的去训练一些深层次的网络的，使得我们可以挖掘一些简单的方法去刻画不了的规律。

这里举一个简单的比较，是我们和传统量化策略，也就是多因子策略从逻辑或者是方法论上的比较，从多因子角度来说的话，基本上还是以资本市场的逻辑框架来去驱动的，需要人工去筛选因子，人工去进行因子打分和加权，比如说像PB-ROE的逻辑无非就是去选择低估值或者是有成长质量的标的，或者去做一些景气投资，无非就是把景气通过某一种形式形成一种量化的表达，本质都是有资本的投资逻辑驱动的。对于AI来说的话，我们并不以投资框架去做限制，我们去让算法自主地从历史当中去寻找最优的投资模式，如果某投资模式去存在，同时可以对市场可以形成有效的刻画，我们都希望可以通过算法去形成有效的挖掘。

再举一个简单的比较，是我们在股票挖掘阿尔法端和传统的所谓的Human阿尔法的区别， Human阿尔法一般是人所定义的指标，一般是有限的维度，同时整个的抽象空间是有限的。

一般可理解的所谓的Human阿尔法也是可理解的定义，我们去做实践的时候，往往是通过统计检验去验证某个想法是不是有效的。而对于我们机器来去做这样的阿尔法的搜索，我们整个的搜索空间是无限的，我们可以在更高维度的去寻找更有效的表达。这个表达往往是一个显示的表达，我们去做阿尔法的筛选的话，更多是做因子的筛选，而并不是策略的验证。

当然我们去做 AI投资肯定也存在一定的挑战，因为并不是说拿到算法，移植到金融市场就一定会有效。其实里边是有一些背后数据集的一些区别，因为不同于像图像文本，像语音信号，背后我们是确定这件事情的“真相”是一定存在，但是对于金融投资来说的话，这个“真相”是不是存在，我们这件事情是不确定的。所以我们去总结我们可能会遇到的挑战会主要有几点，首先是数据的信噪比是很低的，在数据信噪比低的时候，我们通过复杂的模型就有可能拟合的是错误的信号，同时对于金融市场来说并不像语音图像，我们可以无限的去生成样本，我们有效的样本数量其实是非常少的，这个也是可能造成过拟合的主要的原因。

包括我们去刚才也提到了整个的所谓的金融市场“真相”可能是不存在的，也就是说我的整个市场状态是不确定的，但是这个其实是机器学习的算法的最基础的逻辑。学习的样本内和样本外的数据是同分布的，我们怎么样能让这个算法去适应这样的市场不确定性，这个其实也是非常主要的挑战。

III

机器学习在量化投资的实践

再到我们产品上对于量化投资实践，刚才提了我们其实很早就开始和微软亚洲研究院在智能投资开始去合作，我们从17年就开始和微软在智能投资上面去做合作，我们在这个当中有非常多的积累，我们目前也是在做持续的合作和研究。

再到我们整个的AI投资的决策的流程，我们一般还是做指数增强或者主动量化策略为主，所以我们主要会从几个维度然后来去分解我们的投资目标。首先从收益端来讲，我们是希望尽可能获取超越基准的超额收益，这个就需要我们的算法或者是模型可以去形成我们对个股的有效收益预测，并且通过组合优化最大化我们整个算法模型的观点的表达，在风险我们会做大量的风险控制，同时对于基准的偏离去做控制，然后形成事前的风险控制，包括事后的一些风险分解和绩效的跟踪，然后形成对于模型的有效跟踪。

这里边就是我们整个产品的业绩表现的情况，我们其实从19年开始就有实盘策略的运作，最开始是从300增强开始去运作的，然后整体其实在各个年份都是非常具有竞争力的，然后同时长期也是明显和创新产品是有竞争力的。

然后从500增强来说的话，我们是20年的3月份成立的，在每一年其实也是非常有竞争力的，我们从去年的5月份开始在管理社保的1000个增强产品，然后也是大幅的超越了基准指数，这里边会给大家做具体的业绩的或者是产品的介绍，像500增强的产品其实是有两个同策略的产品，是500智选，是500增强，本质都是标准的指增产品去做500的超额收益。去年我们两只产品的超额收益都是排在同业前列的。智胜先锋是一只对标中证500指数的主动量化产品，本质也是去做500的超额，去年有19%的超额收益；另外一只产品是智胜价值成长，这只产品我们超额收益虽然和智胜先锋有区别，这个也是和我们投资运作目标有关系，智胜价值成长我们是希望做高信息比的策略，从实践上来看，整体的策略也是智胜价值成长信息比会要高于智胜先锋，虽然智胜先锋的超额是要比智胜价值成长会要稍高一些。然后我们1000增强的组合，我们是从去年的5月份开始管理，半年有19%的超额收益，也是超越了同期的公募产品和同期的社保委托。

下面是几个具体的产品的情况，我们最早的一支产品是20年3月份成立的500增强，然后到2月10号超越基准指数是55.23%，月胜率是74%，季度胜率83%，我们其实是在每年份，包括长期，包括像去年我们同策略产品是规模第二大的情况下，我们保持了整个策略的竞争力。然后智胜先锋是21年底成立的，我们截止到今年的2月10号一年多的时间，超越基准指数25%，月胜率是80%，季度胜率是100%，同时也是大幅的超越了同期的同类型的产品。然后再到社保的1000增强，我们从去年5月份开始运作，截止到今年2月10号，整体超越基准指数是28%，我们的超额收益的最大回撤只有1.6%，我们在控制了超额收益的波动，同时也获得了非常理想的超额收益表现，从这个月度的胜率还是季度胜率来看，都是达到了100%。我们的产品其实无论在哪年份，然后对标不同的基准，其实都是具备非常强的竞争力。

那么在具体到我们整个投资的策略，其实前面也提到了，其实也就是把前面提到的一些点应用到我们策略上面，包括整体的算法的运算能力，包括我们有大量的分散的持股，然后对风险进行有效的规避。

这里边其实是做了一些我们和同业产品的比较了，首先是从数据层面，我们是实现了数据的多方位的覆盖，同时我们有大量的技术的积累，然后来去对市场形成有效的刻画。

这个右上角列出的是我们去年的产品的超额收益和同业平均水平的对比，其实可以我们发现的是同业产品和成长风格有非常高的相关性，达到了0.55，也就是成长风格表现好的时候，同业产品会表现更好一些，同业产品表现不好的时候可能就会出现一些回撤，在去年的四季度在成长风格出现比较明显的回撤的时候，可以看到同业产品是在回撤，但是我们的产品其实是在持续创造新高的。从两方面去理解，一方面是我们通过这样一套AI的技术，挖掘到了一些和传统的成长风格不一样的超额收益来源。另外一方面通过严格的风险控制，我们规避了风格的波动对我们的组合超额收益形成影响，从收益和风险端我们都是进行了有效的模型的刻画。

再到我们和同业产品的超额收益的对比，下面是500增强相关的产品的超额收益相关性的热图，就是说其实大家去看目前能看到的很多的公募基金，虽然大家配了很多产品，但是其实本质是配的是类似的策略，但是对于我们的产品来说是在第一列，我们的整体和其他的公募基金的相关性是比较低的。从几个方面去理解，我们在公募上面是不存在类似的竞争品，我们没有看到类似的策略。同时从配置的角度来说，我们一方面可以提供比较有竞争力的收益，同时我们从配置角度也可以提供一些分散风险的价值。

我们后续对于我们策略的迭代，我们可能还是从最开始的角度去做，我们会首先是从数据的维度，因为任何的模型最关键的其实还是数据端，我们会继续加强我们在数据的广度和深度。在模型的维度的话，我们会持续的对我们这样的AI的算法，包括对于风险模型进行更新的和迭代。然后在交易上面，我们其实也非常积极的和业内非常领先的机构去做合作，然后去进一步去优化我们整个的执行的算法，我们力争在我们从模型的建模到最后的策略执行，每个维度都做到尽可能的最好。

Q&A

问：孙总，我看到你有就是安泰对冲的策略，去年的话应该在所有的公募的绝对收益的收益里面应该是表现最好的。那么能不能讲一下业绩归因上面讲一下。

可以，我们其实安泰对冲这个策略没放到这里面，因为这个不算是指增策略，所以没有特别的去列。对冲产品其实对公募来讲是非常困难的，因为它有大量的交易的限制，对于公募产品来说，对冲端必须是以套期保值为目的的，所以我们会整个的选股域会做非常严格的限制。在去年的中证1000出来之前，我们整个的选股域只能限制在中证800内，但是随着去年的中证1000股指期货推出来之后，整个的范围会更宽一点。

然后回答您的问题，我们其实每一年基本的超额收益都是从阿尔法端来获取的， 21年和22年，主要的对于我们产品的拖累，主要是期货端的贴水的状态，大概每年都有4%~5%的贡献，所以我们超额端必须要跑赢这个贴水，我们才能有正的收益。

但是今年来看，可以看我们今年安泰对冲其实也是全市场最好的，其实也是今年一方面对冲端我们成本不存在了，去年其实到年底是升水的状态，对冲是可以对我们带来一定的收益的，同时我们超额收益保持了我们21年22年的稳健的状态，就我们超额收益还是很明显，大概有4%的超额收益的表现。今年以来，所以整个其实主要的收益来源基本上还是从我们选股端来去获取的。然后随着股指期货的范围的放宽，像刚才提的我们整个选股范围的放宽，我还是认为我们未来的超额收益的空间还是很大的。

问：想请教一下，是公募和私募的区别，另外就是咱们在做500指增跟300指增的时候，咱们一般就是选股范围上面会有什么样的分布？以及我们在换手过程中是什么样的情况？可能也不是很了解咱们在在对冲的过程中会做什么样的您说的对冲端的管理，比如说我们基差管理是什么样的情况，想跟您做探讨。

就先给您介绍一下公募和私募的区别，其实公募的限制还是比较多的，像这两只产品就是500智选和500增强，我们去年做了9%的超额，其实有一定的约束条件，我必须80%以上的权重是成分股内，成分股的比例是要做很严格的约束，但是我们看到私募其实没有类似的约束的，我们其实是有类似于私募约束的产品，就是这只智胜先锋这个产品，我们对标的是500，但我们可以在更宽的全市场范围去选股，也就是说如果有标的我们认为比500好我们都可以选入，而并没有必要去约束我们是在中证500的成本股内的，所以去年我们也是有19%的超额收益。

然后再到您提到的对冲的问题，对冲的问题就是其实刚才也提了对公募其实是有一些约束的，因为在1000出来之前，我们只能在800内，然后1000出来之后，我们可以在1800里去选，这个其实还是有约束，因为现在的A股大概有将近5000只标的了，其实在更宽的维度去做选股，还是对于超额收益是有帮助的。

问：我想问一下在你们的AI投资策略里面，有没有人为干预市场或者说人为调整的做法是怎么样？

我觉得人所参与到的点是我们怎么样去构建这个模型，就是我们怎么样去理解这个市场，这个其实是指导我们在构建模型的时候，以比如说什么样的算法，利用什么样的数据，然后对着什么样的目标去做学习，这个其实是人最多去参与的点，但是我们模型确定之后，我们就并不会对这个模型去做过多的干预。
我们能做的事情就是在现有的模型基础之上，发现一些有可能存在的一些问题或者是不足的地方，我们在这里面再去做更新和迭代，但并不太会去说我们主动的去干预模型的一些决策，或者是去主动的去做一些个股的调整，我们是不太愿意去做的，我们更多的还是以策略的角度去对策略去做精进或者是优化的角度。

重要申明

风险提示

本报告仅作为投资参考，基金过往业绩并不预示其未来表现，亦不构成投资收益的保证或投资建议。

特别提示

本公众号不是招商证券股份有限公司（下称“招商证券”）研究报告的发布平台。本公众号只是转发招商证券已发布研究报告的部分观点，订阅者若使用本公众号所载资料，有可能会因缺乏对完整报告的了解或缺乏相关的解读而对资料中的关键假设、评级、目标价等内容产生理解上的歧义。

本公众号所载信息、意见不构成所述证券或金融工具买卖的出价或征价，评级、目标价、估值、盈利预测等分析判断亦不构成对具体证券或金融工具在具体价位、具体时点、具体市场表现的投资建议。该等信息、意见在任何时候均不构成对任何人的具有针对性、指导具体投资的操作意见，订阅者应当对本公众号中的信息和意见进行评估，根据自身情况自主做出投资决策并自行承担投资风险。

招商证券对本公众号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。对依据或者使用本公众号所载资料所造成的任何后果，招商证券均不承担任何形式的责任。

本公众号所载内容仅供招商证券股份客户中的专业投资者参考，其他的任何读者在订阅本公众号前，请自行评估接收相关内容的适当性，招商证券不会因订阅本公众号的行为或者收到、阅读本公众号所载资料而视相关人员为专业投资者客户。

一般声明

本公众号仅是转发招商证券已发布报告的部分观点，所载盈利预测、目标价格、评级、估值等观点的给予是基于一系列的假设和前提条件，订阅者只有在了解相关报告中的全部信息基础上，才可能对相关观点形成比较全面的认识。如欲了解完整观点，应参见招商证券网站（http://www.cmschina.com/yf.html）所载完整报告。

本公众号所载资料较之招商证券正式发布的报告存在延时转发的情况，并有可能因报告发布日之后的情势或其他因素的变更而不再准确或失效。本资料所载意见、评估及预测仅为报告出具日的观点和判断。该等意见、评估及预测无需通知即可随时更改。

本公众号所载资料涉及的证券或金融工具的价格走势可能受各种因素影响，过往的表现不应作为日后表现的预示和担保。在不同时期，招商证券可能会发出与本资料所载意见、评估及预测不一致的研究报告。招商证券的销售人员、交易人员以及其他专业人士可能会依据不同的假设和标准，采用不同的分析方法而口头或书面发表与本资料意见不一致的市场评论或交易观点。

本公众号及其推送内容的版权归招商证券所有，招商证券对本公众号及其推送内容保留一切法律权利。未经招商证券事先书面许可，任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用，否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。