东方证券_20161107_金融工程研究东方机器选股模型Ver1.0.pdf
《东方证券_20161107_金融工程研究东方机器选股模型Ver1.0.pdf》由会员分享,可在线阅读,更多相关《东方证券_20161107_金融工程研究东方机器选股模型Ver1.0.pdf(17页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、 HeaderTable _User 1122253200 HeaderTable _Stock 股票代码 投资评级 评级变化 行业 code HeaderTable _Excel 东方证券股份有限公司经相关主管机关核准具备证券投资咨询业务资格,据此开展发布证券研究报告业务。 东方证券股份有限公司及其关联机构在法律许可的范围内正在或将要与本研究报告所分析的企业发展业务关系。 因此, 投资者应当考虑到本公司可能存在对报告的客观性产生 影响的利益冲突,不应视本证券研究报告为作出投资决策的唯一因素。 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并
2、请阅读本证券研究报告最后一页的免责申明。 专 题 报 告【 金 融 工 程证 券 研 究 报 告 】东方机器选股模型 Ver 1.0 因子选股系列研究之十五 研究结论研究结论 机器学习容易给人“黑箱模型”和“过拟合”的印象,但事实上一些机器学习算法的逻辑和结果都非常直白,而且算法自身带有一套避免过拟合的参数估计机制。众多的实践研究说明,机器学习方法的预测能力大部分情况下都强于线性模型,很值得在量化投资中测试使用。本报告主要讲述机器学习的基本原理和用其来做量化选股的实证结果。 机器学习模型众多,不存在所谓的最强模型,不同的数据,不同的问题适用 不同的模型。我们测试了 LASSO、SVM、增强型决
3、策树、随机森林等几种常见机器学习方法,最终选择用随机森林,主要是因为它结构简单、参数少、过拟合概率低,同时还具有非常强的样本外预测能力。 机器选股模型省去了“因子筛选”、“因子加权”和“ZSCORE 转收益率”这三个步骤,直接通过随机森林做回归,由 alpha 因子来预测收益率。需要说明的是,决策树本身也可以用来做变量筛选,但是我们并没有把这一步交给机器,而是仍然保留了“因子 IC 检验”这个步骤,保证随机森林的输入变量确确实实是符合我们传统意义的 alpha 因子;如果把很多没有选股效用的因子混在一起作为输入变量,会导致数据噪音过大,产生“ Garbage in, Garbage out”
4、的问题,降低模型的预测能力。 实证结果显示,和传统 alpha 因子 IC_IR 加权方法相比,随机森林模型得到的多空组合收益率和稳健性都更高,处理 alpha 因子间信息重叠的效果要比我们之前报告提出的线性方法好。 风险提示风险提示 量化模型失效风险 市场极端环境的冲击 报告发布日期 2016 年 11 月 07 日 证券分析师 朱剑涛朱剑涛 021-63325888*6077 执业证书编号:S0860515060001 相关报告 非流动性的度量及其横截面溢价 2016-11-02 Alpha 预测 2016-10-25 线性高效简化版冲击成本模型 2016-10-21 资金规模对策略收益
5、的影响 2016-08-26 Alpha 因子库精简与优化 2016-08-12 日内残差高阶矩与股票收益 2016-08-12 动态情景多因子 Alpha 模型 2016-05-25 金融工程 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 东方机器选股模型 Ver 1.0 2 目录 一、机器学习简介. 3 1.1 常见机器学习方法 .3 1.1.1 线性模型 3 1.1.2 决策树模型 3 1.1.3 神经网络 5 1.1.4 支持向量机(SVM) 6 1.1.5 寻找最优机器学习模型? 7 1.
6、2 机器学习如何避免过拟合 .7 1.3 群体学习提高预测能力 .9 1.3.1 增强型决策树 9 1.3.2 随机森林 9 1.3.3 增强型决策树 VS 随机森林 9 二、机器选股模型. 10 2.1 模型基本架构 . 10 2.2 IC 与多空组合表现 . 10 2.3 中证 500 指数增强效果 .11 2.4 MACH-100 组合 . 12 三、总结 . 14 参考文献 . 14 风险提示 . 15 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 东方机器选股模型 Ver 1.0 3 一、
7、机器学习一、机器学习简介简介 1.1 常见机器学习方法 机器学习(ML,Machine Learning)涵盖一大类算法,我们这里的讨论只针对适用于金融数据预测的常用有监督型机器学习(Supervised ML)算法。假设我们要去预测某个连续变量 Y未来的取值(例如,个股未来一个月的收益率),并找到了影响变量 Y取值的 K 个变量 ,这些变量也称为特征变量(Feature Variable)。ML 即是要找到一个拟合函数 去描述 Y和特征变量之间的关系, 为这个函数的参数。 要找到这样的函数,必须要足够量的观测数据,假设有 N 个样本数据 和 ( ) 。 然后定义一个二元函数 来衡量真实观测数
8、据和模型估计数据的偏差,函数 L 也称作损失函数(Loss Function)。基于历史观测数据,我们可以求解下列的最优化问题来得到参数 的估计值 求解过程称作模型训练(Model Traing)。基于特征变量的最新观测值和训练出来的模型参数就可以预测 y的数值。不同机器学习方法的差别在于函数 和 的选择,同时还会给上述优化问题加上限制条件避免模型过拟合,不同的选择需要不同的算法来求解。 我们报告这一章主要介绍几种常用ML模型的基本形式以及论述为什么 ML做预测效果更优的原理,详细的数理推导,建议投资者参阅 Hastie(2008)的经典教科书。 1.1.1 线性模型 如果采用线性拟合函数 和
9、二次损失函数,上述优化问题就变成了最常用的 OLS 线性回归。我们在上篇报告中就是采用简单的一元回归将 alpha 因子的 zscore 转换为预测收益,线性模型的好处在于结构简单,可以基于此发展出完善的资产定价模型和风险分析工具,在 A 股实际使用下来效果也非常好,不比复杂的非线性模型差多少。但缺点是对于因子间共线性处理、变量选择效果一般。现在通行的做法是通过不同 alpha 因子的 IC 相关性分析,进行分类或正交化处理,因子数据预加工后再输入到回归模型中,这里面人为的主观因素会比较多。投资者可以尝试一些带压缩控制的线性模型,如 Ridge Regression,LASSO 等,用数理手段
10、处理问题,提升模型预测能力。 1.1.2 决策树模型 决策树(CART,Classification and Regression Tree)应该是一种结果最易于理解的机器学习模型,和很多投资者采用的因子逐步筛股法的思考方式很像。假设有两个特征变量 和 ,一个训练好的决策树模型可能是图 1 的树状结构,它可以表示成一系列的二维示性函数的和 其中 对应图 2 中的矩阵区域。对于更多的特征变量,CART 的拟合函数也可以表示成类似的高维矩形块示性函数的和,这里矩形块的数量、划分点、划分顺序都是函数的参数,有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联
11、系。并请阅读本证券研究报告最后一页的免责申明。 东方机器选股模型 Ver 1.0 4 CART 的损失函数也为二次损失函数,优化问题(1.1)的变量同时包含整数和实数,属于混合优化问题,没有显式解和高效的数值算法。因此,实际使用中,用得更多的是一种逐步搜索的贪婪算法寻求次优解(算法步骤参考 Hastie 2008),运算效率非常之高。 图 1:二元决策树的树状结构 资料来源:东方证券研究所 图 2:二元决策树的示性函数表示 资料来源:东方证券研究所 决策树结构简单,符合人的逻辑思维习惯,而且不受样本异常值影响,计算速度快,在统计学习里属于“白盒(white box)”方法。但是它也有致命缺点:
12、模型数据依赖性强,稳定性低,样本外预测能力差。 图 3:传统决策树方法的不稳定性 资料来源:东方证券研究所 否否否否是是是是有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 东方机器选股模型 Ver 1.0 5 上图是 Dwyer (2007)使用 UCI repository获得的医学数据做的决策树模型训练测试,他们从所有数据中随机抽取了 106 个样本训练出一个 CART(图 3 左),然后再随机加了 1 个样本,对这 107 个样本又训练了一个 CART(图 3 右)。可以直观看到,虽然只相差一个
13、样本,但是两次训练出来的决策树结构完全迥异. 一种改进的方法是设置有关树结构复杂度的限制条件,提前结束模型训练过程,避免过拟合,这种方法相当于对原来的树形结构进行“修剪”,让枝叶上的数据样本变多。但这种方法对模型样本外预测能力的改善非常有限。CART 更多的是来做群体学习(参考第 1.5 节)的基本构成元素,很少单独使用。 1.1.3 神经网络 人工神经网络(ANN,Artificial Neural Network)是一种历史悠久的机器学习方法。它用的拟合函数比较特别,先对输入变量的线性组合做非线性转换,得到隐藏层的 M个变量 ( ) 转换函数最早取得是 Heveside 阶梯函数,来模拟人
14、生理上受到的刺激需要达到一定的量才会产生反应,但这是一个非连续函数,难以求解后续的优化问题,因此现在使用更多的是连续的 sigmoid 函数 或 GRBF(Gaussian Radial Basis Function) | |。对于回归问题,最后的输出变量是隐藏层变量的线性组合 。 图 4:ANN 基本架构 资料来源:东方证券研究所 ANN 同样使用二次损失函数,但它并非直接求解优化问题(1.1),这样会导致过拟合,而是类似于 Ridge Regression 的做法,对模型里面的参数 的大小做出限制,让优化求解过程提前结束,提高模型样本外预测能力。 Y输出层隐藏层输入层有关分析师的申明,见本
15、报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 东方机器选股模型 Ver 1.0 6 理论上可以证明 ANN 的这种结构可以拟合任意形式的连续函数,增加隐藏层和隐藏层变量的数量可以让模型能够描述更复杂的结构。ANN 的参数数量可以远多于输入变量的个数,因此很容易过拟合,在某些工程问题的样本外表现不如 SVM。近些年,GPU 技术的发展和超大规模服务器并行运算使得复杂结构的神经网络能够在有效时间内完成训练,以 Google AlphaGo 为代表的深度神经网络重回人们视线, 不仅在围棋上战胜人类高手, 也在许多工程问题的机器
16、学习算法竞赛中摘得桂冠(Schmidhuber 2015)。另一方面,网络大数据使得传统 ANN 模型,即使不改进算法,仅靠训练样本数量的大幅提升,效果也能得到显著改善。 1.1.4 支持向量机(SVM) SVM最早由 Vladimir N. Vapnik 和 Alexey Ya. Chervonenkis 于 1963 年提出, 用来做分类,我们这里考察的是其对应的用来解决回归问题的模型 SVR(Support Vector Regression)。SVR先对原始数据做了非线性变换 ,把数据映射到高维空间,再做回归。其拟合函数可以表示为 损失函数 L(a,b)通常采用下面 形式 优化问题(1
17、.1)需要带上类似 Ridge Regression 或 LASSO 的约束条件或惩罚项。当采用类似Ridge Regression 的二次惩罚项时,优化问题可写作 求解这个优化问题,得到的拟合函数可以写成如下形式 ( ) , ( ) ( ) 因此 SVR 并没有设定转换函数 的形式,而是直接选取不同形式的核函数 ,最常用的核函数有多项式函数和高斯核函数等;系数 的数据样本点称为支持向量。 和和 ANN 相比相比,SVR 的的最大优势在于优化问题的求解最大优势在于优化问题的求解,SVR 是一个凸优化问题,全局最优解唯一,模型训练速度快,而 ANN 优化问题求解得到的往往是局部解,和算法初始点取
18、值有很大关系, 不同初始点可能会收敛到不同的局部最优解。 另外另外, 基于, 基于 SRM (Structural Risk Minimization)理论理论,SVR参数参数 的的调整可以用来控制模型预测偏差的上限,从而获得比传统调整可以用来控制模型预测偏差的上限,从而获得比传统 ANN更优的更优的样本外样本外表现表现。SVM在图像识别、文本分类、医药生物等不同领域有很广的运用, 我们尝试过使用我们尝试过使用 LIBSVM 工具箱(工具箱(文献文献3)来)来做因子选股,但是做因子选股,但是发现发现 SVM 对模型对模型参数的设参数的设置很敏感置很敏感,工具箱开发人员建议用工具箱开发人员建议用
19、 Cross Validation +Grid Search 的的方法来寻方法来寻找找最优参数,但我最优参数,但我们不清楚们不清楚 Grid Search 时时格点格点密度密度设置在什么设置在什么水平水平比较合适比较合适,太密会导致运算量陡然增加,太密会导致运算量陡然增加,太太稀稀会会使得参数并非最优,工具箱使得参数并非最优,工具箱默认默认推荐的幂函数推荐的幂函数形式形式格点格点设置设置方法效果不佳方法效果不佳。 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 东方机器选股模型 Ver 1.0 7 1
20、.1.5 寻找最优机器学习模型? ML 模型远不止上面介绍的几种基本类型,这样会引出一个很自然的问题,“是否存在一种最优模型?”。当前世界范围内有很多的机器学习比赛,但还没有哪一种方法能够称霸所有赛事,不不同的同的数据数据、不同的问题、不同的问题适用适用的的 ML 模型模型也不同也不同。但其中有一类算法使用非常广泛,这就是增强型决策树,据不完全统计,Kaggle 举办的机器学习比赛,一半以上的获胜算法使用了 XGBoost 工具箱(一个增强型决策树工具箱,支持 Python 和 R 语言)。不过这只能说明增强型决策树是一种很有效的算法,但并不一定是最强算法,因为 Kaggle 是一个限时的比赛
21、,参赛者为了在规定时间里完成比赛,更倾向于在现有工具基础上改进测试,因此在 Quora 上,也有一些做深度神经网络的研究人员认为,详细分析数据,合理设计网络结构,深度神经网络的效果将远胜于增强型决策树。 对于对于量化研究而言量化研究而言, 从从技术技术层面去寻找最适合股票投资的层面去寻找最适合股票投资的 ML模型模型会会存在存在较大风险较大风险。 因为复杂ML 模型的程序实现和模型训练耗时耗精力,而金融数据预测是一个低信噪比的问题,复杂 ML 模型的效果改善可能很有限,更重要的是复杂 ML 模型,像深度神经网络,数据经过多层加工,输出结果和输入变量之间的关系很难解释, 投资者接受难度大。 更更
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 东方 证券 _20161107_ 金融 工程 研究 机器 模型 Ver1
限制150内