量化交易策略注意事项2—过度历史拟合与欠拟合[古期心得]

管理员

Rank: 9 Rank: 9 Rank: 9

UID: 2
积分: 2945807
威望: 1422940 布
龙e币: 1522867 刀
在线时间: 13794 小时
注册时间: 2009-12-3
最后登录: 2025-4-26

Medal No.1

1^# 跳转到 » 倒序看帖

打印

字体大小: tT

龙听发表于 2019-6-1 11:17 | 只看该作者

量化交易策略注意事项2—过度历史拟合与欠拟合[古期心得]

在最简单的情况下，拟合是指对于一组已知的离散点，给定一个带未知系数的函数，通过调整该函数中系数的取值，使得已知的离散点与函数之间的差别最小化的过程。量化交易策略研发中的最优化部分可以在一定程度上看作是一个拟合的过程，通过优化量化交易策略的模型设置和参数设置来让策略尽量适应交易资产的内在特征，从而获得更高的收益和更低的风险。在这个最优化的过程当中，可能会产生出一些偏离实际目标的结果，依照一般量化交易研究的习惯，称之为过度拟合和欠拟合。实际上，在大的数据科学框架下，过度拟合和欠拟合具有更丰富的表现形式，下面的内容仅针对量化交易策略研究可能出现的情况进行说明。

这里用一个简单的例子来实际说明一下过度拟合和欠拟合。假设一个数据集源自于一个带有误差项的二次方程，如下：

其中 ε 是一个在[-50,50]之间均匀分布的误差项。数据集一共包括二十个点，其中 x 分别选取从 1 到 20 的 20 个整数。如图 3.2 所示，星号为二十个观测数据点，曲线为不带误差项的原始二次方程。

过度的拟合了样本数据，从而造成偏差，影响到策略的盈利能力。在一些专业书籍当中，过度拟合问题有时候也被称之为曲线拟合。欠拟合则恰好相反，往往是由于选取的策略或者模型过于简单，适应交易资产内在特征的能力不强，拟合水平较低，因此盈利能力也就较弱。

就过度拟合和欠拟合的具体表现而言，两者有相似之处也由于不同之处。正如上面所述，两种问题都会导致策略的实际盈利能力下降，这是它们的相同之处。但是欠拟合的量化交易策略由于对数据的描述和挖掘能力不足，往往在历史数据优化下和实际交易中都表现不好，因此在回溯测试时就可以比较直观的分辨出来。过度拟合的量化交易策略则不同，由于在拟合样本数据时过度的优化，进而拟合了样本中噪音的特性，因此常常是历史数据优化下的结果很好，只有在实际交易中才会显著变差，也就是俗称的泛化能力低下。在实际的量化交易策略研发过程当中，这样的性质增加了过度拟合判别的难度。

在大部分情况下，一个量化交易策略往往既具有过度拟合的问题，也具有欠拟合的问题，原因在于金融资产的内在属性并不像物理学等学科所研究的对象一样，存在一个较为明确的运行逻辑，同时也比语音识别等数据科学问题的情况更加复杂和模糊，人们现在对于资产价格运行模式等问题的了解还处在非常皮毛的状态。在实际工作中，研究选取的策略或模型可能只有一部分设置适应了交易资产的内在属性，相符的内在属性也只占交易资产整体属性的一部分，因此策略模型是欠拟合的。好在量化交易策略研发并不是一个需要绝对精确的学科，即使策略模型与数据内在特性相符的程度不大，只要存在这种适应性，就有可能为研发者带来可观的利润。于此同时，研究得到的策略模型的另外一部分设定可能就与交易资产的内在属性完全没有相关性，经过最优化等工作之后只是拟合了资产交易中的噪声，从而造成过度拟合的问题。。{原文来自 www.cxh99.com }

实际工作中研究人员既需要减少量化交易策略过度拟合的程度，也要同时减少策略欠拟合的程度。解决欠拟合的途径较为清晰，就是不断的尝试各种各样的策略，基于更多、更好的策略模型来挖掘交易资产的内在特征，获得相应的盈利能力。当然，尝试新策略是量化交易策略研究工作的基本要求，因此欠拟合这一问题也较少的被研究人员所提及，大部分文献资料都更注重于过度拟合的问题，也存在许多相关论述。从本质上说，简化策略当然是一个行之有效的较少过度拟合的方法，冯诺伊曼曾通过费曼和戴森之口说出了“我能用四个参数拟合一头大象，用五个参数让它摆动鼻子” 的经典名言，参数过多、模型过于复杂可能会导致过度拟合这一看法已经成为了一个公论。

但是与此同时，简化策略又与研究者要解决欠拟合、尝试找到更合适的策略的目标背道而驰。图 3.5 给出了一个策略在简单和复杂之间变动时，欠拟合与过拟合情况的粗略示例。由于交易资产的内在运行逻辑尚不清楚，因此任何一个交易策略都只能挖掘并利用数据内在特征的一部分，也就是两个圆重合的浅灰色区域，而剩下的白色区域则是交易策略没有实际效用但是客观存在的部分。当策略复杂度增加时，策略就有可能更多的利用数据的特征，表现为浅灰色的重合区域增加，欠拟合问题得到缓解。但是与此同时，策略无效的白色区域也可能相应的增加，这一部分经过最优化就是过度拟合的成因。因此在量化交易策略的研发工作中，策略的复杂程度、参数数量的设置等问题常常需要研究人员根据实际情况、过往经验来进行主观判断，没有一个固定的最优标准。好在针对回溯测试过程而言，存在着一些可以用来判别过度拟合问题的技巧，因此研究者可以在适当增加量化交易策略复杂程度的基础上，通过这些技巧来尽量规避策略的过度拟合。{原文来自 www.cxh99.com }

除此之外，增加回溯测试时使用的样本量也是一个可能会产生作用的做法。如果量化交易策略所针对的交易资产内在特性没有随着时间产生变化，那么增加样本量可以扩展回溯测试的覆盖范围，从而在更大的区间内研究策略的稳定程度，而样本量的增加也可以让研究人员更自由的使用一些判断过度拟合的研究技巧，这样就能够在保证不造成欠拟合问题的条件下，更好的规避过度拟合的产生。在实践中增加样本量进行研究的做法也确实能够取得一定的效果，因此在可获得的数据量充足的前提下，还是应该尽可能的让回溯测试覆盖更广的范围。不过究其根源，内在特性不随时间变化的假设本身是值得怀疑的，前面已经说过，人们现在对于资产价格运行等内在特性的了解还处于非常皮毛的状态，即使研究者们发现了某些规律并基于这些规律形成了可以盈利的策略，也不能保证这些规律会保持下去。在这种情况下，不经判断而盲目的增加数据量，就可能对量化交易策略的盈利能力造成误判。而且在中国市场这种运作时间较短、环境变化较快的市场上，该问题就更加严重。完全消除这个矛盾需要研究人员对本质问题充分理解和把握，这并不是仅靠一个合理的量化交易策略研发框架就可以解决的问题。

论坛官方微信、群（期货热点、量化探讨、开户与绑定实盘）

期货论坛 - 版权/免责声明   1.本站发布源码(包括函数、指标、策略等)均属开放源码，用意在于让使用者学习程序化语法撰写，使用者可以任意修改语法內容并调整参数。仅限用于个人学习使用，请勿转载、滥用，严禁私自连接实盘账户交易。
  2.本站发布资讯(包括文章、视频、历史记录、教材、评论、资讯、交易方案等)均系转载自网络主流媒体，内容仅为作者当日个人观点，本网转载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。本网不对该类信息或数据做任何保证。不对您构成任何投资建议，不能依靠信息而取代自身独立判断，不对因使用本篇文章所诉信息或观点等导致的损失承担任何责任。
  3.本站发布资源(包括书籍、杂志、文档、软件等)均从互联网搜索而来，仅供个人免费交流学习，不可用作商业用途，本站不对显示的内容承担任何责任。请在下载后24小时内删除。如果喜欢，请购买正版，谢谢合作！
  4.龙听期货论坛原创文章属本网版权作品，转载须注明来源“龙听期货论坛”，违者本网将保留追究其相关法律责任的权力。本论坛除发布原创文章外，亦致力于优秀财经文章的交流分享，部分文章推送时若未能及时与原作者取得联系并涉及版权问题时，请及时联系删除。联系方式：http://www.qhlt.cn/thread-262-1-1.html

如何访问权限为100/255贴子：/thread-37840-1-1.html；注册后仍无法回复：/thread-23-1-1.html；微信/QQ群：/thread-262-1-1.html；网盘链接失效解决办法：/thread-93307-1-1.html