首页 > > 情感 > 正文

“海量”专题(146)——买卖单数据中的Alpha:

来源:海通量化团队

0

引言

在《选股因子系列研究(四十六)——日内分时成交中的玄机》、《选股因子系列研究(四十七)——捕捉投资者的交易意愿》、《选股因子系列研究(四十九)——当下跌遇到托底》等报告中,我们讨论了分钟级以及TICK级因子的构建,本文更进一步,尝试基于逐笔数据构建因子。不同于系列专题报告《选股因子系列研究(十一)——Level2行情选股因子初探》中的因子构建方法,本文基于逐笔数据的叫买序号以及叫卖序号,将逐笔成交数据合成为买卖单数据,并基于买卖单数据构建了相关选股因子刻画股票日内交易结构。

1

从“笔”数据到“单”数据

在逐笔数据中,投资者往往比较关注BS标志,并常常围绕该字段构建因子。然而,在逐笔数据的相关字段中,除了BS标志值得关注外,叫卖序号以及叫买序号同样值得关注。下表展示了某股票在2019年7月1日的部分逐笔成交数据。

由于一个买单或者卖单会因对手盘的挂单结构而被切分为多笔成交,因此在刻画投资者行为时,可将逐笔成交数据还原为买卖单数据,并从买卖单的角度进行分析。

以上表展示的数据为例,前4笔成交的叫买序号皆为1153445,而叫卖序号则各不相同,因此可知某投资者在下买单时的量为2200股,而对应的4个卖单的量分别为1500股、100股、100股以及500股。相比于将4笔成交数据分别进行分析,将4笔成交数据还原成对应的买单以及卖单更具有逻辑性。由于无法基于数据字段直接区分投资者,买卖单数据更适于进行投资者行为的刻画。本文后续讨论的所有因子皆是基于买卖单数据计算得到的。更多处理细节可联系报告作者。

2

大单成交金额占比类因子

由于股票成交中的大买单以及大卖单广受投资者关注,我们可基于买卖单数据尝试构建大单成交金额占比因子。本文在识别大单时,并未考虑使用绝对阈值。本文使用了“N倍标准差”的方式,在每个交易日对于每个股票单独设定大单筛选阈值。在筛选得到大单数据后,可按照以下方式计算因子:

本章基于以上指标首先构建了月度因子。月度因子值为各指标前20交易日的均值。本文在后文中同样会讨论因子在不同调仓频率下的表现。下表展示了各大单成交金额占比因子在正交前后的截面选股能力。由于在筛选大单时需要设定参数N,本章分别展示了N=1以及N=3时因子的选股能力。需要说明的是,下表以及后文中的正交因子为剔除了行业、市值、中盘、换手、反转、波动、估值、盈利以及盈利成长后的因子。

观察上表不难发现,大单成交金额占比类因子在从原始因子的角度看并未呈现出明显的截面选股能力。其主要原因是,因子与市值正相关,市值较大的股票更容易呈现大单占比较高的特征。在剔除常规因子的影响后,大买成交金额占比、大买大卖成交金额占比差值皆呈现出了显著的正向选股能力。也即,在控制了常规因素的影响后,大买成交金额占比越高或者大买成交金额占比越高于大卖成交金额占比,股票未来的超额收益表现越好。此外,通过对比不同参数下因子的表现可知,过于严格的大单删选标准会减弱因子的选股能力。随着筛选标准的提升,各股票间的区分度会越来越弱。下图展示了正交后大单成交金额占比类因子的多空相对强弱净值走势。自2014年以来,大买成交金额占比因子具有较好的收益表现。在1倍标准差筛选法下,因子多空年化收益达22.7%,月度胜率达84%。

3

买卖单集中度

大单成交金额占比类因子从大单的角度刻画了股票日内的交易结构,然而由于该因子选股能力在一定程度上受到大单筛选方法的影响,因此本章尝试从交易集中度的角度刻画股票在日内的交易结构。基于各股票的买卖单数据,可计算以下因子:

本章基于以上指标首先构建了月度因子,各股票的月度因子值为前20日指标值的均值。下表展示了各集中度因子在正交前后的截面选股能力。

从原始因子的角度看,除买卖集中度差值外,其余因子皆呈现出了较为显著的选股能力。股票的集中度越高,未来的超额收益表现越好。值得注意的是,买单集中度因子与卖单集中度因子的IC方向相同,并未呈现出“买单集中度具有看多能力,卖单集中度具有看空能力”的现象。

在正交剔除了常规因子的影响后,集中度因子依旧呈现出了较为明显的截面选股能力。除买卖集中度差值外,其余因子皆与股票未来收益正相关。也即,在控制了常规因素的影响后,股票集中度越高,未来的超额收益表现越好。下图进一步展示了正交前后各集中度因子的多空相对强弱净值走势。自2014年以来,买单集中因子与卖单集中度因子多空年化收益高于30%。在正交后,两因子多空年化收益分别为13%以及16%,月度胜率达70%。

4

不同指数范围内的选股能力

回测结果表明,大单成交金额占比类因子在不同的选股范围中都具有较为稳定的选股能力。即使在中,因子依旧对于股票收益具有较好的预测效果。不同于大单占比类因子,集中度因子的选股能力主要集中于中小市值的股票中,该因子在进入后基本未呈现出显著的选股能力。更多细节可参考报告原文。

正交后的大单成交金额占比类因子在沪深300指数中依旧呈现出了较为显著的截面选股能力。在1倍标准差筛选法下,大买成交金额占比因子的月均IC为0.04,月度胜率达75%,因子月度多空收益为1.28%。集中度因子在该范围内的选股能力较弱。

5

不同换仓频率下的选股能力

由于本文所讨论的因子是基于高频数据计算得到,因此因子可应用于不同调仓频率下的选股模型。本章展示了相关因子在2周、1周、2天以及1天调仓频率下的选股能力。需要注意的是,因子值计算窗口会随着调仓频率的变化而改变。例如,2周调仓的频率下,因子值的计算窗口为前2周,而在1周调仓的频率下,因子值的计算窗口为前1周。

下表展示了不同调仓频率下因子的IC均值。可以看到,月度有效的因子在更高的换仓频率下依旧具有选股能力。

除了IC外,因子的ICIR会随着换仓频率的提升而逐步提升。也即,换仓频率越高,因子表现越稳定。下表展示了不同调仓频率下因子的年化ICIR。

6

总结

本文主要基于逐笔数据合成了买卖单数据,并基于买卖单数据构建了相关因子刻画股票日内交易结构。因子整体回测结果具有一定的逻辑性,前期大单买入金额占比较高的股票,未来表现更好。股票日内买卖单成交分布越不均匀,大单特征越明显,股票未来表现越好。

本文同样在不同的选股范围以及不同的选股频率下对于因子的收益表现进行了回测分析。回测结果表明,大买成交金额占比因子在不同的选股范围内皆具有收益区分能力,而集中度因子的选股能力主要集中在中小盘的股票中。此外,随着调仓频率的提升,月度上有效的因子依旧具有截面选股能力,且因子选股能力的稳定性会越来越强。

本文仅初步挖掘了逐笔数据合成得到的买卖单成交量所包含的信息,我们将在后续的报告中对于成交价所包含的信息进行讨论。

7

风险提示

市场系统性风险、资产流动性风险以及政策变动风险会对策略表现产生较大影响。

联系人:袁林青,(021)23212230



如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。

文明长沙网 版权所有 Copyright © 2015-2020

本站提供内容仅供参考,使用前务请仔细阅读