okaa

高频因子

高频和中低频

相同点:

都是利用数学、统计学、计量经济学等方法,从海量数据中寻找能够带来超额收益的”大概率”策略,并纪律严明地按照这些策略所构建的数量化模型来指导投资。

不同点:

高频交易侧重于:1.从极为短暂的市场变化中获利;2.交易的交易量巨大,对计算处理速度、网速有着极高的要求,而且必须全自动化完成;3.持仓时间很短,日内交易次数很多,每笔收益率很低,但是总体收益稳定。

量化交易(中低频)侧重:1.通过海量数据挖掘,搜索可能产生超额收益的“大概率”事件来制定相应的投资策略;2.通过资产估值来计算获利空间;3.通过投资组合和仓位管理来分散风险;4.可以自动化,也可以半自动化(即提供决策依据,交易由人工完成)。

汇总一些高频因子:

中信证券高频因子

《金融产品深度报告:高频选股因子分类体系》20230225

一、订单失衡类

第一类因子为订单失衡类因子,主要是利用日内盘口数据对是量价数据进行了研究。盘口数据包括股票的 委托买卖价格以及委托交易量数据,其反应了当前时刻的投资者情绪和市场的预期。具体参考《高频量价选股 因子初探》和《高频订单失衡及价差因子》、《多层次订单失衡及订单斜率因子》。

这一部分主要介绍 VOI、OFI、OIR、SOIR、PIR 五个因子,这五个因子都是使用 level1 当中的买一到买五、 卖一到卖五的委托价格和委托数量构造而成的。对于月频测试结果而言,多空年化收益为 15.02%、19.68%、15.91%、 21.40%、22.41%。
订单失衡类因子的投资逻辑体现在短期买盘压力大的时候长期的股票收益率往往是呈负相关的关系。

从散户来看,在短期内散户容易存在追高杀跌行为。短期追高,价格上涨,但随着时间的累积,价格会逐渐处于高位,长期来看价格会回落;从主力的角度来看,主力对市场的短时操纵造成了价格的涨跌。强的买卖压力一般 是大单交易造成的,大单交易很可能是主力的“对倒”行为,其目的主要是吸引散户。

二、量价类因子

 第二类因子为量价类因子。主要利用高频的价格数据,包括了高频的平均成交价格、买一价、卖一价和收盘价。具体参考《高频量价选股因子初探》和《高频订单失衡及价差因子》。

其中 MPB 因子通过成交均价进行因子构建,MPC、MPC_max、MPC_skew 则是通过中间价的特征来构建因子,MAX 因子是通过识别分钟较大涨幅进行构建,RSJ 因子的构建则是从波动率的方面进行。 MPB、MPC、MPC_max、MPC_skew、MAX、RSJ 六个因子,在月频换仓下的多空年化收益分别20.3%、22.64%、16.85%、17.06%、16.99%、17.14%。

在投资逻辑层面上,MPB、MPC、MAX 都是刻画短期价格上涨的因子,股票的短期上涨往往是由于散户投资者的追涨杀跌以及机构投资者对于市场的操控造成的,长期来看股价往往会出现回落。MPC_max 和 MPC_skew 则是刻画了市场的极端变化,市场发生极端变化一般是大资金进行市场操纵造成的急涨和急跌,往往也会造成 股价在长时间的过程中进行回落。

三、流动性类

第三类因子为流动性类因子,主要刻画特定股票的流动性情况,其中 ILLIQ、ILLIQ2、LSIlliq、Gamma 是通过日频的量价数据构造的。Lambda 是通过高频量价数据构造的,LogquoteSlope、MCI_B 是通过委托数据进行构造 的。具体参考《流动性因子系统解读与再增强》、《买卖报单流动性因子构建》、《多层次订单失衡及订单斜率因 子》。

在月频调仓的情况下,ILLIQ、ILLIQ2、LSIlliq、Gamma 、lambda、 LogquoteSlope、MCI_B 这七个因子的多 空年化收益分别为 24.66%、30.38%、23.11%、32.35%、29.13%、22.94%、26.18%。

从投资逻辑上来看,这七个因子均是值越大代表股票的流动性越差,流动性差就会出现低流动性溢价,导 致未来的股票呈上涨趋势。

四、资金流类 

第四类因子为资金流类因子。这一部分的因子主要从高频成交量、成交金额、成交笔数的方向来刻画股票受资金的关注程度。这一部分分别介绍 PTOR、BNI、MB、BAM、SAM、BACov、SACov 这七个因子。

因子 PTOR 通过引入笔数的数据,计算平均每笔的成交金额来构建因子;BNI 和 MB 则是先定义大资金成交 的时间段,再进行因子构建;而 BAM、SAM、BACov、SACov 这四个因子则是通过每笔成交金额的属性来进行因 子的构建。

PTOR、BNI、MB、BAM、SAM、BACov、SACov 这七个因子月频换仓的年化多空收益分别为 21.93%、16.74%、 24.18%、33.37%、32.07%、28.51%、30.74%,均具有比较好的选股能力。

海通证券高频因子

具体包括:

高频偏度因子

下行波动占比因子

开盘后买入意愿占比因子

开盘后买入意愿强度因子

开盘后大单净买入占比因子

开盘后大单净买入强度因子

改进反转因子

尾盘成交占比因子

平均单笔流出金额占比因子

大单推动涨幅因子

深度学习高频因子(GRU(10,1)+NN(10))

深度学习高频因子(GRU(50,1)+NN(10))

深度学习高频因子(GRU(10,2)+NN(10))

深度学习高频因子(GRU(50,2)+NN(10))

广发证券Semibeta高频因子

冷门高频因子

https://zhuanlan.zhihu.com/p/490402735

大致有几块:Order aggressiveness、order book shape、撤单、事件聚集、订单薄韧性、异常挂单、逐笔。

一、Order aggressiveness

(1)订单侵略性,其实就是挂单的激进程度。假设你是买家,你挂单的价格越高,你就越激进;反过来,你是卖家,你挂单价格越低,你越是激进的卖家。举个例子,买家挂单越接近bid1,越激进;卖家挂单越接近ask1,越激进;

(2)订单侵略性,体现了买家/卖家完成交易的迫切程度。通过整个订单薄,我们可以知道所有买家整体的激进程度、和所有卖家整体的激进程度;通过这个,就能构建一系列因子了。此外,买卖aggressiveness的差异,也是一系列因子;

(3)一个订单的执行概率和订单薄的厚度、参与者对即将到来的订单的预期有关;买盘越厚,一个潜在的买家下market order的概率更大;这套说法对卖方同样适用;bid ask的厚度体现了看涨和看跌者的相对力量。

(4)不要用静态的思维来看待订单薄,要从动态的角度来分析。订单薄性质的变化,体现了多空力量的动态变化,是未来价格走势的重要体现;在这个问题上,时间序列的建模是很有必要的。

二、order book shape

(1)order book shape,就是订单薄所呈现的形状。

(2)很多学术研究表明,股票的order book的平均形态就是Humped,就是整个订单薄上有一块隆起的地方;

(3)个股来说,离不开几种情况。第一,就是Humped,只是这个顶点不同,而且可能随着时间的变化而变化;第二,可能是双峰的、甚至是多峰的Humped;第三,可能是没有峰,就是矩形分布;第四,可能就在某些档位有分布;第五,可能是单调的,比如从第一档往后几乎单调上升或者下降,单调的函数可以是线性的,也可以是concave或者convex;

(4)上面,是从全局的角度来描述LOB(limit order book简称,下同) 状态的一种方法。也可以只关注一些特殊的点,比如,在某个偏离bid/ask的位置有个奇怪的大单;然后,还要加入时间维度。前面两个,都是静态的、截面的。

(5)humped位置:很多实证研究,都表明,LOB的平均形态,就是humped,只是这个humped的位置不同,这个顶点的位置,可以作为一个因子。比如,买单的顶点位置,是位于0-10%、10-20%等的哪个位置;此外,还需要关注这个hump位置随时间的迁移。

(6)order book slope:订单薄斜率,描述订单薄上的价格和该价格处的挂单量之间的关系。这个slope属于shape的分支,其含义和aggressiveness类似。

三、撤单

(1)撤单行为,不仅反映了交易者的观点的变化,还会影响其他交易者;根据买卖双方各自的撤单量、撤单金额、撤单价位、大单超大单的撤单情况,可以构建很多因子;

(2)和订单薄不同,撤单类因子,是一个流量变量,它需要考虑一个时间段的因子;构建撤单因子时,一定不要独立地看待某段时间的撤单行为,而需要结合实际的成交情况,这才是这段时间内多空双方博弈的信息全集(相对的);

(3)fleeting order:即挂单后短时间内又撤掉的订单;除了正常交易情况下撤单去追跑掉的价格外,fleeting order还有欺骗对手的作用,挂单者想制造假象,以诱导其他投资者(spoofing order);比如,前面降了order book shape,如果你采用了这种因子进行交易,那么你的对手以通过fleeting order来扰乱order book,从而让你的系统发出虚假的信号。

四、事件聚集

(1)定义一些事件,比如撤单、挂买一单、超大买卖单出现,然后在一段时间内统计事件发生的频率,可以构建很多个系列的因子;这是高频数据低频化的常见思路;

(2)一些事件具有聚集的特性,原因有:交易者拆分大单来掩盖交易意图;交易者之间的模仿;不同交易者对新闻的反应(反应是一致的,只是有先有后);为了在竞价上击败其他交易者。

五、订单薄韧性

(1)如果来了个大的市价卖单,然后,当然,买单被吃掉很多;但是通常会回复一部分。比如,有个100手的市价卖单,刚好吃掉了所有报价21元以上的单;后来,21元以上的买单恢复了80手。那么,这个回复能力,就是80%。

(2)订单薄韧性,反映了一部分股票的属性。是个很有意思的因子。

六、异常挂单

(1)有时候,在原理买一和卖一的地方(比如涨停价跌停价,会存在大量挂单。正常情况下,这些订单几乎不可能成交。

(2)类似这样的异常挂单,十分重要。依据这些数据来构建的因子,很有信息量。

七、逐笔数据:主动买卖

(1)判断一笔交易属于主动买还是主动卖,通常以一笔交易的买卖双方的订单到底先后顺序来定;

(2)在实际中,逐笔交易买卖单判断十分重要;像我们常见的资金流这类指标,就是这么计算的;

(3)逐笔数据可以构建的因子很多,主动买卖算一类;

(4) 举例:日内累计主买率、日内累计资金净流入、日内累计大单资金流入率、日内累计小单资金流入率,等等。

逐笔委托和逐笔成交的高频因子

https://bbs.quantclass.cn/thread/20942

推荐两本书:

退出移动版