去年 15 日的笔记挖了个坑,给出了量化数据和因子的存储方案技术导图。这一篇笔记就开始填坑。
即使我们购买了在线数据服务,比如 tushare, 聚宽的账号,我们仍然要构建自己的本地存储,为什么?
原因如下:
这一篇笔我们介绍 HDF5,这是最适合个人交易者的入门方案。HDF5 可以处理相当大容量的数据。
根据 Kesheng Wu 等人的研究,他们分析 2007 年到 2012 年 7 月间的期货交易数据,以构建 VPIN 因子时,处理的交易数据达 30 亿条,CSV 文件的大小达到了 140GB。当使用这么多数据进行 VPIN 计算时,使用 CSV 文件的时间是 142 秒;将其转换成 HDF5 格式后,同样的计算则只花了 0.4 秒,HDF5快了200多倍!
HDF(Hierarchical Data Format)是一种为存储和处理大容量科学数据设计的文件格式及相应库文件。最早由 NCSA (美国国家超级计算应用中心) 研究开发,现由非盈利组织 HDF Group 维护。最新的格式是第 5 版,因此就被称为 HDF5。HDF 最初提供了多种数据类型,比如光栅图像和注解等,而在第 5 版中,简化到只支持科学数据集(即同质多维数组)和群组两种类型。
HDF5 官方版本是基于 C/C++ 的,但也像 MATLAB、Java、Python、R 和 Julia 这些语言也有自己版本的 HDF5 API。
作为量化人,我们使用最多的是 h5py。
h5py 的 logo
HDF5 使用文件来存储数据。它包含两种对象,即数据集(这是一种类似于数组的数据集合)和群组(类似于文件夹,其下可包含数据集 datasets 和其它群组)。我们可以这样来理解 h5py 中的基本对象:
群组象字典一样工作,而数据集则像 Numpy 数组一样工作。
h5py 的 API 比较基础,用法并不复杂。但作为行情和因子数据库,我们需要自己构建一些功能。下面的代码,将演示我们如何存储行情数据,并实现每日更新:
codes = ["000001.XSHE", "600000.XSHG"]
h5file = "/tmp/bars.h5"
h5 = h5py.File(h5file, "a")
for name in ("1m", "5m", "10m", "30m", "1d"):
if name not in h5.keys():
h5.create_group(f"/{name}")
在上述代码中,我们按行情的周期频率,分别创建了若干个 group。接下来的行情数据
就会以证券代码为 name,存储在这些 group 中。
def convert_frame(bars):
# H5 不能处理 NP.DATETIME64,转换成整数
dtype = bars.dtype.descr
dtype[0] = ('frame', 'i8')
return bars.astype(dtype)
我们使用 omicron 来获取行情数据。它返回的行情数据中,有一个 frame 字段,数据类型为 np.datetime64,是 h5py 不能处理的,因此我们将它转换为 epoch 时间来保存。h5py 也允许我们直接保存时间类型(以不透明的方式),但这样一来,就不再支持一些查询操作了。
我们使用下述方法来把新的数据追加到之前的数据集中:
def append_ds(name: str, bars):
ds = h5.get(name)
if ds is None:
ds = h5.create_dataset(name, data = bars, chunks=True, maxshape=(None,))
else:
nold = ds.shape[0]
nnew = len(bars)
ds.resize(nold + nnew, axis=0)
ds[-nnew:] = bars
return ds
这里还展示了获取数据集的方法 get,创建数据集的方法 create_dataset 和 resize 方法。为了支持 resize,我们在创建数据集时,还必须声明 chunks = True 以及 amxshape=(None,)。
添加新的数据是以切片语法来完成的。现在,我们来实现每日追加数据的功能:
# 每日增加行情数据
async def save_bars(codes:List[str], ft: FrameType):
for code in codes:
bars = await Stock.get_bars(code, 240, ft)
append_ds(f"/{ft.value}/{code}", convert_frame(bars))
最后,我们写一个显示其数据结构的函数:
# 显示 H5 文件结构
def h5_tree(val, pre=''):
items = len(val)
for key, val in val.items():
items -= 1
if items == 0:
# THE LAST ITEM
if type(val) == h5py._hl.group.Group:
print(pre + '└── ' + key)
h5_tree(val, pre+' ')
else:
print(pre + '└── ' + key + ' (%d)' % len(val))
else:
if type(val) == h5py._hl.group.Group:
print(pre + '├── ' + key)
h5_tree(val, pre+'│ ')
else:
print(pre + '├── ' + key + ' (%d)' % len(val))
h5_tree(h5)
我们将得到类似下面的输出:
├── 1d
│ ├── 000001.XSHE (240)
│ └── 600000.XSHG (240)
└── 1m
├── 000001.XSHE (1200)
└── 600000.XSHG (1200)
这样,使用 hdf5 来存储行情数据的基本结构就完成了。我们可以用下面的方法进行查询:
filter = mbars["close"] > 14.77
mbars[filter]
我们模拟了一个 40 年分钟线的数据集,在进行上述查询时,需要执行 0.2 秒。
上述存储结构有一个不利之处,就是在查询横截面数据(比如,要查询某个时间点上所有个股的收盘价)时,速度会比较慢,因为循环难以避免。hdf5 提供了 virtual dataset 这一功能,但它并不适合可变长的数据集。
办法之一是,在存储行情数据时,把个股的代码也存储进来。当然,为了加快查询速度,我们需要将以字符串表示的证券代码,事先转换成为整数格式。比如,象 000001.XSHE 这样的代码,我们可以转换成为 100001,600000.XSHG 转换为 2600000:即使用 7 位数证券代码,第 1 位非零,为交易所编码。
但这种情况下,由于数据集变大,我们执行查询的速度也会变长。因此我们在设计时,要综合考虑两种场景的使用占比。
觉得 h5py 还不够快?!那么,你可以考虑使用 Parallel HDF5。这是在 ubuntu 上安装它的步骤:
sudo apt update
# 安装支持并行运算的 HDF5 原生库
sudo apt install libhdf5-mpi-dev
# 检查 HDF5 并行运算是否开启
h5pcc
# 需要这一步以下载 H5PY
sudo apt install -y pkg-config
# 安装支持并行运算的 H5PY
export CC=mpicc
export HDF5_MPI="ON"
pip install --no-binary=h5py h5py
最后一步,在 pip install 时指定 --no-binary=h5py 要划重点。通过这里的指定,我们将下载 h5py 的源码,在本地执行编译,再安装 h5py,而不是直接安装 wheel 格式的 h5py。如果是从 wheel 格式进行安装,我们将无法得到并行计算的 hdf5 功能。
关于并行版本的 h5py 的使用,可以参考这个链接。无法查看外链的,可以 google 大富翁量化,在官网上查看同名文章和示例代码。
尽管 hdf5 提供了存储和访问海量数据的能力,但是,它的文档、及任何一本教程都不会告诉你,它不能提供基于索引的查询。随着你的数据集越来越大,查询速度将会以线性增加的方式变慢。
!!! tip
当我们进行技术选型时,我们总是希望全面了解一门技术的优势和缺陷。但是,官方文档常常只介绍它的优点,对其缺点则避而不谈。奇怪的是,第三方的教程也往往对它的缺陷也往往闪烁其辞。原因可能是,一旦他们谈及了这门技术的缺陷,就可能导致读者失去学习的兴趣,进而降低该教程的流量。这也许是你应该常读我的博文的原因 – 我并不希望你因为我的文章,选择了并不恰当的技术,在浪费了一段时间后,不得不从头再来选择新的技术。
解决方案之一是将数据切分为多个dataset,每个 dataset 的名字与时间关联起来,这样在进行与时间相关的查询时,就可以获得较好的加速。另一个方法是使用 fastquery,它建立了一个基于 bitmap 的索引。不过我并没有看到现成的 python 库。
另一个方案可能是,仅仅将 hdf5 作为基础的持久化设施,而对它的查询操作,全部通过 modin – 这是 pandas 的平替,可以载入远大于物理内存的文件–来操作数据集。
当然,从我们的测试来看,如果你只需要处理到日线级别的行情数据,那么直接使用无索引的查询,速度上是没有任何问题的。所以,这是对个人研究者而言,最简单的方式,就放在本系列第一篇中进行推荐。
如果你希望存储到分钟级的数据,还要保持非常好的查询速度,怎么办?这就 pyarrow + parquet 可以发力的地方,我们将在下一篇里介绍。
本文附有h5py使用示例代码。notebook可以在大富翁量化网站获得。如果🔗无法显示,可以google大富翁量化。