【1.0时代 终端+Excel】
1.0时代,我们获取数据的方式是在终端点开浏览器,把数据通过 Excel 下载到本地中使用。Excel 中各种透视表与插件组合满足了绝大多数小批量数据使用的场景。Excel+终端浏览器,基本解决了小批量数据使用的问题。
【2.0时代 SQL+单一数据来源】
随着研究的深入、数据维度的拓展、数据规范的清晰,结构化数据开始成为标配。相比于过去的数据浏览器提取方式,SQL 通过一个或几个语句就能实现全部数据的提取,让用户倍感轻松。信息化带来的效率提升,仿佛经历了“工业革命”般的体验。
【2.0时代后期 更高的算力需求】
逐渐地,SQL 也开始暴露一些无法满足研究需求的问题。假如研究的重心放在组合管理、因子挖掘、风险控制领域,SQL 似乎既不能满足计算要求、也无法满足数据处理的时效性要求,这意味着,用户需要花费大量的精力提高一点点效率。
于是,DolphinDB 与聚源也开始给
近日,书香门地集团检测中心参加2023年林产品检验检测能力验证活动中人造板甲醛释放量、吸水厚度膨胀率和密度3个检测项目,均取得满意结果,这已是书香门地集团检测中心连续4年取得该荣誉。
该活动由国家林业和草原局林产品质量和标准化研究中心组织、国家人造板与木竹制品质量检验中心等承办,是一份给承担林产品质量监测任务的各级检验检测机构和自愿参与的实验室的年度盲样考卷,是评价检验检测实验室检测能力的有效手段。
书香门地集团检测中心连续4年取得国家林业和草原局林产品质量和标准化研究中心结果满意的考核,充分说明书香门地集团检测能力持续保证结果的准确性。年考并不是终点,而是一个新的开始。在中国林科院木工所的培训和指导下,书香门地集团充分利用通知结果改进检测中心检测水平,确保检验检测能力持续满足要求并不断提升。
未来,书香门地集团检测中心将不断提高质量控制与运行管理水平,持续加强检验检测能力建设,扩展更多检测项目,为原物料和产品在采购、研发和生产等各个环节提供数据支撑,为书香门地高质量发展保驾护航,为消费者甄选优质健康家居产品。
合作探索一种全新的业务模式。
【3.0时代 探索高质量+高性能】
高质量数据与高性能数据库的融合是市场对3.0时代新业务场景的期待,但目前来看仍存在一些难题待解。以MySQL为例,在海量的时序数据场景下存在一些问题:
·存储成本大:对于时序数据压缩不佳,需占用大量机器资源。
·维护成本高:单机系统,需要在上层人工的分库分表,维护成本高。
·写入吞吐低:单机写入吞吐低,很难满足时序数据千万级的写入压力(针对tick级数据场景)。
·查询性能差:海量数据的聚合分析性能差。
在3.0时代的探索过程中,DolphinDB 与聚源数据达成合作,我们为构建一站式行情数据库服务模式共同努力。
全新的业务场景下,用户可以通过 DolphinDB 访问和调用聚源数据库的各类数据,快速实现高频数据对接、存储、查询、指标计算、因子研究等,助力实现更便捷、更高效的投研。海量数据意味着数据质量高、历史可追溯时间长、维度多,因此全量数据供应商显得尤为重要,而数据质量是一切的基础。
从数据质量的角度:
聚源数据库以金融证券为核心,服务内容涵盖投研数据、财富数据、固收数据、风险数据、ESG 数据等,广泛应用于金融资讯展示、金融投研、大数据分析、风控、量化回测、金融监管等多个领域,经过二十余年的发展,公司与国内券商、基金、保险、信托、银行、期货、资产管理公司等机构建立了广泛的业务合作,确立了在中国金融数据服务领域的领先地位,是中国最优秀的金融资讯服务供应商之一。
从数据库性能的角度:
SQL 或者单一 Python 的处理方法,无论便携性还是成本都不算友好。比如计算一个投资组合的协方差矩阵,无法在 SQL 中完成,需要借助额外的 Python 反推回数据库。高性能时序数据库 DolphinDB 有出色的内置函数、多范式的脚本语言、灵活的自定义计算,无论是在数据存储端,还是在复杂分析端,都是比 SQL 和 Python 更优的选择。以下图为例:
高质量数据、高性能数据库二者怎么融合?从最传统的量化场景出发,以聚源提供的因子库为例。
DolphinDB 支持直接加工底层数据结果并且及时反馈结果到使用者手中,量化场景下的基础因子、特色因子、回测框架都可以直接依托其后的数据基准进行融合。这些步骤的融合帮助用户解决数据储存量极大、读取缓慢的通病。也就意味着,当拥有了捆绑好的高质量基础数据与高性能平台的时候,用户便有了所有想要的内容。同时,因为 DolphinDB 自定义的优势加上聚源数据除常规的披露数据外,还有包括但不限于其它主流另类数据(司法,工商,舆情,预期、宏观行业等)等,极大方便机构客户做特色因子挖掘和回测的工作流程,将原本离散化的工作任务集成式布置在 DolphinDB 上,真正发挥出1+1融合但是产出远大于2的效果。
数据质量与数据库性能的优势相互结合,机构可以直接享受到聚源高质量数据加 DolphinDB 高性能数据库的一站式服务。
除此之外,分布式高性能的数据存储,必然对高频率的数据量处理有着显著优势,对于聚源在金融全场景下涵盖的各更新频率不一的数据,科学合理的插值方法,是提高数据频率的有效手段;因子算法部署在更为高频的数据空间(如 Alpha191 算法由日K,调整为 1分钟K),也是挖掘非线性因子的,进入市场颗粒化程度更深领域的主要路径。数据升频与 DolphinDB 的高性能协作,势必会开辟量化数据场景的新赛道。
这也意味着,3.0时代将迎来数据库与编程语言的融合。
在传统的数据库时代,我们更看重数据的写入,所以我们强调数据库的一致性、原子性、持久性等,而用于分析的 SQL 语句功能则相对简单,复杂的分析和计算通常由更高级的编程语言(如 C++, Python 等)来完成。在海量数据时代,我们更看重数据的读取,也就是通过对海量数据的分析,发掘数据背后的价值,数据分析的时效性则对企业的竞争能力至关重要。未来 SQL 语句和更高级的编程语言也将走向融合,高质量的数据+高性能的数据库将解决数据来源广、时效性差、成本开销大等一系列长期困扰市场的难题。
基于此,DolphinDB 与聚源,在路上。
相关稿件