投资者教育 INVESTOR EDUCATION
证券期货业数据模型标准规划(2022-2025)
证券期货业数据模型标准规划
(2022-2025)
全国金融标准化技术委员会证券分技术委员会
参与人员名单
规划起草单位:
中国证监会科技监管局、中国证监会信息中心、上海证券交易所、中国期货市场监控中心有 限责任公司、中证数据有限责任公司、中证信息技术服务有限责任公司、上证所信息网络有 限公司、申万宏源证券有限公司、中信建投证券股份有限公司、华兴证券有限责任公司、华 金证券股份有限公司、国泰君安证券股份有限公司、海通证券股份有限公司、华泰期货有限 公司、嘉实基金管理有限公司、富国基金管理有限公司、上银基金管理有限公司、恒生研究 院、证通股份有限公司、江苏红网技术股份有限公司、上海金仕达软件科技有限公司
规划起草人员:
姚前、蒋东兴、张涛、谢晨、路一、侯智杰、黄璐、谭晖、黄欣、杜琳钰、汪萌、张春艳、 石宏飞、东晓亮、马丽霞、孙静、刘力、张玲岩、吴保杰、胡卫宁、刘志明、李强、陈东滨、 陈士琛、 白硕、吴斌泉、朱星、戴轶、薛建波、赵玥
为加快推进证券期货行业数字化转型,有效开展行业数据模型标准化工作,通过数据模 型营造良好的数字生态,统筹数据开发利用与隐私保护,加快建立数据基础制度和标准规范, 特制定本规划。规划期限为 2022-2025 年。
以《证券期货业科技发展“十四五 ”规划》为引领,坚持业务导向、应用导向、标准导 向,开展行业数据模型工作,提高数据模型建设和应用水平,建立科学、有效、稳定的数据 模型体系,形成多层次、多维度的数据模型建设成果,探索有效的数据模型应用机制,提高 数据模型管控能力。以服务数据工作,提高标准化能力为导向,企业级业务架构先行,开展 数据模型工作。统一全行业技术、业务人员对库表和字段级数据的定义与使用规则,切实发 挥数据模型在数据治理中的核心作用,为行业科技和数据整体工作提供有力支持和保障。
本规划遵从国家相关法律法规标准要求,适用于指导证券期货业数据模型的制定与应用 工作。
证券期货业数据模型的制定过程中,各相关实施单位、支持单位、服务单位、产品供应 商、软件开发商、系统集成商等,应充分理解本规划,参照本规划制定的数据模型体系,结 合行业数据模型现状及数据模型实际应用情况,有计划地推进相关数据模型建设和维护工作。
——坚持集中规划,统筹领导。数据模型组统筹协调数据模型工作,各标准起草组集中 开展各类数据模型建设,协调各方数据资源模型对接,对模型建设使用进行有效管控。
——坚持分工协作,分步实施。开展数据模型建设时应注重机制联动、各负其责、分工 协作,将数据模型建设具体任务分阶段实施,保证模型建设有效推进。
——坚持统一标准,质量保障。推进行业数据模型标准体系建立与实施,以国家数据标 准为依据,结合行业特点,统一标准,提升质量,有效保障数据可用、易用、好用。
——坚持队伍建设,组织保障。加强数据模型人才汇聚和建设,通过数据模型培养既懂 技术又懂业务的数据专业化团队。通过数据模型增强行业数据意识和数据思维。
数据模型架构基本明确。数据模型包括数据模型方法论、行业数据流图体系、抽象模型 和证券公司逻辑模型、数据模型管理平台四部分,方法论体系集成主体-行为-关系(IBR) 体系、“ 1+3+N ”数学表达式、抽象和逻辑模型设计方法、组织实施和应用落地模式,是行 业数据治理的新体系、新架构、新方法和新模式。数据模型是依据“IBR ”总体方法论,首 次实现对证券期货行业相关法律法规、业务规则、制度及流程等的数据模型提炼,归纳行业 顶层数据流图及机构内数据流图体系,以“交易 ”、“监管 ”、“披露 ”三大业务线条为切 入点,对行业中各种业务全面遍历,完成业务流程识别和抽象模型构建。进一步结合市场重
要机构业务特征和实践要求,建立行业联动的组织实施机制,构建便于各类用户应用且实用 性和针对性更强的逻辑模型。最终形成一系列具有通用性、完备性和扩展性的行业数据模型, 在行业数据治理和数据应用中发挥了有效作用。
图 1 证券期货业数据模型总体架构图
数据模型已具备一定基础。证券期货业数据模型是行业数据治理的核心,行业数据治理 是当前行业信息化工作四大战略之一。项目自2015年启动历时3年,吸纳行业60余家机构近 200人参与,形成国内首创、国际领先的行业数据治理方法论,是我行业向国际标准迈出的 重要一步,是ISO/IEC 38505-2数据治理国际标准中的一部分,填补了该国际标准在实施和 应用方面的空白,在方法论、逻辑架构、行业工作组织机制、展示形式和应用方法五方面国 际领先。数据模型获评2016年人民银行全国金融行业年度十件大事第三名,并获得国际数据 管理协会中国分会授予的“数据治理优秀实践奖 ”。2020年数据模型项目获得第七届证券期 货业科技唯一的一等奖。除方法论以外,数据模型梳理的成果是由行业数据流图、行业抽象 模型和行业逻辑模型、行业数据模型管理平台三部分组成,形成以行业数据流图为表达式, 以抽象和逻辑模型为基础, 以管理平台为支撑的“三位一体 ”的数据模型成果体系。
图 2 行业顶层数据流图
基于数据模型的行业数据生态初步构建。 以数据模型为基础的行业知识库可以服务市 场中的多个角色。服务行业数据生态中的行业业务逻辑、业务流程、数据标准。行业数据生 态以数据模型为大部分环节的支撑,生态管理者和运营者从技术和业务方面使用数据模型开 展数据生态的建设、管理、运营。
数据模型行业推广已形成规模。数据模型成果发布以来,各证券、基金公司,行业软件 商对数据模型的使用十分广泛。截止到现在,有200余家各类机构,登录数据模型管理平台 查阅数据模型;有50余家证券公司应用数据模型及管理平台开展数据治理工作,所管理的资 产覆盖行业88%的券商资产和75%的客户资产,多家中小基金公司亦在直接应用基金行业数据 模型进行落地实践。
——确立全面完整的数据模型体系。制定具有通用性、完备性和扩展性的行业数据模型, 形成一套跟进业务,同步开展模型管理维护的机制;确定一套全行业统一的基础数据业务定 义,统一业务人员与技术人员对基础数据的理解;制定一套数据应用规范,探索数据模型的 应用机制,明确数据使用的场景、 口径和约束条件;培养出一支数据模型的运维队伍。
通过数据模型提升行业数据多维度治理能力和规范建设、支持建设监管数据模型、标准 与设计规范。明确重要监管业务数据模型、字段命名、词根含义与格式等设计要素。
——完善拓展行业数据模型。加强业务与技术的深度融合,梳理市场行为、划分业务条 线、抽取数据特征,结合行业重要机构业务特征和实践要求,进一步完善拓展行业数据模型。 数据模型在原有数据定义、规范的基础上,进一步跟进统一的业务架构和业务能力,抽象行 业基础数据主题,同时通过业务反向助力数据定义的科学化以及数据字段的标准化,为行业 数字化转型奠定基础。探索优化数据模型的管理机制,明确数据模型管理职责,规范工作流
程,建设管理平台,将数据模型成果与行业机构开放共享,推动行业数据模型统一。
——强化数据模型应用。探索推广数据模型, 以数据模型为基础,外延数据标准成果,
形成行业数据资产集合。推动数据模型在行业机构落地,可通过“新系统遵循数据模型,老 系统分步实施 ”的方式逐步落地,形成企业级数据模型,进而推动行业对数据的统一描述、 使用约束以及版本管理等工作,提升全行业数据的标准化和通用化水平。通过数据模型进一 步强化业务人员与技术人员对业务和数据理解的统一、技术开发与数据分析的统一、提升业 务抽象能力和数据使用的规范性。对行业内交互复杂、频率高的数据,通过数据模型提供标 准化通用的描述,指导数据的分析和应用。
——形成统一的全行业数据模型标准。建设重点数据模型标准,建成期货公司数据模 型,完善全市场经营机构数据模型体系;以期货公司监管数据采集为切入口,构建监管逻辑 模型;通过行业事件模型、投研时序模型构建资讯数据模型体系。
——数据模型支持行业数据生态发展。通过数据模型搭建行业知识库推动行业数字化 转型。通过数据模型实现构建业务规则、业务流程到数据结构、数据定义的知识库和关系网 络。促进数据应用与共享,最大化释放数据的核心价值,辅助建立业务与技术沟通的桥梁, 助力行业数字化转型。
证券期货业属于数据密集型行业,在全球数字经济大发展的背景下,大数据、云计算、 人工智能、区块链等新技术在行业数据治理工作中的应用,为资本市场稳健发展提供有效支 撑。数据模型产生直接的经济效益和巨大的社会效益。在规范行业标准化落地、有效服务科 技监管、支持行业数据治理和仓库建设、指导大数据智能挖掘、推进全行业数据资产管理等 五个方面发挥具有实践意义的重要作用。但由于我国证券期货机构尚缺乏足够的数据模型经 验,全面有效的行业数据模型仍然面临许多挑战。数据模型需在新技术的支撑下跟随时代进 一步做精做细。
一是建立良好的行业数据运营生态,促进全方位数据应用和共享。
二是逐步形成行业数据资产体系,用于建立行业数据知识库和知识网络,更好地为行业 金融科技发展提供数据支持。
行业数据模型设计不是一次性工作,而是一个持续更新、维护的过程。随着新业务的开 展、监管规则的变化以及新的数据存储技术的出现等,都需要对行业数据模型进行及时、准 确的更新。同时,由于行业数据模型不同设计阶段设计重点不同等原因,不可能覆盖或详尽 描述行业中的所有数据概念。因此需要建立数据模型的更新维护机制,包括成立各相关领域 模型的更新维护工作组,建立工作机制、模型更新评估机制等,对已建成的数据模型进行定 期回顾、评估与修订, 以保证模型能够与行业最新情况相适应,保持模型的活力和生命力。
2019 年 11 月,证监会公告发布《证券期货业数据模型第 1 部分:抽象模型设计方法》。
抽象模型设计方法是行业数据模型的重要组成,是行业标准的数据审核依据,是行业逻辑模 型的映射基础。基于此方法能够形成一套符合监管规范的模型框架,以及一套依据监管规则 提炼形成的行业数据字典,对于规范行业数据语言、推进行业数据治理、辅助行业监管科技 建设等都具有十分重要的意义。
2021 年 11 月,证监会公告发布《证券期货业数据模型第 3 部分:证券公司逻辑模型》。 证券公司逻辑模型的设计思路继承 IBR 总体方法论,从主体和行为出发,研究资本市场中谁 (主体),经过什么营销过程,通过什么渠道,签署什么合同,开立哪些账户,交易哪些产 品,导致资产有什么变动。通过上述分析过程,证券公司逻辑模型划分为主体、账户、品种、 交易、资产、合同、渠道、营销八大数据域,标准形成数据表 438 张、数据项 4500 个,定 义行业词根 972 个,形成映射关系 5682 个。
2022 年 4 月,证监会公告发布《证券期货业数据模型第4 部分:基金公司逻辑模型》。 基金公司逻辑模型的设计思路与证券公司相同,继承 IBR 总体方法论,从主体和行为出发。 与证券公司相似,基金逻辑模型的主题域划分基本类似,分为主体、账户、产品、交易、合 同、营销、资产、渠道八个主题域,分别以业务开展的核心属性相互关联。数据模型工作组 按管理基金产品的全生命周期梳理了基金公司开展业务发生的主要事件,涉及创设、运行、 终止等 217 个子行为。标准形成数据表 278 张数据项 1931 个,定义行业词根 184 个,属性 代码 311 个,映射行业关系 3088 个。
证券公司逻辑模型和基金公司逻辑模型标准分别给出了证券公司和基金公司逻辑模型 梳理方法及形成的相关产出物,适用于证券公司和基金公司开展数据中心、数据仓库、大数 据平台等数据归集建设中的逻辑模型梳理,有利于提高数据交换效率,提升数据治理水平, 规范信息系统建设。
图 3 行业数据模型整体设计架构图
图 4 证券公司逻辑模型主题域划分
目前,各证券、基金公司、行业软件商对数据模型的使用十分广泛。数据模型工作组也 在大力推广数据模型。具体包括,2022 年 2 月,数据模型组组织走进嘉实基金看《投资研 究时序数据参考模型》行业标准;4 月,数据模型组首席专家在证标委网站发布视频,介绍 基金公司逻辑模型成果情况;5 月组织金融行业数据标准主题沙龙,采用线上直播的方式, 共同探讨金融数据标准制定和模型设计,分享实践,展望发展。
后续计划继续加大推广数据模型应用落地工作,加强国际标准、国家标准与行业标准之 间的统筹推进与协调,构建基于数据模型的行业数据生态。
6.2.1 探索数据模型应用机制
探索建立数据模型的宣传、支持、评价、鼓励机制,例如沙龙、培训、工具等,鼓励与 相关应用、推广单位合作、轮值、领任务的方式开展,更强有力地推进行业应用,探索对模 型的应用开展评价、介绍。考虑在后续数据模型标准修订过程中,将相关优秀应用案例纳入 数据模型相关标准的附录。
6.2.2 拓展数据模型应用知识库
将已建成的数据模型标准化。加强国际标准、国家标准与行业标准之间的统筹推进与协 调。开展标准的引导、规范,鼓励机构优化标准。加大标准供给力度,推动与银行、保险等 行业的标准对接。加强标准宣传推广,推动标准落地应用。
将行业数据模型设计方法论、行业数据模型、模型应用场景、应用案例等分类归纳总结, 形成行业数据模型知识库,便于行业人员随时学习和查询参考,为行业机构的数据模型设计 人员在信息系统建设中落地应用行业模型提供指导。
期货公司逻辑模型首先依托抽象数据模型成果,归纳各类业务交易行为、过程中的数据 共性,合并、提炼数据特征,形成数据分类;其次,通过找出散乱归类中的核心数据特性, 归纳、划分逻辑模型数据域;然后根据“主体-行为-关系 ”(Identity-Behavior-Relevance,
以下简称IBR)的方法,建立数据域之间的关系,形成从核心到外延的逻辑模型架构;最后, 以逻辑模型架构为基础,采用通用的逻辑模型设计步骤,进行系统级分析、表级分析、字段 级分析、代码整合,构建各数据域中实体及实体间关系,以及实体属性的完善,最终形成逻 辑模型。
6.3.1 逻辑模型的梳理步骤
期货公司逻辑模型的梳理步骤如下:
a) 根据 JR/T 0176.1—2019 的抽象模型设计方法,归纳业务交易行为、数据共性,合 并、提炼数据特征,形成数据分类;
b) 在数据分类中,根据核心数据特性归纳并划分逻辑模型数据域;
c) 以品种全生命周期为主线,按照“主体-行为-关系”(Identity-Behavior-Relevance, 以下简称 IBR)方法,建立数据域间关联关系,形成从核心到外延的逻辑模型架构;
d) 在逻辑模型架构的基础上,采用通用的逻辑模型设计步骤,形成逻辑模型成果,具 体如下:
1) 实体关系图;
2) 数据表和数据项;
3) 行业英文词根库及模型的英文翻译;
4) 期货公司业务分类标签;
5) 数据敏感性标签;
6) 数据应用标签;
7) 主流系统软件商代码映射关系。
6.3.2 期货公司业务分类标签
期货公司逻辑模型应符合国家主管部门规定的可从事业务范围,图6给出了期货公司经 核准或备案可开展业务分类。
图 5 期货公司业务分类
6.3.3 期货逻辑模型数据域划分及关联关系
通过IBR的方法,找出数据域中核心数据的特征和关系,构建数据域之间的核心关系。 在期货公司逻辑模型中划分为主体、账户、品种、交易、资产、合同、渠道、营销八大数据 域,各数据域之间的关联关系如下图所示。
图 6 数据域之间关联关系
6.3.4 期货公司逻辑模型数据表与数据项
期货公司逻辑模型在明确了数据域及数据域之间关系后,在每个数据域中,需对各业务 系统进行分析整合,筛选出符合该数据域定义范围的数据表,完成数据表及其描述的补充, 完善期货公司逻辑模型框架,使其完整、稳定,并具备行业通用性。在筛选、补充数据表过 程中,以各数据域定义为基础,甄别该数据域中数据表是否需要新增或删除,并建立各数据 表之间的关系。
图 7 主体数据域关键表及其属性示例
6.3.5 期货逻辑模型成果说明
根据上述期货公司逻辑模型的设计方法,目前已梳理形成了包括主体、账户、产品、交 易、合同、营销、资产、渠道八个数据域的模型成果,涉及数据表200余张、数据项1000余 个,补充行业英文词根100余个,行业属性代码及映射关系4000余个, 目前已提交报批稿。
监管逻辑模型涵盖科技监管的多个业务条线,主要涉及流程类监管业务和统计分析类监 管业务。行业数据模型考虑以期货监管为切入点,基于期货统计分析类业务形成相关数据采 集规范行业标准,同时总结建设经验,结合监管大数据仓库建设成果,逐步推广至各监管领 域,对已经成熟的监管逻辑模型推进建设为行业标准。
6.4.1 建成期货公司监管数据采集规范第一部分
《期货公司监管数据采集规范 第1部分:基本信息和经纪业务》在征求意见的基础上, 形成报批稿,按照金标委要求履行报批程序,推动标准发布。
标准发布后,组织相关推广宣贯活动,推动标准在行业监管数据采集工作中落地,在各期货 公司中实现贯标。
表 1《期货公司监管数据采集规范 第 1 部分:基本信息和经纪业务》结构表
数据表(张) | 数据项(个) | |
期货公司基本信息 | 期货公司基础信息 | 36 |
期货公司业务范围信息 | 5 | |
期货公司股东基本信息 | 20 | |
分支机构信息 | 12 | |
董事、监事、高级管理人员信息 | 10 | |
期货公司风险监管报表 | 期货公司风险监管指标汇总表 | 11 |
最低限额结算准备金计算表 | 9 | |
期货公司净资本计算表 | 66 | |
期货公司风险资本准备计算表 | 10 | |
分离资产报表 | 44 | |
客户权益变动表 | 21 | |
期货公司财务监管报表主表 | 资产负债表 | 63 |
利润表 | 33 | |
所有者权益变动表 | 42 | |
境内分支机构报表 | 45 | |
IB 营业部经营情况表 | 16 | |
现金流量表 | 59 | |
期货公司财务监管报表附表 | 货币资金 | 7 |
自有资金银行存款 | 1 | |
存出保证金 | 1 | |
交易性金融资产 | 4 | |
应收风险损失款 | 1 | |
其他应收款 | 5 | |
长期股权投资 | 2 | |
固定资产 | 1 | |
资产及信用减值准备 | 2 | |
所有权受限的资产 | 2 | |
其他资产 | 1 | |
交易性金融负债 | 1 | |
其他应付款 | 3 | |
预计负债 | 9 | |
其他负债 | 5 | |
次级债 | 12 | |
手续费及佣金净收入 | 12 | |
公允价值变动收益 | 3 | |
业务及管理费 | 15 | |
资产及信用减值损失 | 11 | |
营业外事项 | 2 | |
或有事项 | 6 | |
资产负债表日后事项 | 2 | |
关联方关系及交易 | 5 | |
应收关联方款项 | 7 |
应付关联方款项 | 5 | |
所有者权益附注 | 8 | |
应付职工薪酬 | 7 | |
其他附注 | 9 |
6.4.2 探索与业务部门合作分条线推进监管逻辑模型建设
配合监管业务系统和监管大数据仓库建设,探索承接监管业务流程和监管模型的机制。 分条线与各监管业务部门合作,对适合形成行业标准的数据模型,逐步启动标准立项和建设 工作。
6.4.3 进一步推进期货公司监管数据采集系列标准制定
结合《期货公司监管数据采集规范 第1部分:基本信息和经纪业务》标准编制经验,有 序开展《期货公司监管数据采集规范 第2部分:资产管理业务》的立项、编制、报批、发布 工作。并结合以《期货公司监督管理办法》为代表的一系列法规修订调整,对《期货公司监 管数据采集规范 第1部分:基本信息和经纪业务》进行跟踪优化完善,配套修订已发布标准 的数据要素定义和口径,进一步提升数据应用和共享的时效性和准确性。
建成行业事件模型,结合行业对基于资讯的事件数据模型的需求,形成从资讯数据到事 件应用的完整标准方案,赋能主元数据分类管理能力和各技术平台、系统的适配能力,并满 足事件与图谱结合或形成事件推理能力的发展需求。
图 8 基于资讯数据的事件标准
课题方向为基于资讯的事件应用逻辑模型,研究范围包括事件方法论、事件一二级分类 规范、事件模型要素、事件与知识图谱等技术平台的应用衔接。课题牵头单位为恒生电子, 协作方包括证通公司、申万宏源。课题期望在广泛而充分的行业调研基础之上,完成标准预 研工作,形成标准草案,并顺利开展后续标准相关节点事宜。
建成投研时序数据通用模型,围绕投资研究数据生产和应用,提供一套可参考、可落地、 可复制的数据规范,实现资管与数据服务机构之间数据的互联互通。
通过数据模型搭建行业知识库推动行业数字化转型。通过数据模型实现构建业务规则、 业务流程到数据结构、数据定义的知识库和关系网络。促进数据应用与共享,最大化释放数 据的核心价值,辅助建立业务与技术沟通的桥梁,助力行业数字化转型。
图 9 基于数据模型的行业数据生态图
结合重点任务规划内容,确定推广数据模型、期货公司逻辑模型、期货公司监管数据采 集规范、行业事件模型、投研时序数据模型工作计划如下:
表 2 期货公司逻辑模型工作计划
序号 | 时间安排 | 工作内容 |
1 | 2022年11月 | 在深交所技术大会分论坛推广宣讲期货逻辑模型标准 |
2 | 2022年12月 | 组织会议,就期货公司逻辑模型的通用性及行业落地情况在起 草组内进行讨论交流。 |
3 | 2023年4月-11月 | 组织2到3次推广宣传活动,推进期货公司逻辑模型在行业内落 地实施 |
4 | 时间待定 | 根据金标委要求,准备答辩材料,按报批发布要求开展工作 |
表 3 期货公司监管数据采集规范(第 1 部分)工作计划
序号 | 时间安排 | 工作内容 |
1 | 2022年12月 | 标准报批 |
2 | 2023年6月 | 标准发布 |
表 4 行业事件模型工作计划(待立项阶段)
序号 | 时间安排 | 工作内容 | 内容模块 |
1 | 2022年12月 | 标准预研 | 事件一级分类规范 |
事件逻辑模型要素规范(样例) | |||
2 | 2023年6月 | 完成标准立项 | 标准立项报告 |
3 |
2023年9月 |
形成征求意见稿 | 事件一级分类规范 |
事件二级分类规范 | |||
事件逻辑模型要素规范 | |||
4 | 2023年12月 | 形成送审稿 | 送审稿 |
5 | 2024年6月 | 标准报批 | |
6 | 2024年12月 | 标准发布 |
表 5 投研时序数据模型工作计划
序号 | 时间安排 | 工作内容 |
1 | 2021年8月-2021年9月 | 项目早期调研和完成项目立项 |
2 | 2021年10月至2022年6月 | 启动标准草案编写,业界讨论并完善草案 |
3 | 2022年6月至2022年8月 | 投研时序数据参考模型征求业界意见 |
4 | 2022年9月至2023年2月 | 完成标准审查,对意见进行研讨并修正 |
5 | 2023年3月至2023年9月 | 完成标准报批 |
探索建立数据模型更新维护机制,形成模式版本登记台账;建立数据模型应用台账,构 建模型应用地图;完善数据模型成果统计制度,维护数据模型管理平台,及时根据数据模型 使用情况修订完善标准,保障数据模型标准的高效落地。
建立由证券分技术委员会指导,数据模型工作组组织实施,各有关单位参与的标准化建 设规划推进机制。各单位应加强沟通、统一思想、积极参与相关工作。建立数据模型工作组 与证券分技术委员会其他工作组协调机制,加强与金融技术委员会其他分技术委员会相关工 作组的交流协同。
向证券期货行业内有关单位积极宣传数据模型标准化工作的目的和意义,组织开展数据 模型标准化宣传活动,树立各单位标准化意识,提高技术人员的标准化能力,推动行业数据 治理工作的开展。
加强对数据模型标准建设工作的经费投入力度,证券分技术委员会和数据模型工作组有 关单位应加大人力和资金支持,特别是对数据模型管理平台的支持。鼓励发挥市场机制作用, 带动多方投入,为标准化工作提供资金保障。