华为·云中苏大｜高校数据中台建设中数据模型的设计与实现

本文引用自《高校信息化应用》，2020-10-27，作者单位：苏州大学信息化建设与管理中心。

《高校信息化应用》公众号近期推出“云中苏大”专栏，由苏州大学与华为联合打造的“云中苏大”是一个镜像化、数字化、智能化的全新教育形态，建设完成后将实现完全的数字化，即校园内人、景、物以及学术活动、文化生活等各方面的全息复制，在教学、科研、管理服务等领域实现智能化升级。专栏希望与读者共同探索一种新的大学形态，为国内高校向全数字大学转型提供可复制推广的经验。

目前，国家和相关部门对教育信息化高度重视，先后出台了多项政策和文件，要求加快教育信息化的发展步伐，高校信息化进入了快速发展期。

2019年初，中共中央、国务院印发了《中国教育现代化2035》，重点部署了面向教育现代化的十大战略任务。同时，以云计算、大数据、人工智能、移动互联网和物联网为代表的新技术不断出现和成熟，IT逐步发展成为DT，这必将进一步推动高校信息化的发展。

2015年，工业界首次出现了数据中台的概念，核心思想是“大中台，小前台”和数据共享，在引导新业务发展上发挥了较大作用，并取得了明显效果。随后，国内许多厂家以及企事业单位在各个领域开始建设数据中台，以期进一步的创新和引领。

在此背景下，数据也将会成为高校信息化的核心资产，并对高校信息化的快速发展起到关键的支撑作用。

数据中台是苏州大学与华为技术有限公司合作的“云中大学”战略的重要组成部分和数据底座，其数据存储、集成、清洗、服务等组件在数据处理过程中提供了基础的软件支撑，为“云中大学”和未来的智慧校园应用提供强大的数据支撑和保障，从而实现了“数据支撑业务开展，业务开展带来更多数据”的良性发展趋势。

在数据中台的建设过程中，首先需要厘清高校拥有哪些数据，需要整合哪些数据，然后必须建立起一套完整实用的数据标准和数据模型，进行数据资产的管理和应用。

数据模型和数据标准在数据中台处于向上承接业务，向下引导数据的关键位置，它们是承载数据需求的元数据，是数据质量校验的对象，是形成数据质量规则的基础，也是数据集成与存储的起点。

通过数据模型的建设，由此发现源系统的数据质量问题并制定相关的流程，从而达到数据质量问题的收敛，这样才能支撑高校业务功能的快速开发和实现。

数据中台

数据中台本质上是在新一代大数据、云计算、全链接、数据集成、数据建模、数据算法与分析等信息技术深度融合的推动下，构筑形成的数据底座，解决数据的“存”“通”“用”等难题。

苏州大学的数据中台建设，着力解决了原有数据共享平台存在的数据存储方式受限、数据融合度不够、难以适应未来发展趋势等问题，特别是在信息化过程中的各种业务数据需求，例如对于未数字化业务的数据需求，对于业务数据灵活的融合需求，高度的数据一致性需求，唾手可得的数据查询需求，以及多样的数据分析需求等。

苏州大学的数据中台架构如图1所示，主要包含了数据采集、数据底座、数据服务和数据应用四大部分，其建设方案基于开放的大数据架构，并具备大数据资源的采集、存储、分析计算、数据资源管理和服务的能力。

图1数据中台的整体架构

整个数据中台通过DAYU、FusionInsight HD和ROMA三个平台协作监控和管理。在数据采集过程中，DAYU平台的FDI/MQS/DLF等组件和技术实现了对校内外批量定时数据和流式实时数据的批量集成和实时加载。

数据湖（Data Lake）和MPP（Massively Parallel Processing）数据库是FusionInsight HD的重要组成部分，同时也是数据中台的核心构件，它们共同为数据底座提供支撑和服务。ROMA的API Connect则提供了基于API Marketplace的数据接口网关服务。

因此，通过数据中台构建灵活开放的大数据基础设施和服务能力，数据资源在中台内实现了统一存储、管理和有效利用。同时，以此为依托，高校的数据资源整合共享和开放服务可以获得极大的优化和提升。

通过中台的建设，逐步完善了校园数据资源的归集整合，梳理形成了苏州大学的信息资源目录体系，并以此为依据全面开展数据共享工作，同时建设学校、学生、教学、科研、财务、资源与设备、办公、外事、档案等基础库。其中，数据模型和数据标准作用于整个数据中台的生命周期，包括数据采集、数据湖、主题数据库、专题数据库和数据服务等，也是数据“存”“通”“用”的基础。

数据模型

国际数据管理协会（DAMA）在DMBOK2中定义了11个数据管理的职能领域，其中，数据建模与设计是一个关键的领域，处于中心地位，而数据模型正是数据建模与设计的核心产出物。数据模型是数据特征的高度抽象，它从抽象层次上描述了业务系统的静态特征、动态行为和约束条件，为数据中台的信息表示与操作提供一个抽象的框架。

数据模型的相关定义

首先，我们给出基于数据中台的数据建模中一些相关的定义，具体如下。

主题域：在较高层次上对高校运转活动中的基础数据进行概况和分类，是对高校业务本质的高度抽象，也是高校数据模型的基础。

实体：实体是客观存在并且可以互相区分的事物，可以是人或物，也可以是抽象的概念，如学生、老师、课程等都是实体。

属性：每个实体具有的特征称为属性，一个实体可以由若干属性来描述，如学生的姓名、性别和专业等都是学生实体的属性。

关系：实体不是孤立存在的，实体之间是有联系的。实体之间的联系可以分为三类即一对一（1:1）、一对多（1:n）和多对多（m:n）。例如一位老师可以有多门课程，老师与课程的联系就是一对多的；如果一位老师只有一门课程，则老师和课程的联系就是一对一的。

建设思路

在数据中台的建设过程中，我们特别开发了基于高校主题域的数据模型，其准备过程和建设思路包括了以下几个方面。

第一，充分调研目前的业务信息系统数据。在数据模型的实施过程中，重点调研了31个业务系统，在充分理解这些数据和对应业务的基础上，对它们进行抽象和概括。

第二，参照高等学校管理信息行标。通过参考该行标进一步了解高校基本数据的全貌，同时进行模型规范设计和数据标准设计。

第三，参考其他行业的主题域模型设计。目前其他行业的主题域模型中，一般都有人员或当事人、机构、财务、资产、位置、产品或服务等，高校的主题域可以直接参考。另外，通过参考其他行业的主题域模型，我们发现主题域数量一般不会超过10个，例如在金融行业，IBM设计主题域为9个，Teradata设计的主题域为10个。

第四，针对高校业务的特点，设计拥有高校特征的主题域。例如教学和科研等主题就是高校所特有的，通过这些主题域的设置，一方面能直观地反映高校业务的特点，另一方面能很好地针对高校业务进行归类。

最终，通过精心设计，数据中台包含了“8+1”个主题域数据模型，各个主题域的详细描述如下。

（1）组织：学校的院系、班级、科研所/组、课题组、学术委员会、社团、行政、学术支撑、后勤等部门、校外赞助和合作机构等。

（2）人员：学生管理，教师和职工的人事管理等。例如基本信息、奖惩和补助信息、工作信息、绩效考核等信息。

（3）教学：教学计划、排课、学生选课、考试成绩等信息。

（4）科研：科研的项目管理、科研成果及对外的学术交流等信息。

（5）财务：账务、科目余额、收费、缴费、借款等信息。

（6）资产：资产的清单（教学、科研仪器等）及全生命周期管理。

（7）服务：招生、就业、食堂、宿舍、图书馆、网络、，信息化、办公等服务。

（8）位置：校区、建筑物、房间等信息、及其对应的地址等。

（9）公共：公共的维度和代码等信息，如经过治理的与数据标准相关的代码（包括国标、行标和校标）。

除公共主题域模型外，其他主题域模型之间的关系如图2所示。

图2主题域模型关系对照

基于高校主题域的数据模型具有许多优良的特征，具体表现如下。

一是对数据高度抽象的主题域模型非常稳定，如果按业务系统进行主题域划分，随着业务系统的增加，主题域会不断增加，模型维护的工作量则会越来越多。

二是很容易认清数据源头，找到权威数据。业务系统重视流程，只关注本业务范围的数据。同时各个业务系统之间可能会有数据交互或重合。数据中台通过主题域模型，把来自各个业务系统的数据进行重新组织、标准化，方便了数据的使用。

三是方便查看全景数据，例如要统计学生的信息，直接在人员主题下就可以找到相关的数据信息。不需要再到本科生教务、研究生、成教等系统中分别查找，提高了数据的使用效率。

实现方法

基于OLAP的系统上一般有以下三种建模方法。

（1）关系建模：通过实体关系（E-R）体现企事业单位经营活动的业务要素和业务规则，通过满足3NF设计消除数据冗余。

（2）维度建模：主要思想是将客观世界划分为度量和上下文，按照维度表和事实表构建数据模型。

（3）Data Vault建模：对业务对象、业务要素进行提炼，将业务主键与业务属性分离，属性放到卫星表（Satellites），业务主键放置到枢纽表（Hubs）。同时，业务主键之间的关联或事件由连接表（Links）来构建，并通过卫星表来描述这种联系。

在传统的数据仓库上，公共基础层的数据选择关系建模的较多。这种模型的优点是消除数据冗余，节省空间，但是会对实体做原子拆分，导致在使用数据时会做很多的外部关联，对具体的业务不友好。

例如，来自学工系统的辅导员信息是一张宽表，如果按照关系建模，会被拆分成辅导员基本信息、辅导员联系信息、辅导学历信息等。

由于数据中台也承担了数据的共享和交换功能，如果有其他业务系统需要学工系统中辅导员的原始信息，又需要对上述拆分的表进行合并，反而增加了ETL操作的复杂度。

因此，在大数据项目上，一般采用维度建模，对数据进行归类和整合，一般不对数据做原子拆分。在苏州大学的数据中台建设中，我们采取了基于数据湖和MPP数据库的维度建模法，这样模型的实施效率更高，同时也方便对数据进行理解、标准化和使用。

对于相应的事实表和维度表的定义和划分，具体规则如下。

（1）事实表，在业务活动中产生，一条记录对应一个度量事件。在数据中台中，主要有事务事实表和周期快照表两类。事务事实表是交易过程产生事实表，如一卡通的交易流水、学生借书记录等；周期快照事实表是一定周期内发生的事实，如学生的成绩等。

（2）维度表，包括了参与事务的主体，如学生、教师、组织机构等，以及其他维度如时间、地区、代码等。

在数据中台里，数据的核心处理部分包含了四个前后关联的组件：数据贴源层、标准层、主题层和专题层。

数据模型主要是在标准层和主题层中发挥相应的“向上承接业务，向下引导数据”作用，如图3所示，示意图中的箭头为数据流的方向。

图3数据模型的实现层次

“向下引导数据”体现在从数据源到贴源层的ETL操作，“向上承接业务”规范了专题层的专题数据库（即另一种的“业务库”）建设，以及对应的数据应用和数据服务等。

逻辑模型

主题域命名规范按照主题域中文名字拼音的缩写，对主题域进行编码，然后在表名中加入主题域代码，以区分该表是属于哪一个主题域。

逻辑数据模型基于数据中台目前集成的共计38个系统、334张表、7790个字段进行设计，同时，为了模型良好的扩展性，特别对财务、资产和科研等主题域，参考行业数据和国标（《中华人民共和国教育行业标准-教育管理信息教育管理基础信息》）进行逻辑模型设计。

以高校组织主题为例，该主题域描述了组织的分类，以及对部分组织的考核等内容，该主题域的逻辑模型如图4所示。其中，有关联的部分都是一对多的关系。

图4组织主题域的逻辑模型

在数据共享平台的基础上，高校数据中台重新定义了数据战略，通过DAYU、FusionInsight HD和ROMA平台，以及对应的流处理、数据湖、MPP数据库和API Connect等技术实现数据高质量的汇聚，承上启下，纵观全局，其构筑形成的数据底座，解决数据的“存”“通”“用”等难题，推动企事业单位的业务发展。

数据建模在数据中台中具有十分重要的意义，一方面可以识别数据的主从分布，对来自不同业务系统的数据标准化，提高数据的权威性和使用效率；另一方面它是数据治理的桥梁，通过梳理出高密度价值的数据，为数据治理框定范围和提供指引，确保各种数据治理活动的高效展开。

在具体的建设中，我们特别的采用高校主题域模型对中台的数据进行建模，详细设计了“8+1”个主题域数据模型，并通过基于MPP数据库的维度建模方式，对每个模型进行了详细的逻辑模型设计和实现，从而保障了整个数据中台的建设。

在苏州大学数据中台建成后近一年的试运行过程中，基于主题域的数据模型基本满足了校内业务的数据需求，在优化数据管理的基础上，通过包含数据中台在内的一系列数据支撑平台相互配合、多管齐下，共同支撑了整个学校的数据服务和数据开发。

展望未来，随着大量数据的共享、融合、分析和计算，也将进一步的提升和引导业务发展，从而助力良性的高校信息化发展新格局。

网络服务：86981386	数据应用：86980012	教学支撑：86981628、86981333	校园卡：86980011

工作动态

业界动态

华为·云中苏大｜高校数据中台建设中数据模型的设计与实现

常用电话COMMON PHONE