GB_T 38667-2020 信息技术 大数据 数据分类指南
3.0
2024-07-19
8
0
1.27MB
18 页
6.6库币
海报
投诉举报
书书书
犐犆犛35.240.70
犔70
!"#$%&''()*
犌犅
/
犜38667
—
2020
!"#$ %&' &'()*+
犐狀犳狅狉犿犪狋犻狅狀狋犲犮犺狀狅犾狅
犵狔
—犅犻
犵犱犪狋犪
—犌狌犻犱犲犳狅狉犱犪狋犪犮犾犪狊狊犻犳犻犮犪狋犻狅狀
20200428,- 20201101./
' ( + , - . / 0 1 2
' ( ) * 3 / 0 4 5 6
, -
目 次
前言 Ⅰ
…………………………………………………………………………………………………………
1
范围 1
………………………………………………………………………………………………………
2
规范性引用文件 1
…………………………………………………………………………………………
3
术语和定义 1
………………………………………………………………………………………………
4
缩略语 2
……………………………………………………………………………………………………
5
分类过程 2
…………………………………………………………………………………………………
5.1
概述 2
…………………………………………………………………………………………………
5.2
分类规划 3
……………………………………………………………………………………………
5.3
分类准备 3
……………………………………………………………………………………………
5.4
分类实施 4
……………………………………………………………………………………………
5.5
结果评估 5
……………………………………………………………………………………………
5.6
维护改进 5
……………………………………………………………………………………………
6
分类视角 6
…………………………………………………………………………………………………
6.1
概述 6
…………………………………………………………………………………………………
6.2
技术选型视角 6
………………………………………………………………………………………
6.3
业务应用视角 6
………………………………………………………………………………………
6.4
安全隐私保护视角 6
…………………………………………………………………………………
7
分类维度 6
…………………………………………………………………………………………………
7.1
概述 6
…………………………………………………………………………………………………
7.2
技术选型维度 7
………………………………………………………………………………………
7.3
业务应用维度 9
………………………………………………………………………………………
7.4
安全隐私保护维度 12
…………………………………………………………………………………
8
分类方法 12
…………………………………………………………………………………………………
8.1
线分类法 12
……………………………………………………………………………………………
8.2
面分类法 13
……………………………………………………………………………………………
8.3
混合分类法 13
…………………………………………………………………………………………
附录 A(资料性附录)
大数据分类示例 14
…………………………………………………………………
犌犅
/
犜38667
—
2020
前 言
本标准按照GB
/
T1.1
—
2009给出的规则起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。
本标准由全国信息技术标准化技术委员会(
SAC
/
TC28
)
提出并归口。
本标准起草单位:
中国科学院信息工程研究所(
信息安全国家重点实验室)、
国家信息中心、
浪潮软
件集团有限公司、智慧神州(北京)科技有限公司、方正国际软件(北京)有限公司、国网安徽省电力有限
公司(
电力科学研究院)、
中国铁道科学研究院集团有限公司、
中国电子技术标准化研究院、
上海三零卫
士信息安全有限公司、
联通大数据有限公司、
中国保险信息技术管理有限责任公司、
九次方大数据信息
集团有限公司、
中电长城网际系统应用有限公司、
广东电网有限责任公司信息中心、
中电科大数据研究
院有限公司、
北京大学、
山东省计算中心(
国家超级计算济南中心)。
本标准主要起草人:陈驰、马红霞、马书南、田雪、高亚楠、黄先芝、单震、张慧敏、张煜、顾广宇、吴艳华、
郑金子、
尹卓、
叶林、
干露、
关泰璐、
李燕超、
郎佩佩、
闵京华、
魏理豪、
禄凯、
张吉才、
冯念慈、
赵俊峰、
史丛丛、
孙嘉阳。
Ⅰ
犌犅
/
犜38667
—
2020
信息技术 大数据 数据分类指南
1
范围
本标准提供了大数据分类过程及其分类视角、分类维度和分类方法等方面的建议和指导。
本标准适用于指导大数据分类。
2
规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,
仅注日期的版本适用于本文
件。凡是不注日期的引用文件,
其最新版本(
包括所有的修改单)
适用于本文件。
GB
/
T4754
—
2017
国民经济行业分类
GB
/
T35295
—
2017
信息技术 大数据 术语
3
术语和定义
GB
/
T35295
—
2017界定的以及下列术语和定义适用于本文件。为了便于使用,
以下重复列出了
GB
/
T35295
—
2017中的某些术语和定义。
3.1
大数据 犫犻
犵犱犪狋犪
具有体量巨大、
来源多样、
生成极快、
且多变等特征,
并且难以用传统数据体系结构有效处理的包含
大量数据集的数据。
注:国际上,大数据的4个特征普遍不加修饰地直接用volume
、
variet
y
、
velocit
y和variabilit
y予以表述,并分别赋予
了它们在大数据语境下的定义:
a
)
体量 volume
:构成大数据的数据集的规模。
b
)
多样性 variet
y
:数据可能来自多个数据仓库、数据领域或多种数据类型。
c
)
速度 velocit
y
:
单位时间的数据流量。
d
)
多变性 variabilit
y
:大数据其他特征,即体量、速度和多样性等特征都处于多变状态。
[
GB
/
T35295
—
2017
,定义2.1.1
]
3.2
数据集 犱犪狋犪狊犲狋
数据记录汇聚的数据形式。
注:它可以具有大数据的体量、速度、多样性和易变性特征。数据集的特征表征的是数据本身或静态数据,而数据
的特征,当其在网络上传输时或暂时驻留于计算机存储器中以备读出或更新时,表征的是动态数据。
[
GB
/
T35295
—
2017
,定义2.1.46
]
3.3
大数据分类 犫犻
犵犱犪狋犪犮犾犪狊狊犻犳犻犮犪狋犻狅狀
根据大数据的属性或特征,将其按一定的原则和方法进行区分和归类,并建立起一定的分类体系和
排列顺序的过程。
1
犌犅
/
犜38667
—
2020
3.4
分类主体
犮犾犪狊狊犻犳犻犮犪狋犻狅狀狊狌犫
犼
犲犮狋
大数据收集、
存储、
使用、
分发、
删除等过程中对大数据进行梳理归类的组织或个人。
3.5
分类视角
犮犾犪狊狊犻犳犻犮犪狋犻狅狀犪狀
犵
犾犲
分类主体观察和开展大数据分类活动的角度。
3.6
分类维度
犮犾犪狊狊犻犳犻犮犪狋犻狅狀犱犻犿犲狀狊犻狅狀
用于实现分类的数据所具有的某个或某些共同特征。
注:常见数据分类维度包括产生来源、
结构化特征、
业务归属、
处理时效性要求等。
3.7
分类方法
犮犾犪狊狊犻犳犻犮犪狋犻狅狀犿犲狋犺狅犱
根据选定的分类维度,
将数据类别以某种形式进行排列组织的逻辑方法。
3.8
数据分发 犱犪狋犪犱犻狊狋狉犻犫狌狋犲
将原始数据、
处理数据、
分析结果等形式的数据传递给内部或外部实体的过程。
注:数据分发包括线上或线下等多种方式,如数据交换、数据交易、数据共享、数据公开等。
3.9
类别
犮犪狋犲
犵
狅狉
狔
具有共同属性(或特征)的数据的集合。
4
缩略语
下列缩略语适用本文件。
ETL:
提取、
转换和加载(
ExtractTransformLoad
)
FTP:
文件传输协议(
FileTransferProtocol
)
SQL:结构化查询语言(
StructuredQuer
yLan
g
ua
g
e
)
5
分类过程
5.1
概述
大数据分类过程划分为分类规划、分类准备、分类实施、结果评估、维护改进5个阶段,如图1所示。
2
犌犅
/
犜38667
—
2020
图1
大数据分类过程
本章规范了大数据的分类过程,
并根据大数据实际应用场景,
在第6章、
第7章、
第8章分别对分类
视角、分类维度、分类方法3个关键步骤进行规范,具体分类示例参见附录 A。
5.2
分类规划
5.2.1
选择分类视角
选择分类视角过程包括:
a
)
明确分类业务场景;
b
)
根据业务场景选取分类视角。
注:分类视角见第6章。
5.2.2
制定工作计划
制定工作计划过程包括:
a
)
明确规划拟开展分类的数据范围;
b
)
明确拟采用的分类维度和方法;
c
)
明确预期分类结果;
d
)
明确分类工作实施方案及进度安排;
e
)
明确对分类结果的评估方法;
f
)
明确对分类结果体系的维护方案。
5.3
分类准备
5.3.1
调研数据现状
调研数据现状过程包括:
a
)
调研数据产生情况,包括但不限于数据产生的场景、主体、方式、频率、稀疏稠密、合法合规
性等;
b
)
调研数据存储现状,包括但不限于数据内容的格式、存储方式、存储位置、存储量等;
c
)
调研数据质量情况,包括但不限于数据的规范性、完整性、准确性、一致性、时效性、可访问
性等;
d
)
调研数据业务类型,如组织人事管理数据、经营数据、财务数据等;
3
犌犅
/
犜38667
—
2020
e
)
调研数据敏感程度,
包括但不限于数据的涉密程度、
安全性、
保护需求等;
f
)
调研数据应用情况,
包括但不限于数据的使用目的、
应用领域、
使用方式等;
g
)
调研数据时效性情况,
包括但不限于数据处理的时效性要求、
数据价值时效性等;
h
)
调研数据权属情况,
包括但不限于数据的所有权、
管理权、
使用权等。
5.3.2
确定分类对象
确定分类对象过程包括:
a
)
确定数据分类的业务场景;
b
)
确定数据产生的起止时间;
c
)
确定数据量大小;
d
)
确定数据产生频率;
e
)
确定数据结构化特征;
f
)
确定数据存储方式;
g
)
确定数据处理时效性;
h
)
确定数据交换方式;
i
)
确定数据产生来源;
j
)
确定数据流通类型;
k
)
确定数据质量;
l
)
确定数据敏感程度。
5.3.3
选择分类维度
选择分类维度过程包括:
a
)
梳理分类视角的数据特征;
b
)
根据数据特征选取分类维度。
注:分类维度见第7章。
5.3.4
选择分类方法
选择分类方法过程宜明确分类维度的排列顺序和组合方式。
注1
:分类方法见第8章。
注2
:若选择混合分类法,
还需考虑以哪种分类维度为主,
哪种分类维度作为补充。
5.4
分类实施
5.4.1
拟定实施流程
拟定实施流程宜结合大数据的生命周期,拟定具体的分类实施流程,包括但不限于明确实施步骤、
启动实施工作、开展实施工作、总结实施过程等。
5.4.2
开发工具脚本
开发工具/脚本宜根据实施流程、分类维度和分类方法编写分类算法,遵循软件开发或者脚本编制
的规范开发分类工具/脚本。
5.4.3
记录实施过程
记录实施过程宜记录分类实施过程的各个步骤及其分类结果,输出文档。
4
犌犅
/
犜38667
—
2020
5.4.4
输出分类结果
输出分类结果宜梳理各个步骤的分类结果,
形成数据分类表。
5.5
结果评估
5.5.1
核查实施过程
核查实施过程包括:
a
)
核查数据分类表,明确类别划分是否合理;
b
)
核查分类过程记录,
明确分类结果与预期目标的偏离程度;
c
)
核查分类维度,
确保分类维度符合业务需求、
分类目标;
d
)
核查分类方法的合理性;
e
)
根据核查结果调整大数据分类过程。
5.5.2
访谈相关人员
访谈相关人员包括:
a
)
访谈数据分类执行者,
询问分类视角、
范围、
维度、
方法与业务场景的关联性等;
b
)
访谈数据所有者,
询问数据分类结果中的数据权属类别划分、
产生频率类别划分等是否符合实
际情况;
c
)
访谈数据管理者,询问数据分类结果中的数据结构化类别划分、数据存储方式类别划分、稀疏
程度划分、
敏感程度划分等是否符合实际情况;
d
)
访谈数据使用者,
询问数据分类结果中的数据处理实时性划分、
交换方式类别划分、
业务归属
类别划分、流通类型类别划分等是否符合实际应用情况;
e
)
核查意见和问题,
调整大数据分类过程。
5.5.3
测试分类结果
测试分类结果包括:
a
)
对分类后的数据执行分类脚本或程序,查看是否有不符合分类策略的分类结果;
b
)
核查意见和问题,调整大数据分类过程。
5.6
维护改进
5.6.1
变更控制
变更控制包括:
a
)
分析变更的必要性和合理性,确定是否实施变更;
b
)
制定变更计划,
评估变更对大数据分类工作的影响,
包括分类维度、
分类方法的改变等;
c
)
执行变更,对分类结果进行更改,记录变更过程;
d
)
对新的大数据分类结果进行评估;
e
)
发布新的大数据分类结果。
5.6.2
定期评估
定期评估包括:
a
)
定期评估大数据分类维度和方法的合理性,检查其是否符合业务场景变化和分类视角变化;
5
犌犅
/
犜38667
—
2020
b
)
定期评估大数据分类结果的有效性和应用情况,
检查其是否满足业务应用需求的更新;
c
)
核查意见和问题,调整大数据分类过程。
6
分类视角
6.1
概述
大数据分类视角分为技术选型视角、业务应用视角和安全隐私保护视角。
6.2
技术选型视角
技术选型视角包括但不限于:
a
)
理清数据产生频率,
明确数据产生规律,
确定数据更新周期和存储策略,
确定数据存储平台配
型等存储资源分配方案;
b
)
理清数据产生方式,
分析数据的来源和质量,
确定在整个数据处理流程中数据所处的位置,
及
数据处理及存储技术;
c
)
分析数据的结构化特征,
确定数据存储与处理方案;
d
)
明确数据的存储方式,
确定数据建模模型与数据的访问方式,
支撑各类数据应用场景;
e
)
理清数据稀疏稠密程度,
明确数据稀疏稠密规律,
确定数据存储策略和分析方法,
选择数据存
储方案和分析方案;
f
)
明确数据处理时效性要求,明确数据处理时机,确定数据处理策略,选择包括计算平台和资源
匹配等的数据处理方案;
g
)
理清数据交换方式,
确定数据共享方式及策略,
支撑构建信息交换体系。
6.3
业务应用视角
业务应用视角包括但不限于:
a
)
理清数据产生来源,
明确数据权属和访问权限,
便于数据追踪溯源;
b
)
明确数据应用场景,确定数据业务主题,判断数据应用价值,选择数据分析方案;
c
)
明确数据分发场景,确定数据应用行业,明确可用数据的种类和范围;
d
)
理清数据质量情况,明确数据应用需求,确定数据质量管理方案。
6.4
安全隐私保护视角
安全隐私保护视角包括但不限于:
a
)
明确不同敏感程度的大数据在存储、传输、访问、分发时的安全要求;
b
)
明确不同敏感程度的大数据的隐私保护要求;
c
)
指导分类主体制定隐私保护方案;
d
)
指导分类主体制定安全管理方案。
7
分类维度
7.1
概述
本章从技术选型、业务应用和安全隐私保护三种视角给出不同的分类维度,以及用于描述每种分类
维度的分类要素、数据类别和适用场景。
6
犌犅
/
犜38667
—
2020
7.2
技术选型维度
7.2.1
按产生频率分类
7.2.1.1
概述
按产生频率分类是指根据数据产生的频率(
单位时间内产生的数据量或达到指定数据量的频率)
对
数据进行分类。
7.2.1.2
分类要素
按产生频率分类的要素包括:
a
)
数据产生周期,
如秒、
分、
时、
天、
周、
月、
季度、
半年、
年等;
b
)
单位周期中数据的产生量,
可以以记录条数表示或者以数据占用空间表示,
如百万条记录、
千
万条记录、
GB级数据、
TB级数据等。
7.2.1.3
类别
按产生频率可分为:
每年更新数据、
每月更新数据、
每周更新数据、
每日更新数据、
每小时更新数据、
每分钟更新数据、每秒更新数据、无更新数据等。
7.2.1.4
适用场景
按产生频率分类的适用场景,
如根据数据产生频率判断资源分配合理性和数据分析价值等。
7.2.2
按产生方式分类
7.2.2.1
概述
按产生方式分类是指按照数据的产生方式对数据进行分类。
7.2.2.2
分类要素
按产生方式分类的要素包括:
a
)
数据被获取或被采集的方式,如人工采集、通过信息系统采集等;
b
)
数据被加工的程度,如原始数据、二次加工数据等。
7.2.2.3
类别
按产生方式分类可包括:
人工采集数据、
信息系统产生数据、
感知设备产生数据、
原始数据、
二次加
工数据等。
7.2.2.4
适用场景
按产生方式分类的适用场景,如确定数据采集方案、数据保护方案和数据处理方案等。
7.2.3
按结构化特征分类
7.2.3.1
概述
按结构化特征分类是指根据数据的结构化程度对数据进行分类。
7
犌犅
/
犜38667
—
2020
标签: #技术
摘要:
展开>>
收起<<
提供了大数据分类过程及其分类视角、分类维度和分类方法等方面的建议和指导
温馨提示:66文库网--作为在线文档分享平台,一直注重给大家带来优质的阅读体验;让知识分享变得简单、有价值;海量文档供您查阅下载,让您的工作简单、轻松而高效!
1. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
2. 66文库网仅提供信息存储空间,仅对广大用户、作者上传内容的表现方式做保护处理,对上传分享的文档内容本身不做任何修改或编辑,并不对下载的任何内容负责。
3. 广大用户、作者上传的文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
4. 本站不保证、不承担下载资源内容的准确性、安全性和完整性, 同时也不承担用户因使用下载资源对自己和他人造成任何形式的伤害或损失。
相关推荐
-
VIP免费2024-07-28 35
-
VIP免费2024-09-13 4
-
VIP免费2024-09-15 10
-
VIP免费2024-09-15 5
-
VIP免费2024-09-15 11
-
2024-09-26 7
-
VIP免费2024-09-29 8
-
VIP免费2024-10-04 2
-
2024-10-08 12
-
2024-10-16 6
分类:技术文献
价格:6.6库币
属性:18 页
大小:1.27MB
格式:PDF
时间:2024-07-19