复制文本
下载此文档
加入vip,每篇下载不到2厘

WS_T 305-2023 卫生健康信息数据集元数据标准

VIP免费
3.0 2024-06-05 0 0 364.03KB 29 页 1库币 海报
投诉举报
ICS 11.020
CCS C07
中 华 人 民 共 和 国 卫 生
行 业 标 准
WS/T 305—2023
代替 WS/T 305-2009
卫生健康信息数据集元数据标准
Metadata specification of health information dataset
2023-08-07 发布 2024-02-01 实施
中华人民共和国国家卫生健康委员会  发布
WS/T 305-2023
1
前 言
本标准为推荐性标准。
本标准代替WS/T 305-2009 《卫生信息数据集元数据规范》。与WS/T 305-2009相比,主要为
编辑性修改。
本标由国家卫生健康标准委卫生健康信息准专员会负责审查和技咨询,
国家卫生健康计信息心负协调性和式审,由国家卫生康委规划与信息化
业务管理、法规司负责统筹管理。
本标起草单位中国民解放军总医院、国家生健康委统计信息中心、中国人放军
军军医大学
本标准主要起草人:刘丽华、王珊、张黎黎、李林、王霞、刘建超、胡建平。
WS/T 305-2023
1
卫生健康信息数据集元数据标准
1 范围
本标准规定了数据集元数据内容框架、卫生健康信息数据集核心元数据、卫生健康信息数据集
参考元数据、引用信息与代码表。
本标准适用于作为卫生健康信息数据集属性的统一规范化描述,也可用于卫生健康领域针对数
据集制定专用元数据标准的依据。
2 规范性引用文
下列文件中的内容通过文中的规范性引用而构成本标准必不可少的条款。其中,注日期的引用
文件,仅该日期对应的版本适用于本标准;不注日期的引用文件其最新版本(包括所有的修改单)
适用于本标准
GB/T 2260 中华人民共和国行政区划代
GB/T 7408 数据元和交换格式 信息交换 日期和时间表示方
WS/T 306 卫生健康信息数据集分类与编码规则
RFC 2396 统一资源定义符:通用语法
3 术语和缩略
下列术语和缩略语适用于本标准。
3.1 术语
3.1.1
元数据 metadata
定义和描述其他数据的数据。
3.1.2
数据集 dataset
具有一定主题,可以标识并可以被计算机化处理的数据集合。
3.1.3
元数据元素 metadata element
元数据的基本单元。
3.1.4
元数据实体 metadata entity
一组说明数据相同特性的元数据元素。可以包含一个或若干个元数据实体。
3.1.5
元数据子集 metadata section
元数据的子集合,由相关的元数据子集和元数据元素组成。
3.1.6
数据元 data element
WS/T 305-2023
2
用一组属性规定其定义、标识、表示和允许值的数据单元。
3.2 缩略语
XML:可扩展标记语言(Extensible Markup Language)
4 数据集概述
4.1 数据集基本概念
对数据集概念的详细解释可见WS/T 306。
4.2 卫生健康信息数据集
对卫生健康信息数据集的阐述可见 WS/T 306。
5 卫生健康信息数据集元数据概述
5.1 元数据内容组成
卫生健康信息数据集元数据规定了两个层次的元数据内容的集合:核心元数据与参考元数据
其中参考元数据包含了核心元数据,它们之间的内容包含关系见1
图 1 核心元数据与参考元数据的内容包含关系
5.2 元数据结层次构
元数据结构:元数据元素、元数据实体和元数据子集。
元数据元素是元数据的最基本的信息单元。例如,数据集名称、数据集标识符、元数据创建
期等,是最基本的属性信息单元,用元数据元素来表示。
元数据实体是同类元数据元素的集合,用于一些需要组合若干个更加基本的信息来表达的属性。
例如“数据集提交和发布方”需要“单位名称”“联系人”“联系电话“通讯地址”等若干个基
本信息来说明,而数据集“关键词说明”需要“关键词”和“词典名称”来说明,对于“数据集提
交和发布方”和“关键词说明”这类属性用元数据实体来表示。
元数据子集由共同说明数据集某一类属性的元数据元素与元数据实体组成,例如标识信息、
容信息、分发信息等。
5.3 元数据的摘要描述
5.3.1 元数据的摘要描述符
主要采用摘要描述方法定义和描述卫生健康信息数据集的元数据内容。摘要描述的方法通过表1
所列的描述符针对元数据的元素、实体与子集进行定义。“约束”表示一个描述符是“必选(M)
还是“条件选”(C),或者是“可选”(O),摘要描述符见表1
WS/T 305-2023
3
表 1 摘要描述
描述符 约束 备注
中文名称 M
定义 M
英文名称 M
数据类型 M
取值规则 C 描述元数据元素时必选,描述元数据子集、实体时不选
短名 M
子元素 C 描述元数据子集、实体时必选,描述元数据元素时不选
注解 M
5.3.2 中文名称
元数据子集、实体或元素的中文名称,即为核心元数据的元数据实体或元数据元素的中文名称
5.3.3 定义
描述元数据子集、实体或元素的基本内容,是卫生健康信息数据集某个属性和特征的概念与说
明。
5.3.4 英文名称
元数据子集、实体或元数据元素的英文名称,一般使用英文全称。
英文名称中,词汇均采用无缝连写。元数据子集与实体英文名称的每个词汇的首字母均为大写,
元数据元素英文名称的首词汇全部小写,其余词汇的首字母采用大写。
5.3.5 数据类型
对元数据的有效值域和允许对该值域内的值进行有效操作的规定。
元数据实体与元数据子集的数据类型为复合型,元数据元素的数据类型包括为数值型、布尔型、
字符串、日期型和复合型等
当元数据元素的数据类型为复合型的时候,表明该元数据元素使用了引用信息中的引用数据类
型。
引用数据类型是由一组元素组成、能被重复引用的元素集合。例如, “数据集提交和发布方”
“元数据维护方两个属性,要共同用到“单位名称“联系人”“联系电话“通讯地址”“邮
政编码”和“电子邮件地址”这一组子元素来表示,为了表达的方便,卫生健康信息元数据定义了
一个叫做“负责方”的数据类型见本标9.1.1 条款“数据集提交和发布方“元数据维护方”
进行引用。
5.3.6 取值规则
元数据子集、实体或元素取值方式的说明
5.3.7 短名
元数据元素、实体或子集的英文缩写名称,具体缩写规则如下:
a) 短名在本标准范围内必须唯一。
b) 对存在国际或行业惯用英文缩写词汇的元数据元素或元数据实体,采用惯用英文缩写作短
名。
c) 对于根据英文名称或自定义的短名,在可以保证其(本标准范围中的所有短名范围内)唯
一性的情况下取每个词汇的前 3位字母作为其短名,当如此取词时发现不能够保证短名标
识的唯一性时,应当延展取词的位数,通常增加 1位。如果仍然不能满足唯一性要求,则
照此顺延。
d) 元数据子集、元素和元数据实体的短名中,词汇均采用无缝连写。元数据子集与实体短
WS/T 305-2023
4
中每个词汇的首字母均为大写;元数据元素短名的首词汇全部小写,其余词汇的首字母采
用大写。
5.3.8 子元素
子元素是通过一定的表示规则以确定一个元数据实体中包含的下一级的元数据实体或元数据元
素。表示规则为:“标识符 = 表达式”。表达式中各符号的含义见表 2。
表 2 表达式的符号含
符号 含 义
= 由……替换、生成,由……组成
+ 与
| 或(选择)——在由“|”分开的两项之中选择其一
0{a}1 表示{}中的元数据元素 a 为可选/条件必选项,且最大出现次数为 1;若为条件必选项,约束/条件参见其注解
0{a}n 表示{}中的元数据元素 a 为可选/条件必选项,且最大出现次数为 N;若为条件比选项,约束/条件参见其注解
a 表示元数据元素 a 为必选项,且最大出现次数为 1
1{a}n 表示{}中的元数据元素 a 为必选项,且最大出现次数为 N
在子元素表示中,{}中均使用元数据元素或实体的中文名称。
例如:
子元素:关键词说明 =
1{关键词}n +
0{词典名称}1
5.3.9 注解
对元数据子集、实体或元素的含义的进一步解释,包括该元数据的约束/条件(必选、可选或条
件必选)和最大出现次数。当该元数据为条件必选时,应注明其约束条件。
5.3.9.1 约束/条件
“必选项”“可选项”“条件可选”等文字说明元数据子集实体或元素是“必须(M)“可
选(O)”或者“条件可选(C)
可选元数据子集或元数据实体可以有必选元数据实体或元素。但这些必选的实体或元素只有当
上一级的可选子集或实体被选用时才成为必选的;如果上一级的可选元数据子集或实体未被选用,
则其所包含的必选实体或元素也不选用。
5.3.9.2 最大出现次数
说明元数据子集、实体或元素可以重复出现的次数。只允许出现一次的用“1”表示允许重复
出现(但重复的次数不是固定值)的用“N表示。不为 1 的固定出现次数用相应的数字表示,
“2”、“3”、“4”等。
5.4 适用功能
5.4.1 数据集元数据著录
对具体的卫生健康信息数据集选择元数据内容进行描述时,以核心元数据作为著录(根据必选、
可选等约束条件)的基础,然后根据需要可以选择参考元数据的内容进行著录,见2
WS/T 305-2023
5
图 2 直接作为著录标准的使用方式
用户针对卫生健康信息数据集进行元数据著录的示例,可参照本标准附录 A(以只著录核心元
数据内容为例
5.4.2 制定专用标准的依据
在卫生健康领域内,以数据集为对象制定专用的元数据标准时,可依照本标准进行制定。
所制定的数据集专用元数据标准,必须包含核心元数据的内容,同时将参考元数据的内容作
扩展内容的参考,使用方式见图 3
图 3 作为制定专用标准依据时的使用方式
要在卫生健康信息参考元数据的基础上继续进行元数据内容的扩展时,应当符合附录 B的要求。
6 元数据内容框
卫生健康信息数据集元数据的全集,即参考元数据的内容规定了7个元数据子集,分别如下:
a)元数据标识信息(子集):包含元数据本身的基本信息,如名称、维护方、创建日期等。
b)数据集标识信息(子集):包含元数据所描述的数据集的基本信息,包括名称、标识符、提
交或发布方等。
c)内容信息(子集):内容信息提供数据内容特征的描述信息,包括摘要、特征数据元等
d)分发信息(子集):分发信息包含有关资源分发者的信息以及用户获取资源的途径。
e)数据质量信息(子集):数据生产者有关数据集数据志信息的一般说明。
f)限制信息(子集):包含对数据集和元数据进行访问和使用的限制信息。
g)维护信息(子集):包含关于元数据或数据集的更新频率及更新范围的信息
参照UML类图中聚集关系与依赖关系的表示方法概要描述了卫生健康信息数据集参考元数据
的内容框架(见图4)。
WS/T 305-2023
6
图 4 卫生健康信息参考元数据内容构成
7个子集是参考元数据这一整体的组成部分,在图4中标记出了各自的可出现次数。元数据标识
信息(子集)、数据集标识信息(子集)、限制信息(子集)和维护信息(子集)中有元数据元素
使用到了引用信息中由本标准定义的数据类型,所以它们对引用信息存在依赖关系。
7 卫生健康信息数据集核心元数据
7.1 概述
卫生健康信息核心元数据包括8个必选元数据元素或实体,10个可选元数据元素与实体。卫生健
康信息数据集核心元数据内容见表3,其中的第四列约束是指该元数据元素或元数据实体是必选
(M),或者是可选(O,第五列是说明核心元数据在参考元数据中的相应位置。
表 3 卫生健康信息数据集核心元数据内容
序号 核心元数据内容 元素与实体 约束 在参考元数据中的位置
1 数据集名称 元素 M 数据集标识信息子集
2 数据集标识符 元素 M 数据集标识信息子集
3 数据集摘要 元素 M 内容信息子集
4 数据集提交或发布方 元素 M 数据集标识信息子集
5 关键词说明 实体 M 数据集标识信息子集
6 数据集语种 元素 M 数据集标识信息子集
7 数据集特征数据元 元素 O 内容信息子集
8 数据集发布日期 元素 O 发布信息子集
9 数据集发布格式 实体 O 发布信息子集
10 在线访问地址 元素 O 发布信息子集
11 数据集分类 实体 O 数据集标识信息子集
12 相关环境说明 元素 O 数据集标识信息子集
13 元数据创建日期 元素 M 元数据标识信息子集
14 元数据标识符 元素 M 元数据标识信息子集
15 元数据负责方 元素 O 元数据标识信息子集
16 元数据标准名称 元素 O 元数据标识信息子集
17 元数据标准版本 元素 O 元数据标识信息子集
18 元数据更新日期 元素 O 元数据标识信息子集
WS/T 305-2023
7
7.2 摘要描述
7.2.1 数据集名称(必选)
定 义:能够简要描述卫生健康信息数据集主题与内容的标题
英文名称:datasetTitle
数据类型:字符
取值规则:自由文本
短 名:dataTitle
解:必选项;最大出现次数1
7.2.2 数据集标识符(必选
定 义:卫生健康信息数据集的唯一标识符
英文名称:datasetIdentifier
数据类型:字符
取值规则:按照“提交机构-编号-版本号”的命名规则进行赋值。提交机构使用机构标准名称
版本号用一位整数加两位小数的表示方式,例2.10(版本
短 名:dataID
解:必选项;最大出现次数1
7.2.3 数据集摘要(必选)
定 义:数据集内容的简单说明
英文名称:abstract
数据类型:字符串
取值规则:自由文本
短 名:abstract
解:必选项;最大出现次数1
7.2.4 数据集提交或发布方(必选)
定 义:提交或发布数据集,并对数据集的真实性、正确性负责的单位或部门
英文名称:datasetContact
数据类型:复合型
取值规则:负责<<数据类型>>(见本标准 9.1.1
短 名:dataContact
解:必选项;最大出现次数N
7.2.5 关键词说明(必选)
定 义:关键词种类、类型和参考资料
英文名称:DescriptiveKeywords
数据类型:复合型
短 名:DescKeys
子 元 素:关键词说=
1{关键词}n +
0{词典名称}1
解:必选项;最大出现次数N
7.2.5.1 关键词
定 义:用于描述数据集主题的通用词、形式化词或短
英文名称:keyword
数据类型:字符串
WS/T 305-2023
8
取值规则:自由文本
短 名:keyword
解:必选项;最大出现次数N
7.2.5.2 词典名称
定 义:正式注册的词典名,或类似的权威关键词资料名称
英文名称:thesaurusName
数据类型:字符
取值规则:自由文本
短 名:thesaName
解:可选项;最大出现次数1
7.2.6 数据集语种(必选)
定 义:数据集采用的语言
英文名称:datasetLanguage
数据类型:字符串
取值规则:语种代码<<代码>>(见本标准 9.2.1
短 名:dataLang
解:必选项;最大出现次数为 N
7.2.7 数据集特征数据元(可选)
定 义:卫生健康信息数据集中,能够表达数据集核心内容与特征资源的数据元列
英文名称:characteristicDataElement
数据类型:字符
取值规则:自由文本,数据元之间使用英文状态下的逗号分开
短 名:charaDataEle
解:可选项;最大出现次数1
7.2.8 数据集发布日期(可选)
定 义:卫生健康信息数据集进行提交或发布的日期
英文名称:datasetPublicationDate
数据类型:日期
取值规则:按照 GB/T 7408-2005 规定,格式应当为 YYYY-MM-DD
短 名:dataPubDate
解:可选项;最大出现次数为 1
7.2.9 数据集分发格式(可选)
定 义:分发数据的格式说明
英文名称:DistributionFormat
数据类型:复合型
短 名:DistFormat
子 元 素:分发格式 =
分发格式名称+
0{版本}1
解:可选项;最大出现次数为 N
7.2.9.1 分发格式名称
定 义:数据集分发格式名称
英文名称:formatName
摘要:

ICS11.020CCSC07中华人民共和国卫生行业标准WS/T305—2023代替WS/T305-2009卫生健康信息数据集元数据标准Metadataspecificationofhealthinformationdataset2023-08-07发布2024-02-01实施中华人民共和国国家卫生健康委员会  发布WS/T305-20231前言本标准为推荐性标准。本标准代替WS/T305-2009《卫生信息数据集元数据规范》。与WS/T305-2009相比,主要为编辑性修改。本标准由国家卫生健康标准委员会卫生健康信息标准专业委员会负责技术审查和技术咨询,由国家卫生健康委统计信息中心负责协调性...

展开>> 收起<<
WS_T 305-2023 卫生健康信息数据集元数据标准.pdf

共29页,预览29页

还剩页未读, 继续阅读

温馨提示:66文库网--作为在线文档分享平台,一直注重给大家带来优质的阅读体验;让知识分享变得简单、有价值;海量文档供您查阅下载,让您的工作简单、轻松而高效! 1. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。 2. 66文库网仅提供信息存储空间,仅对广大用户、作者上传内容的表现方式做保护处理,对上传分享的文档内容本身不做任何修改或编辑,并不对下载的任何内容负责。 3. 广大用户、作者上传的文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。 4. 本站不保证、不承担下载资源内容的准确性、安全性和完整性, 同时也不承担用户因使用下载资源对自己和他人造成任何形式的伤害或损失。
分类:法规文献 价格:1库币 属性:29 页 大小:364.03KB 格式:PDF 时间:2024-06-05
/ 29
客服
关注