private&share

   

------------------------------------------

-=图情=-

 
MARC与DC元数据
作者:pine.lee  发表时间:2006-1-22

 

MARC与DC元数据的映像与转换
孙华 郑巧英
(上海交通大学 图书馆自动化研究室 上海,200030)

摘要 在分析元数据特点的基础上,比较MARC格式与DC元数据格式的差异,提出两者的转换对照表及相关软件。
关键词 DC元数据 MARC格式 对照表 数字化图书馆
The mapping and converting method between MARC and DC metadata
Sun Hua Zheng Qiaoying
(Shanghai Jiao Tong University library Shanghai,200030)
Abstract As a new network library, digital library has been accepted by more and more people. It contains massive digital information in various medias and rich contents, which could be accessed easily and quickly by users. Since the digital library is the extension of the traditional document process technology and the development of modern information technology, it will need many key technologies to make it to be realized. Metadata and its management technology is one of them that could not be dispensed with. It plays a very important role in the development of a DL, in which either the access or the search is realized on the basis of metadata. The article compares the differences between the MARC format and the DC metadata, analyze the features of metadata and puts forward a converting table for the two utilities and an integrated program.
keywords DC metadata, MARC format, converting table, digital library
引言
数字图书馆作为一种新型网络化概念的图书馆,正越来越被大多数图书馆所接受。它拥有多种媒体形式的、内容丰富的数字化信息资源,能为读者方便、快捷地提供信息服务。作为图书馆传统文献处理技术和现代信息技术发展的延伸,它的实现是需要很多关键技术来支持的,其中元数据及其管理技术是数字图书馆相关技术中不可缺少的一部分。元数据在数字图书馆的建设中占据了极其重要的位置。在数字化图书馆的运作中,无论是存取过程还是检索过程,都是以元数据为基础来实现的。我们交大图书馆在数字图书馆的建设中,有多个项目(如异构数据源检索系统、教学参考书系统)都涉及到如何将传统的机读型目录(MARC)信息,通过网上的信息检索,显示给读者。由于传统的MARC格式存在着种种的局限性,它的数据描述方式已不能跟上网络时代的发展要求,在综合考虑了几种元数据的利弊后,考虑到DC元数据能较好地解决数据的机构化问题,同时又能用较简单的15个基本元素将基本信息描述清楚,克服了传统的机读型目录(MARC)过于烦琐和复杂的弊端。因此,我们选择采用DC元数据作为我馆的网上信息标记方式。

1  元数据的概述
1.1 元数据的概念
因特网为我们提供了丰富的网络数字资源,如大量的全文电子期刊、电子图书等。因特网上的信息资源越来越多,而读者查找到的信息资源却越来越少,这是因为网络信息资源的动态性、分布性、多元性和无序性给读者查找信息资源带来了困难。对数字化的信息资源进行准确、规范的描述和组织的需求使元数据迅速的发展和应用。元数据是描述数字化信息资源或数据对象的数据,是为了实现简单和高效地管理数字化资源,方面读者查找和获取信息资源的标准。所谓元数据就对具体的资源对象进行定位和管理,并有助于资源对象的发现和获取的数据。元数据的标准取决于具体的资源描述对象,不同类型的资源对象需要用不同的元数据标准来描述。
1.2 元数据的特点
1.2.1元数据是用来描述信息资源的标准,由多个按照规定的编码语言和编码方式来揭示信息资源的属性和特征描述。
1.2.2元数据由多层次的结构组成,通常有内容结构、句法结构和语义结构。
1.2.3元数据的结构和完整性与对信息资源的属性描述和使用环境有关。
1.2.4元数据的互操作性。在不同的资源对象、不同的领域中会存在多个元数据标准。这就引起了元数据的互操作、元数据格式的释读、元数据格式的转换等。解决元数据互操作问题的一种方式就是元数据的映像。如DC与USMARC、DC与EAD等的转换。

2  MARC格式的数据与DC元数据的比较
2.1 MARC格式是目前适用于书目数据系统最完善、字段最复杂、标准最严密的元数据格式。MARC元数据是基于计算机处理的元数据,由计算机将MARC元数据作为单独的以数据库或文件形式进行管理,MARC元数据与其所描述的对象本身仍然是分离的;因此MARC元数据可读性较差;在进行数据处理时对软件平台的依赖性较强。
2.2 DC(Dublin Core)元数据较注重描述对象的内容、内部结构或标准以及应用与管理方面的属性;在网络环境下,元数据本身有分布式管理与应用的需求;直接利用标记语言或数据库等制作,保证了元数据的结构化,容易被计算机处理和交流,可读性较强。
DC元数据包括15个元素:题名、创建者、主题或关键词、描述说明、出版者、其他发行者、日期、资源类型、格式、标识符、来源、语种、关联、时空范围、权限。

3  开发DC格式与MARC格式的转换程序
数字图书馆的最终表现形式是可以在互联网上阅读浏览的网络数字资源,如果采用传统书目描述方式(MARC格式)作为描述资源内容的元数据标准就不那么合适了。为了尽量减小无效数据的传输,节省网络资源,提高网络传输效率,我们根据DC元数据的15个元素与MARC的字段定义,分别编制了《DC格式与CNMARC格式转换》和《DC格式与USMARC格式转换》这两种对照表,并采用SQL SERVER作为数据库管理系统,运用Delphi作为前台开发工具,将图书馆现有的图书、期刊有关信息,分别按不同的MARC格式,转换成DC格式的数据,方便读者在异构平台上检索信息。
3.1《DC格式与CNMARC、USMARC格式转换》对照表
我们所设计的《DC格式与CNMARC、USMARC格式转换》系统,主要是从下面几个方面来考虑的:
3.1.1字段完整性。考虑到DC格式只有15个元素,要充分利用这15个元素,将MARC中的信息尽可能地描述清楚,反映出数据的重要特性。DC格式对元素的重复性没有限制,因此我们在转换中充分利用这一特性,保留了原MARC格式中可重复字段的值,并将同一属性的字段作为重复字段映像到DC的相应元素中。
3.1.2 基于字段检索的原则。DC的15个元素,很大的一部分是可作为检索字段,供用户在网上检索信息。《DC格式与CNMARC、USMARC格式转换》对照表尽可能将原MARC数据中的检索项保留下来,方便读者查询。
3.1.3易于操作和系统兼容性。《DC格式与CNMARC、USMARC格式转换》系统具有友好的用户界面,用户在进行数据转换时,只需选择数据源的MARC类型,点击"转换"键即可。当数据转换结束时,系统自动提示用户。《DC格式与CNMARC、USMARC格式转换》系统的对照表也能按照用户的不同需求来改变设置,无须修改程序。
Dublin Core  CNMARC  USMARC
Title  200($ a,$ e,$ d)225($ a,$ h,$ v)  245($ a,$ b,$ h,$ k,$ n,$ p,$ s)400($ a,$ b,$ c,$ d,$ n)410($ a,$ b,$ c,$ d,$ n)411($ a,$ b,$ c,$ d,$ n)440、490(所有子字段)
Identifier   ISBN ISSN   010($ a)011($ a)  020($ a,$ z)022($ a,$ z)
  URL  856($ u)  856($ u)
Publisher  210($ a,$ c)  260($ a,$ b)
Contributor  702($ a,$ b)712($ a,$ b)  700($ a,$ b,$ c,$ d,$ n)710($ a,$ b,$ c,$ d,$ n)711($ a,$ b,$ c,$ d,$ n)730($ a,$ b,$ c,$ d,$ n)
Creator  700($ a)701($ a)710($ a)711($ a)  100($ a,$ b,$ c,$ d,$ n)110($ a,$ b,$ c,$ d,$ n)111($ a,$ b,$ c,$ d,$ n)130($ a,$ b,$ c,$ d,$ n)
Description  330($ a)  520($ a)
Date  210($ d)  260($ c)
Format   Extent  105(bit 8)head(bit 7) (s=期刊,1=会议录,0=图书)  008(bit 29)head(bit 7) (s=期刊,1=会议录,0=图书)
  Medium  Head(bit 6) (a=纸质,m=多媒体)  Head(bit 6) (a=纸质,m=多媒体)
Language  101($ a)  041($ a),008(bit 35-37)
Subject  Keyword  600($ a,$ b,$ g,$ f,$ c,$ x,$ y,$ z,$ j)601($ a,$ b,$ d,$ f,$ e,$ x,$ y,$ z,$ j) 602($ a,$ x,$ y,$ z,$ j)604($ a,$ x,$ y,$ z,$ j)606($ a,$ x,$ y,$ z,$ j)607($ a,$ x,$ y,$ z,$ j)610($ a,$ x,$ y,$ z,$ j)  600($ a,$ b,$ c,$ d,$ n)610($ a,$ b,$ c,$ d,$ n) 611($ a,$ b,$ c,$ d,$ n)630($ a,$ b,$ c,$ d,$ n)650($ a,$ x,$ y,$ z)651 ($ a,$ x,$ y,$ z)653($ a,$ x,$ y,$ z)654($ a,$ x,$ y,$ z)655($ a,$ x,$ y,$ z)656($ a,$ x,$ y,$ z)657($ a,$ x,$ y,$ z)658($ a,$ x,$ y,$ z)
  class  690($ a)  093($ a)
表1 《DC格式与CNMARC、USMARC格式转换》对照表
3.2  DC与MARC格式转换系统
基于这个对照表,我们设计了《DC格式与CNMARC、USMARC格式转换系统》(以下简称为《转换系统》),该《转换系统》充分考虑到DC格式与CNMARC、USMARC格式转换的可扩充性和灵活性,将对照表设计成动态的,即用户完全根据自己的需求来改变对照表的值,勿需修改程序;《转换系统》又有严格的质量控制功能,能分别对数据源及转换所产生的DC元数据标准的目标文件进行质量控制,由用户制定必备字段表,将符合要求的转换结果数据写入输出文件,不符合要求的数据抽取其中的关键信息写入错误文件,供用户参考。

用户选择数据源的类型
(USMARC或CNMARC,两者只能选一)












Y
N





















Y
N



图2 DC与MARC转换系统的框图

4  结束语
元数据作为一种资源描述方式,它的开发与应用已越来越多的得到重视,怎样利用传统资源,更好地为现在及将来服务,是我们值得关注的一个部分。
参考文献
[1]肖珑.元数据格式在数字图书馆中的应用.大学图书馆学报,1999.4
[2]罗冰眉.元数据及其在数字图书馆的应用.情报杂志,2003.1
[3]吴建中.DC元数据.上海科学技术文献出版社,2000.10
[4]李慧.元数据在数字图书馆中的应用.情报理论与实践,2002.1
作者简介
孙华(Sun Hua),女,1965年生。现在上海交通大学图书馆自动化研究室工作,副研究馆员。
联系方式:sun@mail.lib.sjtu.edu.cn
郑巧英(Zheng Qiaoying),女,1956年生。现在上海交通大学图书馆自动化研究室工作,研究馆员。联系方式:zheng@mail.lib.sjtu.edu.cn
本文发表在《上海交通大学学报》2003年增刊

----------------------------------------
 

 

pine.lee发表于:工作中心  


 

全部分类中有 1 篇日志 | 每页显示 1 篇
留言内容(共有条)


{CommentAuthor}评论说:
{CommentContent}

--- {CommentTime} {CommentUrl}


 

流年--似水


也说--几句


 来来--往往


 

 快速--登陆

*用户名:
*密   码:

 


日志--搜索


踩上--几脚

 
pine 最新的 20 条日志
 

 

 

Designed By UBABY--2005