往复论坛 - 数位典藏非易事: Bibliothèque nationale de France的数典数据库Gallica的阅览感想
>> 欢迎您,客人登录 | 注册 | 资料 | 会员 | 帮助 | 搜索 首页



订阅该论坛更新信息
标记此论坛为已读
往复论坛 : Powered by vBulletin version 2.2.8 往复论坛 > 专版 > 数码文史 > 数位典藏非易事: Bibliothèque nationale de France的数典数据库Gallica的阅览感想
转到首个未读的帖子 first unread  上一主题   下一主题
作者
主题 发布新主题    回复主题
mickeywek

数位典藏非易事: Bibliothèque nationale de France的数位典藏数据库Gallica的阅览感想

法国Bibliothèque nationale de France图书馆近年来开放的数字典藏数据库,里面提到了许多中文、日文、韩文的在线古籍图书阅览,内容相当丰富。相关数典项目中也包括了许多的满语古籍图书。由于检索的网页,主要是法语的设计,所以得依照着法方metadata(后设资料欄位)的设定项目来作检索。若以满语文献为例,虽然语言字段没有设定,但可以用其资料欄位中的「手稿」项目作检索。可以用「Mandchou」作关键词,作初次检索。再于「Type de document」下,再勾选「manuscrit」,可再缩小检索范围,检得满语相关珍稀古籍。粗略一试,约可检得近155笔的满语古籍影影数据,大多数提供了全书的在线阅览,而且画质甚佳。

然而,该数据库系统,仍然存有一些技术细节上的小问题,有待进一步的修正与克服。例如Bibliothèque nationale de France数典网页上架人员,约莫和研究人员的配合上有待磨合。该在线数据库提供了研究者相当的便利,提供全书的在线阅览,但仍然有些网页与数据库管理上的小问题。


举例来说,例如《满汉同文类集》在数据库的书名项注记为《物名类集》,但封面上的书名写作《满汉同文类集》,内页又作《同文物名类集》,也许版本项上可以一并注出,以便研究者查找。另外,《物名类集》这本书的顺序与方向在网页上架时,顺序上就完全前后颠倒了。在线阅览的读者,依照满文书的阅读顺序,就必须得先移到最后一页,再往前看,才是正确的顺序。个人猜想,很可能负责数据上架的信息管理人员,是照一般书籍的方向来安排,而没有根据满文由左而右的方向,来安排网页上架的次序。


此外,该数据库中所收的一些中文古书与满文古籍的书名,也略有些误植的情况。数字典藏数据库的后台,以及后设字段设定,还有许多需要修正与除错(debug)之处。数字典藏,实在是件不容易的事,要结合了信息的人才,又要有图书馆学、历史学、版本目录学的跨学科合作。说实在,数字典藏的工作实在不容易,真的是一件苦差事。


2012/10/31 写于台北 内湖 一樵

.法国Bibliothèque nationale de France数典数据库Gallica的官方首页:
http://gallica.bnf.fr/?lang=EN


.《满汉同文类集》内页书影1:




.《满汉同文类集》内页书影2:

由 mickeywek 于 10-31-2012 05:10 AM 最后编辑

新帖子 10-31-2012 05:06 AM
编辑 引用 访问 mickeywek 的主页!
尧曰

Metadata,我们一般翻译为“元数据”,也就是说明数据的数据。

表格的表头就是一种元数据。

用于说明各种格式文献的元数据很多,最普遍使用的是所谓的“Dublin Core(都柏林核心集,注意这个都柏林不是爱尔兰首都而是美国俄亥俄州的一个小镇)”,一共15项。

1. 名称(Title)
  标识:Title
  定义:分配给资源的名称。
  解释:使资源为众所周知的有代表性的正规名称。
2. 创作、制作者(Creator)
  标识:Creator
  定义:制作资源内容的主要责任实体。
  解释:创作、制作者包括个人、组织或机构。
  应该是用于标识创作、制作者实体的具有代表性的名称。
3. 主题及关键词(Subject and Keywords)
  标识:Subject定义:资源内容的主题。
  解释:用以描述资源主要内容的关键词语或分类号码表示的有代表性的主题词。
4. 说明(Description)
  标识:Description
  定义:有关资源内容的说明。
  解释:该说明可以包括但并不限于:摘要,内容目次,内容图示或内容的文字说明。
5. 出版者(Publisher)
  标识:Publisher
  定义:制作资源有重要作用的责任实体。
  解释:如包括个人、组织或机构的出版者。
  应是用于标识出版者实体的有代表性的名称。
6. 发行者(Contributor)
  标识:Contributor
  定义:对资源内容负有发行责任的实体。
  解释:发行者包括个人、组织或机构。
  应是用于标识发行者实体的有代表性的名称。
7. 时间(Date)
  标识:Date
  定义:与资源使用期限相关的日期、时间。
  解释:资源产生或有效使用的日期、时间。推荐使用ISO
  8601[W3CDFT]定义的编码形式,跟随的是YYYY-MM-DD形式。
8. 类型(Type)
  标识:Type
  定义:资源内容方面的特征或体裁。
  解释:类型包括种类、功能、体裁或作品集成级别等描述性术语。推荐从可控词表(如Dublin Core Types[DCT1])中选用有关术语。对于资源物理或数字化方面表示,采用"格式"项描述。
9. 格式(Format)
  标识:Format
  定义:资源物理或数字化的特有表示。
  解释:格式可包括媒体类型或资源容量。也可用于限定资源显示或操作所需的软件、硬件或其它设备,如容量包括数据所占空间和存在期间。
10. 标识(Identifier)
  标识:Identifier
  定义:依据有关规定分配给资源的标识性信息。
  解释:推荐使用依据格式化标识系统规定的字符或号码标识资源。
  如正规标识系统包括统一资源标识(URI),统一资源地址(URL)、数字对象标识(DOI)以及国际标准书号(ISBN)、国际标准刊号(ISSN)等。
11. 来源(Source)
  标识:Source
  定义:可获取现存资源的有关信息。
  解释:可从原资源整体或部分获得现有资源。建议使用正规标识系统确定的字符或号码标引资源来源信息。
12. 语言(Language)
  标识:Language
  定义:资源知识内容使用的语种。
  解释:推荐使用由RFC1766定义的语种代码,它由两位字符(源自ISO639)组成。随后可选用两字符的国家代码(源自ISO 3166)。如"en"表示英语,"fr"表示法语。
13. 相关资源(Relation)
  标识:Relation
  定义:对相关资源的参照。
  解释:推荐用依据正规标识系统确定的字符或号码标引资源参照信息。
14. 范围(Coverage)
  标识:Coverage
  定义:资源内容的领域或范围。
  解释:范围包括空间定位(地名或地理坐标),时代(年代、日期或日期范围)或权限范围。
15. 版权(Rights)
  标识:Rights
  定义:持有或拥有该资源权力的信息。
  解释:版权项包括资源版权管理的说明。
  版权信息通常包含智力知识内容所有权(IPR)、著作权和各种拥有权。如果缺少版权项,就意味着不考虑有关资源的上述版权和其它权力。

新帖子 11-01-2012 05:45 PM
编辑 引用 尧曰 的QQ号码:264110394
mickeywek

尧曰兄,非常感谢您的建议,由您回应的文句来看,先生应该有图书馆学与档案学的专业。我是出身历史系专业的,投入数字典藏,一半是因为机缘,一半是为了工读奖助金的现实经济需要。另外,您文中提到的Metadata,在台湾档案学界中,即有许多不同的翻译。有的学者称之为「元数据」,有的学者称之为「后设数据字段」,并没有固定的规范用语。当时,我在史语所接受工作训练时,一开始的学习中,看到Metadata时,就是译为「后设数据字段」。一开始不明白,工作久了,日久天长,慢慢也就用习惯了这个词。当然,这可能与大陆档案学界的译名不太相同。当初为了设计数字典藏的Metadata项目,工作伙伴们投入了不少苦心。工作上,我曾经处理过的数典项目,除了史语所早年的西南田野照片、纳西族东巴经外,整理最多年的就是明清内阁大库档案,以及相关的数据库接口与人名权威控制文件的校定工作,Metadata的设计也是其中的一环。当然,这些年来的工作,许多方面都是在摸索中,一点一点地,试图建立数字典藏的整理工作。很感谢尧曰兄时常给我宝贵的意见与讯息,若有机会到台北中研院,请尧曰兄同我联系,我们可以当面好好聊聊这方面的问题。

由 mickeywek 于 11-03-2012 05:42 AM 最后编辑

新帖子 11-02-2012 02:47 AM
编辑 引用 访问 mickeywek 的主页!
所有时间均为 GMT. 现在时间是 07:49 AM. 发布新主题    回复主题
  上一主题   下一主题
显示可打印版本 | 将本页发送给朋友 | 订阅该主题


 




往复论坛 Powered by: vBulletin Version 2.2.8