文献资源数字化与数字化资源开发|数字化文献

文献资源数字化与数字化资源开发

文献资源数字化与数字化资源开发 摘 要 以浙江图书馆的实践和探索为例,论证在复合型图书馆发展阶段, 在文献资源数字化建设中,应以系统科学理论为指示灯,以特色数据库为制高点, 以地方文献为重头戏,以开发利用为生命线。

关键词 数字化;
复合型图书馆;
系统科学;
特色数据库;
地方文献 中图分类号 G25O.76 文献标识码 A 文章编号 1005—8214(2005)03一OOO9—02, 文献资源数字化和数字化资源开发是数字图书馆建设中的核心问题,也是 复合型图书馆研究课题的核心问题。本文围绕这一命题,以浙江图书馆的实践探 索为例进行理性思考。

1 以系统科学理论为指示灯 系统科学将系统作为研究对象,构成与自然科学、数学科学和社会科学并 立的新兴科学门类。系统科学一方面以提炼融合20世纪四五十年代出现的运筹学、 控制论、信息论等技术科学为基础,另一方面因20世纪六七十年代诞生的自身综 合性横断学科自组织理论的创立而丰实。由此,极大地推动了系统科学前进的步 伐。

数字图书馆建设是一项典型的系统工程,具备了系统的整体性、关联性、 目的性、环境适应性、动态性、有序性等基本特征。

1.1 数字图书馆是人类大智慧的结晶和高科技产物的庞大人造系统,不 可能毕其功于一役 从宏观视角而言,数字图书馆的建设脱离不了国际间的携手合作。例如美 国联邦政府提供资金的合作规划——数字图书馆创始工程第二阶段,是一个由美 国国家科学基金会(NsF)等单位主办,由博物馆和图书馆服务协会(IMLS )等单位 协办的政府机构内的计划。该启动计划是由多机构发起,旨在寻求提供下一代数 字图书馆基础研究的统一领导,以推动分布于全球的信息资源的有效利用,并赞助现存的和新建的团体关注有所创新的应用领域。我国文化部于2ooo年开始在全 国倡导实施中国数字图书馆工程,旨在建设超大规模的优质中文信息资源库群, 并通过国家高速宽带网向全国及全球提供服务,最终形成世界上最全面、最系统 的网上中文信息基地和服务中心。再如中美100万册图书数字化计划,预计耗资 近2ooo万美计划在3年内对100万册中、英文图书进行数字化加工,实现网上全文 检索、阅读。该计划已于2003年上半年正式启动。从微观而论,数字图书馆的准 确定义应该是超大规模的、分布的、多文化、多媒体、多语种,可无缝连接、跨 库检索的海量数字化信息资源库。由若干子系统构建,包括数字资源的采集、加 工、知识挖掘、信息发布与检索、管理、参考咨询、用户培训等。因此,无论从 规模、内容到形式、技术都远非仅凭任何一个馆的实力能够企及的。

1.2 数字图书馆系统是一个实体和抽象相结合的动态的开放系统,技术 创新为其不竭源泉和动力 数字图书馆系统以计算机硬件、网络通信设备等物理状态的存在作为组成 要素,又由概念、原理、指令、程序等非物质实体构成。比如,以处理文献资源 为基本目的的元数据标准,以揭示收藏和服务功能的OPAC体系,知识产权的授 权使用,数字化资源质量保障体系和效益评估体系,与环境有信息、物质和能量 交互作用,系统内部结构也可以随时间变化。数字化信息资源组织形式从顺序的、 线性结构转变为直接的、网状结构;
信息存储形式从单介质转变为多媒体。技术 是数字图书馆系统演化进程系统的序参量,技术轨迹的斜率,即技术突变,引起 局面的突变。数字图书馆建设本身充满着不确定性,无处不在的非线性永久地发 生作用。

互联网实现了计算机硬件的连通,万维网实现了网页的连通,如何将物理 上互连的众多资源汇聚起来,联合提供服务,是近几年新兴的网格技术的实质。

网格就是要实现互联网上所有资源(包括计算资源、存储资源、通信资源、软件 资源、信息资源、知识资源等)的全面连通,其应用将遍及各个领域,成为具有 高性能处理、海量数据存储和大量仪器设备等特征的21世纪人类社会的信息处理 基础设施,最终实现网络虚拟环境上的资源共享和协同工作,消除信息孤岛和资 源孤岛。

2 以特色数据库为制高点 2.1 拿来主义数字图书馆好比长江大海,不弃涓流,容纳百川;
而形形色色规模不等的 数据库构成其主体和实质性基础。我国已建成一批特色鲜明、内涵宏富、使用成 熟的大型数据库,仅浙江图书馆先后引进及建成的大型镜像站就有超星数字图书 馆》《方正Apabi数字图书馆》《书生之家数字图书馆》《中国学术期刊》《万 方数据资源系统》《国务院发展研究中心信息网》《中国财经报刊数据库》《新 华社多媒体数据库》《维普中文科技期刊全文数据库》《中国基本古籍库》等。

上述数据库可能其内容有交叉,但已没有必要重复建设。国家图书馆制定的数字 资源建设八原则:即统筹规划有序推进的原则,公益性为主的原则,突出重点原 则,严格遵照标准规范的原则,自建与购进并举、相互协调与相互补充的原则, 注重规模与时效的原则,统一管理、定期维护的原则,自边建设边服务的原则, 归纳精当透辟,可资各图书馆借鉴。

2.2 自建 我国数字图书馆建设的宗旨是将中文信息为主的各种信息资源数字化,加 速改变互联网上中文信息匮乏的状况,形成中华文化在互联网上的整体优势。将 我国悠久的历史、灿烂的文化、当代建设的辉煌成就通过互联网向全世界展示, 让世界了解中国,让中国走向世界。各图书馆正根据自身馆藏特色与地域优势, 利用“都柏林核心元数据”格式,按照选题、编排、数据质量、检索途径、用户界 面等规定建立专题数据库,尽全挖掘、扫描、收集(或链接)、整合、存贮、揭示 有价值的实体和虚拟资源。

2.2.1 古籍善本数字化 古籍因其不可再生,亟待保护的文物价值和不涉及知识产权保护范畴的可 操作性,应当列为先行实施数字化的文献资源。已获浙江省哲学社会科学成果二 等奖的《浙江图书馆古籍善本书目》收录范围为:“一般以清代乾隆六十年为下 限。凡乾隆六十年以前之写本、刻本、活字本、抄本与稿本,皆在选录之列。清 代嘉庆元年以后宣统三年以前之稿本,流传较少之刻本、抄本、名家批校题跋本, 1912年以后罕见之传抄本,亦在选录之列。”共收录古籍6935种7506部,其中经 部864种955部,史部1894种2021部,子部1528种1641部,集部2574种2805部,丛 部75种84部。2OO2年7月起,文化部、财政部联合启动了“中华再造善本”工程。

确定再造善本1300种,首期再造唐宋善本700种。2OO3年已再造善本4o余种,耗 资2OOO万元。2OO4年再造200种。古籍尤其是孤本、善本的数字化,堪称是最妥善的保护、保存措施。

2.2.2 缩微胶片转化 缩微摄影技术采用专门的设备、材料和工艺,把文献资料以缩小影像的形 式摄影记录在胶片上,经加工制作成缩微品保存和使用,为保护文献原件、提高 文献利用率、降低管理费用发挥过重要作用,成为文献管理的一种有效手段。然 而,与数字化资源比较,其存储空间仍旧占用大,保管条件要求高以及检索不便 的缺点也显而易见。浙江图书馆经过2o年的努力,已将大量古籍和特藏制成缩微 胶片,仅清末民国期间的浙江版旧期刊就逾530余种、旧报纸250余种,共计50 万拍。将这批珍贵资源的数字化已纳入议事日程。

2.2.3 拥有自主知识产权的特色库 集中精兵强将,开发研制既兼容通用又特性鲜明的、拥有自主知识产权的 数据库,本身极具科学探索意义,并且蕴涵着明显的或潜在的经济实用价值,应 当予以重点扶持和鼓励。比如,浙江图书馆初步建成的《中国历代名人图像数据 库》和《外国名人图像数据库》,上下五千年,纵横八万里,浓缩了中华文明和 世界文明的创造者中的代表人物的风貌,具备文化、教育、审美、统计、工具等 多种功能。前者设立了名人姓名、汉语拼音、生卒年、生平功名(例如官衔升降、 职业变更、中举登第等)、字号别称、时代(分远古、夏、商、周、秦、汉、三国、 晋、南北朝、隋、唐、五代十国、宋、元、明、清、近现代)、籍贯(古今地名)、 图片说明等检索点,已收录人物5OOO余名,图像10000余幅,预计人物将达10000 余名,图像2O00O余幅;
后者设立有英文名、中译名、身份、生卒年、生平事迹、 国别及出生地、所属大洲、图片说明等检索点,已收录人物2OOO余名,图像 4OOOO余幅,预计将达10000余人,3OOOOO余幅图像。数据库分别可通过局域 网和广域网访问.问世以来广受欢迎。

3 以地方文献为重头戏 家有谱,方有志,国有史。古人云:
“治天下者以史为鉴,治郡国者以志 为鉴。”地方志作为中华文化宝库的珍贵财富和奇葩,享有“地域百科全书”的美 誉,具备资治、存史、教化、兴利等功能。开发、利用其宏富祥瞻的信息内涵, 为社会主义精神、物质文明服务,意义显著、前景广阔。但纸质地方文献不少系 非正式出版、未广泛流通的灰色文献,存在着冗余度大,头绪纷繁,查检不便, 引用困难等诸多缺陷。浙江图书馆从1900年建馆肇始,就将尽全收藏本省地方文献胪列为文献采集条例的重中之重。迄今为止,经多方征集和采购已入藏新编浙 江省省级志、综合志、专业志1600余种。浙江图书馆正着手将此1600余种新编方 志印刷本全文,采用先进录入加工技术数字化。并经标引,建成操作电脑化、检 索智能化、传递网络化、存储自由化、资源共享化的浙江省新编地方志数据库, 为浙江省地方志的取精用弘开创一个崭新的局面。地方戏曲是珍贵的非物质文化 财富,根深而叶茂,浙江图书馆将建立多媒体数据库的首选目标锁定为发源于本 土而影响全国、享誉环球的越剧》。其框架结构为越剧史料、越剧简史、梨园往 事:轶闻、传记;
越剧之最;
越剧剧目:传统剧、经整理的古装剧、新编古装剧、 现代剧;
流派唱腔:越剧音乐、常用乐器;
越剧表演流派和艺术特色,表演行当 及表演程式,名家新秀:演员、编剧、导演、作曲;
舞台美术、化妆;
越剧机构 和学校(19个):戏班、剧团、研究机构,另有相关资料,包括:越剧研究、相关 论著、演出习俗、越剧戏考、戏曲会演资料、评奖资料、拍摄电影、录像名单等。

浙江图书馆初步建成和在建的数据库尚有《浙江旅游文化多媒体数据库》, 以遍及浙江的成千上万的名胜古迹、文化景观为经,以名人、翰墨、特产、佳话 为纬;
浙江藏书研究数据库》全面揭示1260余位浙江籍藏书家的独特魅力和藏书 活动的文化底蕴,以及浙江期刊选目数据库》《关注长三角专题数据库》等。

4 以开发利用为生命线 纸质出版物增长势头依然迅猛,而网上可利用资源更呈海量发展趋势,智 能化模糊检索体系极大提升了文献的查准率、查全率,强化了信息的可共享性和 增值性;
纷至沓来的信息用户也愈渐成熟,需求更凸显多元化、理性化、专业化 和个性化的特征。全天候开放f下转第页)(上接第1O页)和全方位揭示各类实体和 虚拟资源,构建便捷的信息通道、知识平台和导航系统,理所当然地成为以保存 文化遗产、传播知识信息、开启智力资源为己任的图书馆工作者在知识经济新时 代的神圣职责。

4.1 弘扬先进文化,倡导网络文明 “网络文明工程”是由文化部、团中央、广电总局、全国学联、国家信息化 推进工作办公室、光明日报、中国电信、中国移动、人民日报、新华社等单位于 2OOO年l2月7日共同发起主办,以“文明上网、文明建网、文明网络”为宗旨的大 型网络管理和引导活动。根据对搜索引擎进行分析的结果显示:互联网上相对独 立的中文文化网站约为52000个,其中以WWW开头的,约有34OOO个。我国数 以千计的公共图书馆大多建有自己的网站,而且开设了电子及多媒体阅览室,也正在以高品位的创意,高格调的内涵,高标准的管理,高质量的服务成为网络文 明工程 的骨干力量。

4.2 主动激活信息,积极参与竞争 数字化资源因其多文化、多语种,纷繁而虚拟,既形成汪洋大海式的取之 不尽、用之不竭的信息、知识、智力源头活水,也造就了深不可测、奥妙无穷的 科技迷宫,增大了深度挖掘、精当整合的难度,对于图书馆工作者的文化素养、 业务功底和动手能力相应提出了全新的要求。浙江图书馆在网页上不仅启用馆藏 书目查检、预约、续借,自建和引进数据库,搜索引擎推荐和技巧指导,有关网 站链接、网络资源导航等功能,并且开辟信息服务和互动热线,快捷解答咨询, 代为检索遍及科研课题、专利发明、技术革新、编史修志、策划设计、留学深造、 论文撰写等各类资料,并编汇和原文传递包括饮用水、乳制品、酒业、保健品、 管理营销、房地产、等多项专题系列资料。占有优势的丰瞻广袤的资源,训练有 素的娴熟查检技能和世代相传的职业道德根基,构建了图书馆介入市场经济的核 心竞争力。

4.3 建设开发并举,纸质网络双赢 枯树无果实,空话无价值,数字资源建设不仅需要坐而论道,更需要起而 行动。我们亲身参加了数据库建立的实践,真切地体会到其调研、筹谋、搜寻、 输入、校对、补充、更新..道道工序的繁琐艰辛,也领略到其包含的创造性劳动、 智力展现与个性张扬的成就感,尤其可以分享被开发使用、发挥效益的喜悦。而 被愈来愈多的人所认识、所使用乃至信赖和倚重,正是数据库建立以及数字图书 馆建设的终极目标。边建边用,以使用的深度、广度、力度作为评估价值、改进 质量的试金石和催化剂,可以确保文献数字化的蓬勃生机与旺盛活力。

人类文化传统和图书馆事业发展规律注定了复合型图书馆的长期客观存 在,事实雄辩地证明,数字化资源建设不会因为停电的烦恼以及病毒、黑客的作 崇,减缓前进的步伐。与此同时,纸质文献的全方位开架阅览、外借,也没有因 为失窃频仍而畏首畏尾;
以人为本的精神贯穿于这一不可逾越的图书馆发展阶段 的各个工作环节。遵循系统科学要素,前瞻性地通盘考虑实体和虚拟资源的现状 与发展,有目的地推动两者的相济互补、共存共荣,制定一馆一地一省以至全国 的文献数字化建设、开发及共建共享规划,采取切实有效的建设与使用并重的措 施,图书馆必定会取得文献数字化的飞跃,开创纸质与数字化资源管理及利用双赢的新天地。