法律风险内部技术研究
法律风险内部技术研究 1引言 许可使用是图书馆获得数字资源使用权的主要方式,图书馆通过支付一定 对价获得在特定时间、地域范围内,按照约定的方式使用数字资源的权利。数字 资源出版商或提供商(以下简称数据库商)为了维护自身的市场垄断地位,十分 注重对数字资源内容的保护,往往会在许可协议中对数字资源的使用严加限制, 不仅限制使用的地域、使用者身份,而且限制使用数量、使用方式以及复制和传 播的途径。在数字资源许可使用法律关系中,图书馆代表本机构读者与数据库商 签约。但图书馆并非最终用户,对于大学图书馆而言,终端用户不仅包括本校师 生、临时的访学研究人员,还包括一定数量的社会读者。对于数字资源的访问权 限,读者与图书馆之间存在信息不对称,读者不了解每个数据库许可协议中对于 使用行为的具体规定,图书馆对读者的具体使用行为也无法知情、引导及控制。尽管有一种代表性的观点认为,图书馆只要尽到告知义务便可以免责[1],但是 在工作实践中由此引发的读者盗用、滥用数据库等违规使用行为的问题均要图书 馆协调解决。图书馆不仅要应付数字资源管理和服务中的问题,而且还面临着违 反约定承担法律责任的风险。如何通过信息技术手段有效地构建防控数字资源违 规使用行为的内部控制机制,从而降低此类风险的发生,一直是图书馆技术部门 致力研究的问题。近年来,国内外图书馆界利用网络信息技术,就控制数字资源 违规使用问题做了大量的研究和应用,并取得一定的效果。本文在对国内外电子 资源使用进行统计分析和控制研究的基础上,以西安交通大学图书馆数字资源内 部控制平台搭建和使用为依据,对数字资源许可合理使用提供一些思考和建议。
2国内外防控数字资源违规使用的现状 2.1数字资源违规使用行为概述。数字资源违规使用主要是指违反电子资 源授权许可协议中约定的使用者、使用范围、使用方式等条款的所有行为。违规 使用的划分是以“授权用户”为基点,包括“盗用”和“滥用”两种类型。其中“盗用” 是指非授权用户的非法使用行为(本文暂不讨论)。“滥用”是指授权用户的不当 使用,其具体行为包括“超量下载”“系统下载”“使用网络下载工具”等。数字资源 的“滥用”问题是困扰图书馆管理与服务工作的难题[2]。许可协议中通常对“滥用” 行为做了严格的禁止性规定,数据库商也在技术上进行了防控,大多数据库平台 都对机器人、蜘蛛、爬虫等自动多线程下载和自动搜索、抓取、深链接等使用做 出限制并在数据提供端进行检测和阻止。虽然对于超量下载没有明确规定,但通常认为超过正常阅读速度或浏览速度的下载即为超量。尽管大多数图书馆都在电 子资源合理使用的规范中对这两种使用方式进行了提醒和禁止性声明,尽到了告 知和提醒的义务,但这种方式依然是被动式的防控,在以往的管理工作中效果不 佳。图书馆需要通过先进的技术手段,以事前预防为目标,以主动式的内部控制 机制预防违规使用行为的发生,确保机构用户的正常使用,规避因此导致的法律 风险。2.2目前防控违规使用行为的技术机制实践状况。国外学者在防控数字资 源违规使用方面实践探索的基本技术路线是通过使用网络服务监控软件,采用远 程登录到被监控机器上或者安装代理软件等方式,进行网络流量监测,并根据设 置的参数进行阻断或放行,如SolarWinds公司的OrionNetworkPerformanceMonitor、 网路岗、聚生网管等软件,均是按此思路设计并实现的。国内部分高校图书馆在 此方面所做的实践与国外略有不同,通常不采用安装代理软件,主要是通过流量 采集卡或者其他硬件设备抓取读者使用行为数据,监控数字资源使用原始流量数 据,自动分析读者使用行为,对违规行为进行预警和阻断,及时防止数字资源违 规使用情况的发生。例如,上海交通大学通过TCP(TransmissionControlProtocol, 传输控制协议)会话劫持技术,在正常TCP的会话里注入额外的第三方信息,当 系统按照默认阈值判断违规主机与外部数据库通讯时,违规封禁程序会侦听相应 报文并采取措施来重定向页面或终止该TCP连接[3]。清华大学图书馆的电子资源 访问管理与控制系统针对用户和数字资源间的已知协议(主要是http协议)进行 抓取分析,获取用户访问内容,在用户端利用客户端代理软件Privoxy获取访问 数据库的URL全文信息,当读者访问内容超过系统设置的违规阈值时,系统自动 发送提醒页面,多次提醒后会终止该IP访问[4]。复旦大学图书馆建立了一个对常 用网络服务、电子资源服务平台、常用数据库服务、图书馆专有的Z39.50等服务 综合监控的平台,自动捕获用户访问、浏览、下载行为,从而监控读者使用网络 服务的情况,对数字资源访问故障及时发邮件和短信通知系统管理员,全文下载 量达到系统规定阈值后,管理员在后台切断访问进程并自动通知读者进行处理 [5]。西安交通大学图书馆对网络流量进行采集处理,构建了一个基于目标IP地址 网络分析的统计和控制综合服务平台,对用户超量使用数据资源自动进行阻断 [6]。孟晓蓓、陈默等学者利用netflow分析技术,构建了一个针对特定数据库的 控制单个IP流量以及并发数的流量监控系统,以控制恶意下载及规避知识产权风 险[7-9]。流量监控系统与使用统计系统是相辅相成的,有部分国内高校图书馆虽 未构建单独的流量监控系统,却构建了使用统计系统以对数字资源的使用行为进 行数据抓取和分析。例如,哈尔滨工业大学图书馆引进了360Counter统计平台, 图书馆可以通过一个用户友好界面查询并下载在线电子资源使用量统计报告,搜 集期刊采购决策的可靠数据[10],也可以发现违规使用情况,但缺少及时预警和阻断的效果。深圳大学图书馆的USSER通过收集DRAA (DigitalResourceAcquisitionAllianceofChineseAcademicLibraries,高校数字资源 采购联盟)平台、OpenERMS系统、第三方知识库、数据库商使用统计平台等的 统计数据,为图书馆提供一个深度挖掘和比较数字资源统计利用的平台[11-12]。
从国内外研究及实践可以看出,现有的数字资源防控主要针对用户使用流量进行 分析,按照系统预先设置的阈值对用户违规使用行为进行事前干预和限制,避免 违规使用。本研究综合并吸取了国内外在防控数字资源违规使用行为方面的实践 经验,形成了以数字资源使用统计数据为基础,通过预先设置阈值对违规使用行 为自动做出判断,并提前做出适度预警,及时阻断严重违规行为的机制。这种机 制不仅可以有效防控违规使用法律风险,同时可以利用收集到的使用统计数据, 分析不同学科用户的使用特征,灵活分配数据库访问控制流量,适度调整这部分 用户的预警阈值,充分满足其对文献的需求;
此外还可以通过本馆获取的使用统 计数据与数据库商提供的使用统计数据之间进行对比,分析二者的差异点,及时 发现数据库商未按照许可协议约定使用国际通用统计标准的情况,并督促其纠正, 以防范数据库商在限制图书馆合理使用权问题上的权利滥用,从而维护图书馆和 读者的合法使用权益。通过双向调节,达到防控数字资源违规使用、提高数字资 源使用效益的目的。
3数字资源违规使用内部控制机制构建思路 对于图书馆而言,技术机制的构建应以优化管理、改善服务为基本出发点。
数字资源管理强调合同管理,即围绕数字资源展开的一切管理和服务行为都要依 据许可协议进行。对于违规使用行为的防控应以协议中数据库商与图书馆达成的 一致性条款为基础。由于不同数据库商对违规使用的判定不同,无论是超量下载 的数量,还是不当使用的行为均无统一标准,协议条款的约定也各不相同,因此 若以某种信息化系统来实现防控目标,需要考虑以下几个因素。3.1能够获取相 对准确的数字资源使用统计数据。超量下载是以单位时间内的下载量来判定的, 因此系统应具备的基本功能即为可以获取相对准确的数字资源使用统计数据。通 常情况下,数字资源提供商会提供COUNTER、E-Metrics、ICOLCGuideline等规 范格式的统计数据。同时,读者访问数字资源过程中会产生相应的访问日志和原 始访问记录,这些记录以规范化格式存储在本机构网关服务器上。两种途径都为 数字资源使用提供了基础分析数据,结合这两方面原始数据,基本可以较为完整 和准确地获取本机构数字资源使用统计数据。3.2能够针对不同数据库的个性化 要求设置访问许可规则。数据库许可协议是图书馆与数据库商之间具有法律效力 的合同文本,目前对违规使用行为的判定并无行业认定的统一标准,在许可协议中不同数据库对违规使用行为的描述和惩罚措施都不一样,有的简单描述为超过 正常阅读速度即为违规使用,有的规定不可一次下载超过内容的1/3,有的规定 不可从封面到封底(cover-to-cover)整本下载,有的规定不能用网络蚂蚁、迅雷 等点对点工具下载,有的规定一次登录不能下载超过30篇……因此,防控机制需 要具有针对不同数据库要求的阈值设定功能,需要由数据库采访人员根据许可协 议的具体要求逐一进行配置,对于要求不明确的数据库按照经验阈值进行配置, 配置的精确度会直接影响系统预警和阻断违规使用行为的效果。3.3能够针对不 同读者群体的个性化需求设置合理使用规则。不同学科的读者对不同数据库访问 的需求不尽相同,图书馆在应用技术机制防控违规使用行为的同时,应促进读者 更加有效地利用数字资源。因此防控机制需要在合理规避许可协议禁止性条款的 基础上,为读者构建特色化的访问规则,如NEJM、OVIDPrimalPictures、中华医 学会电子期刊等生物医学类型数据库的读者对象主要是以生物医学学科为研究 对象的用户,防控系统可以在分析使用统计数据的基础上通过平衡网关负载设置, 将主要来源于生物医学类资源的读者访问需求进行负载平衡,以提高生物医学类 资源使用效率,在许可协议范围内,为普通读者、特色学科用户提供差异化流量 控制。
4西安交通大学图书馆数字资源统计与防控实践 2010―2012年,西安交通大学图书馆构建了电子资源利用统计网关系统和 电子资源流量控制系统[6,13],实现了基于使用统计数据分析的数字资源违规 使用防控机制,取得了良好的使用效果。流量控制系统从校园网出口获取所有图 书馆购买的数字资源的http访问流量,根据系统设置的访问阈值,实现电子资源 流量控制。随着Wi-Fi、VPN、移动图书馆访问等多种数字资源访问途径的出现, 校园网网络环境复杂化程度增加,原有防控系统不能更好地满足复杂环境下读者 多途径、多方式访问数字资源的需求。因此,需要在此基础上进一步研究构建基 于使用统计分析的可灵活设置预警阈值、动态实现负载平衡的使用统计与防控系 统。4.1数字资源统计与防控平台方案。基于数字资源管理实践中的新问题和新 需求,在原有系统的基础上进行了功能上的优化和整合,在一个平台上实现了数 字资源统计与防控功能。该平台将数字资源基于读者使用日志分析的流量控制与 数据库商使用平台的COUNTER统计数据统一整合,同时,通过对读者使用流量 阈值的限制,实现对数字资源违规使用的控制。数字资源统计与防控平台的具体 情况如图1所示。图1数字资源统计与防制平台示意图从图1中可以看出,平台利 用采集器从校园网IP池获取目标流量,过滤后的目标流量进入统计控制系统后台 进行处理。统计平台对流量进行分析统计并通过Web客户端提供给管理员,同时流量控制系统按照系统预定的每一个数据库阈值,针对单个IP地址单位时间内访 问次数、下载数量做出判断,如果发现超过系统预设值后将阻断信息发送给采集 器处理,随后读者访问被阻断并且发送相应的违规邮件。统计平台通过分析来自 不同IP池的流量,针对不同分组读者,自动负载平衡,实现个性化流量控制。4.2 数字资源统计与防控平台模块设置。图2数字资源统计与防控平台数字资源利用 统计平台主要由资源、用户管理,系统数据管理,SUSHI管理,资源对比分析和 系统报表管理模块组成。资源管理:可用于图书馆对试用数据库、引进数据库, 开放获取资源、自建数据资源进行管理,并可以根据不同模板导入不同类型数字 资源。用户管理:可以针对不同用户进行分组,对不同学科的用户设置不同访问 流量阈值。系统数据管理:主要针对读者使用行为,按照读者分组进行数字资源 访问分析,同时提供数据库、电子期刊和电子图书访问统计。SUSHI管理:主要 包括SUSHIID管理和SUSHI数据库统计。资源对比分析:主要包括检索下载成本 分析以及对比分析。系统报表管理:主要输出COUNTER数据报表和防控平台产 生的报表。从以上主要模块可以看出,平台涉及数字资源、用户管理及相关数据 统计分析功能。针对普通读者和学科用户设置不同的控制机制,网关服务器访问 高峰期按照读者登录类型负载平衡,为学科用户分配额外的访问流量。平台支持 SUSHI协议,可自动收割各个数据库的COUNTER使用统计报告,并可与该平台 产生的报表进行对比分析。此外该平台还可以对数字资源URL地址定期检测,一 旦发现异常链接将及时通知管理员。该平台具有如下特点。(1)精准数据流量 采集平台在不影响校园网正常访问情况下,以旁路获取方式从校园网接口获取用 户所有原始访问流量,此后通过采集器进行目标流量采集、过滤和阻断发送,采 集器对所有访问数字资源的流量(以http协议访问流量为主)按照设定规则过滤 后缀为gif、swf、css等无效访问记录及返回状态代码大于299的日志记录。处理 后的目标流量进入流量采集系统进行数据分析,采集器每天可以处理10GB网络 原始流量。同时,对于用户使用数字资源超过系统阈值的IP地址,采集器采用逆 向发送阻断信息包模式,在3~5分钟内阻断该用户对话,可适度预警防止数据库 违规使用情况发生。(2)自动流量调节用户使用数字资源具有相对的学科特征。
统计平台通过分析用户访问地址,下载数字资源学科特征,为管理员推荐特定的 学科读者群。针对不同学科读者,数字资源统计与防控平台可以自动进行流量调 节,及时调整学科用户流量阈值,为学科读者提供个性化的服务。例如, OVIDPrimalPictures数据库主要使用对象是医学和生物医学读者,统计平台选取 2015―2017年用户访问该数据库统计记录,选取使用量最大的IP地址,与校园网 提供的IP地址对照,可以判断主要访问读者IP集中在医学校区和生命学院。管理 员将这些IP地址设定为生物医学学科用户,在整个系统网关出口对这些IP访问OVIDPrimalPictures数据库自动进行流量调整,确保这些学科用户可以在可控范 围最大程度使用数字资源。(3)开放性的数据接口平台采用标准API架构、开放 数据分析和阻断控制接口,可以与图书馆电子资源管理系统 (ElectronicResourceManagementSystem,简称ERMS)、下一代图书馆信息管理 系统、校园网资源整合系统进行数据对接。实现数据对接后,平台可以给对接系 统提供数字资源访问、读者行为等元数据,为这些系统中的使用统计、资源评估 等相关功能提供数据支撑。4.3平台运行情况。目前平台内已设置本馆引进数据 库184个,试用数据库7个,OpenAccess资源4个,覆盖中文电子期刊27217种,外 文电子期刊24651种。此外,根据本校学科特色,系统建立了生物医学、法律经 管类、机械化工类等10多个学科用户组,按照学科用户分组自动分配网络负载, 在确保不违反数字资源使用的禁止性条款的前提下使学科用户在合理范围内最 大程度地使用数字资源。平台试运行以来在机制上较好地实现了使用统计和防控 两种功能的结合,实现了对配置数据库近一年内使用情况的有效统计和防控(见 图3),同时对Elsevier出版社电子期刊数据库、WileyInterScience电子期刊数据 库、CNKI中国期刊网全文数据库等容易被数据库商投诉的数据资源违规使用也 进行了20万次以上的有效阻断(见图4),很大程度上缓解了数字资源违规使用 给图书馆带来的压力。
5基于内部防控系统防范数字资源违规使用法律风险的思考 5.1图书馆应采取合理措施防控数字资源违规使用。在数字资源许可使用 法律关系中,图书馆虽然参与商务部分的谈判和许可合同的签署,但实质上只是 所在机构及用户的代理人。图书馆既不是最终用户,也无法控制最终用户的使用 行为,所以不应承担因用户违规使用带来的法律风险。国外学术界有一种观点认 为,图书馆不应对出版商承担任何的赔偿责任,包括用户违规使用电子资源的情 况,因为图书馆完全无法控制用户使用电子资源的行为,但是图书馆应当为阻止 滥用的发生采取合理措施,包括拒绝滥用者访问电子资源[14]。图书馆可采取的 合理措施有很多,目前普遍采用的是在图书馆主页上发布保护数字资源知识产权 公告,在读者培训或数字资源推广活动中宣传合理使用的相关知识等方式,但这 些措施能否奏效主要图3部分数据库使用统计情况图4部分数据库访问被拒统计 取决于用户的自觉。基于技术手段的内部防控机制也是图书馆采取的合理措施之 一,它通过数据抓取和分析及时预警,能够更加客观和准确地阻断滥用者的违规 使用行为,使图书馆采访人员和技术人员不再时常陷入纷繁复杂的违规使用事件 的调查工作中。5.2内部防控机制是图书馆为维护。权益平衡而进行的主动作为 数据库商、图书馆、读者是维持学术信息交流生态系统正常运转的3个重要主体,三者的利益不同,承担的权利义务也不同。数据库商作为数字资源的版权人必然 会维护自身的垄断利益,图书馆作为社会公益机构则以推广和促进知识的传播与 交流为己任,读者作为知识产品的最终使用者和潜在创造者希望可以最大化无障 碍地使用资源。如何实现版权人的私权利益与社会公共利益之间的利益平衡,是 解决数据库商、图书馆和读者之间在数字资源使用问题上限制与反限制的理论基 础[15]。构建自动化的预防违规使用的数字资源统计与防控机制是图书馆为维护 权益平衡而采取的一种主动作为的方式,其目的不是限制读者的使用,而是通过 一定的技术手段适时提醒读者从而引导读者合理使用数字资源,逐渐养成良好的 使用行为习惯,在学习科研的过程中尊重他人的智力成果和知识产权,避免因此 给自身和机构带来数字资源使用障碍。5.3防控违规使用是手段而不是目的。通 过技术手段防控违规使用并非是图书馆的初衷,帮助和促进读者使用数字资源、 实现读者权益最大化才是图书馆的任务目标。从委托代理关系的角度来考察,图 书馆作为读者的代理人,应当尽力维护读者权益。在数字资源管理实践工作中, 读者本应享有的数字资源的使用权常常被数据库商以违规使用为由而剥夺,数据 库商经常以超量下载或使用工具下载为由,封锁读者的IP。更有甚者会因为一个 IP的违规使用而中止对整个机构的访问服务,这种对违规使用的认定通常是由数 据库商单方面进行的,缺少权威第三方的认证,其中不乏不合理之处,图书馆应 利用自身的专业优势和技术手段维护读者权利,并通过完善许可协议中的相关条 款为读者争取更多的使用权益。例如,西安交通大学图书馆引进的某知名数据库 曾以读者在短时间内下载量超过万篇为由封闭了该馆若干IP的访问权限,并要求 对读者进行相关处理才可予以开通。采访馆员通过使用流量控制系统获取了该数 据库的使用统计数据,并与数据库商的访问日志和统计数据进行了深入的分析与 比对,发现数据库商的统计数据并未严格遵从COUNTER4.0的统计标准,与其在 许可协议中的承诺不符。经过图书馆的据理力争,数据库商在12小时内即恢复了 被封IP的访问权限,同时图书馆督促数据库商对许可协议中关于使用统计数据标 准和违规使用的条款进行了细化和修订,合理有效地维护了读者的使用权益。因 此从另一个角度看,这种内部控制系统对数据库商也可起到监督作用,督促其按 照国际通行标准的模式和方式提供使用统计数据,尤其是在双方对违规使用行为 的认定发生分歧时,图书馆不会因为没有第一手的数据而失去话语权和抗辩权, 对于规避数字资源许可使用中的法律风险有较为重要的实践意义。
作者:张静 魏青山 史淑英 闫晓弟 单位:西安交通大学图书馆