高新技术制造业的模型研究
高新技术制造业的模型研究 高新技术制造业企业知识表达模型 其建模需求主要表现在以下几个方面:(1)知识层次性。分析知识的种 类及构成,利用本体表达不同类型的知识,利用不同层次的知识完成不同的功能, 通过相互之间的关联,体现知识模型的完备性。(2)语义一致性。高新技术制 造业企业的业务过程与产品构成,需要在企业内部与产业链配套企业间保持语义 的一致性,需要构建在某一高新技术制造业领域内部公认的、具有确定语义的企 业领域本体,包括业务过程、设计术语和产品相关知识等。(3)标准化与模块 化知识表达。高新技术制造业企业在设计生产及产业合作中存在大量的标准化知 识与模块化知识,需要借助知识表达模型对其进行规范化管理,以促进与企业合 作过程中的知识共享与集成。(4)降低知识本体构建难度。当前,文献研究中 所涉及的知识管理系统的运行与维护,大多需要知识管理专家对知识管理的全程 参与,需要员工和知识用户对知识管理及其技术有深入了解。然而在实践中,企 业知识管理的实施往往缺乏相关的专业人才,因此需要提高知识本体构建与维护 的自动化程度,降低知识维护的难度。(5)知识组织结构清晰。高新技术制造 业企业涉及众多领域,在各自产业领域内所处理的知识也各不相同。知识组织结 构是理解与共享知识的基础,因此构建在制造业与高新产业内公认的、清晰的知 识组织结构至关重要。高新技术制造业企业的知识管理复杂而丰富,如何规范化 地描述和表达知识及其关系结构,是学者一直关注的热点。在将面向人类处理的 语义表达转向面向机器处理的形式化语义的过程中,必须消除人类语义的模糊性, 并且构建支持自动推理的、明确的、形式化和规范化的语义关系。分析知识的形 式化构成是构建知识表达模型的重要基础,可将企业知识模式的形式化表达式描 述如下:K=F+R+C其中,K为知识(Knowledge),代表某一项 知识。F(Fact)为事实知识,是指人们对客观世界事物及其状态、属性、 特征和关系的事实描述。R为规则(Rules),即对事实的一种规范约束或 表达在前提事实与结论事实之间的一种因果关系。C为概念(Concepts), 是指事实中基本术语(概念)的含义及其语义规则说明等。模型认为,一项知识 并不是单独孤立的,而是由对现实世界的观察、对概念的抽象理解以及对关系与 规则的推演而构成的。由上述描述可知,知识具有层次性,一般包括事实、概念、 规则和启发4个层次,其中启发知识是关于规则的知识,是对前三者的综合,利 用启发知识可得到问题的解[19]。其意义在于,将知识转化为面向计算机处 理的表示形式,需要把上述事实知识、规则知识和概念知识等本体表达出来。显 然,单一类型的本体不能完成,需要运用不同类型的本体表达并通过不同本体的相互结合才能形成知识的表达模型,进而表示与存储知识。综上所述,参考Pe rez和Benjamins等归纳出的10种本体及其它企业知识建模的研 究成果,本文提出面向高新技术制造业企业知识管理的多层次本体知识表达模型 (见图1)。模型架构整体分为3个层次:知识表示层、概念规则层、知识组织 层。按照知识模型的分类,不同层次表达的知识类型也各不相同。其中,知识层 的知识本体主要表达事实知识,领域知识层的知识本体主要表达概念与规则知识, 而知识组织层的产品生命周期知识地图主要明确知识架构与知识集成。多层次本 体知识表达模型体现了知识层次性与不同本体的结构关系,能够满足高新技术制 造业企业知识表达的需求。不同层次的本体根据知识表达需求分别描述事实知识、 概念关系、规则知识、知识组织结构以及相互之间所形成的概念或语义映射等, 如知识本体在表示知识的过程中所使用的概念术语,通过概念映射到领域知识, 再利用领域知识对概念及其关系进行描述,从而可以利用推理规则进行知识推理, 或者利用知识地图集成到整体的知识框架中。知识模板针对高新技术制造业企业 标准化与模块化知识的需求,对标准化和规范化知识利用领域的知识概念构建知 识模板,在产生相应知识的过程中,按照知识模板结构建构新的知识本体,从而 在相同类型的知识本体间形成统一的知识结构,以便能够更好地为理解和共享知 识提供技术支撑。知识本体构建 在现实应用中,企业所处理的知识来源种类丰富、格式繁多,且存在多种 形式,但在具体处理知识表达来源时,可将其归纳为文本和非文本两类。其中文 本是一种半结构化的知识来源,是企业目前重要的知识存储形式,它主要包括企 业资料、报告、总结、说明和以网页形式存在的知识;
非文本知识来源既包括结 构化的产品数据和报表,也包括非结构化的图纸、流程和音视频。本本主要构建 具有可扩展性的知识本体的定义,并针对文本和非文本源的特点,分析知识本体 的构建方式。使用文本形式保存的知识是企业中最常见的一种知识保存形式,但 在其应用中因主要依靠关键字或分类方式进行检索和共享而存在诸多弊端。基于 本体的知识管理系统需要抽取文本知识的特征信息,将其自动或半自动地转化为 符合前述知识本体定义的知识本体,从而增强知识管理的语义理解能力和知识应 用能力。一般而言,文本保存的大都是半结构化的文本,而半结构化的文本内容 和结构是混在一起的,通常结构不固定且没有清晰的描述。根据文本的一般表现 形式,可将文本的特征信息归纳为以下3类:①文件特征。文本文件属性可以提 供的信息包括文件的创建时间、最后修改时间、创建者和文件路径等;
②形式特 征。包括文本的长度、显示字体的大小、颜色、位置和特殊标识等;
③结构特征。包括分段、并列、标题级别、表格与图表的特殊表达结构等。因此,基于文本的 知识抽取主要包括:①文本属性的抽取,如文本的创建时间、创建者、版本号、 权限、修改时间和次数等基本属性信息;
②本文内容信息的抽取,如文本的标题、 作者、摘要和关键字等;
③文本的语义信息抽取,如文档分类和语义特征等。知 识本体的构建是从文本知识中抽取相应的语义信息,并按照知识本体的定义,采 用本体描述语言构成本体文档的过程。可以针对上述文本知识的特征,通过模式 匹配自动抽取部分语义信息,不能抽取的部分语义信息需要由知识管理员工来补 全。通过模式匹配抽取信息的过程主要包括文本的预处理、文本截取和模板匹配 等(见图2)。图2本文知识语义抽取过程(1)文档预处理。文档格式不同不 利于信息的处理,因此需要对文档进行预处理并提取其中的文本信息和格式信息 等。XML文档具备同时存储各种信息的能力,其结构化的形式也有利于信息处 理。因此,首先将企业文档转化成XML文档,这一过程存在诸多转换工具和第 三方插件,不仅能保留文档文本,也能保存段落和字体等信息。然后,利用文本 截取工具,将文本分割成多个子字符串(包含文本特征)的集合,字符串的分割 由段落、格式、标点和字体等因素进行设定,上述过程使文档变为一个字符串的 集合,可将其定义为档的字符串集合T通过li所包含的匹配模式h1i,h2 i,…,hni进行匹配,并根据上述计算公式计算li的权重,然后抽取下一 个文档匹配模板li+1,循环计算匹配模板的权重,选择权重最高者为文档的 匹配模板,并保存匹配到的文本信息。按照知识本体的定义,采用OWL语言进 行描述,形成本体文档。企业文档匹配模板是一个不断积累和完善的过程,文档 匹配库的复杂程度与企业文档信息格式的多样性有关。非文本知识来源既包括结 构化的产品数据和报表,也包括非结构化的图纸、流程和音视频等数据。目前, 企业对于非文本知识的保存和利用方式主要有以下几种:①利用关系数据库保存 产品数据,在使用中采用数据库管理系统对上述数据进行查询和适用;
②利用添 加文本描述的方式,为设计图纸、流程图表和各种音视频文件增加自然语言描 述;
③利用文档分类方式,将非文本文档的知识特征通过目录层级表达出来,并 在使用过程中通过目录(知识特征)从大到小缩小语义范围,以便进行知识检索。
根据高新技术制造业企业知识管理实践的需求,本文将非文本知识对象分为两 类:一类是非结构化的知识,主要指不具有固定组成结构的知识,如设计图纸、 生产流程和音视频等;
另一类是结构化的知识,主要指拥有固定组织结构的企业 非文本知识,如产品数据和报表等。非文本知识的共同特点包括:①一般以独立 的文档形式存在,少数以网页形式表示;
②从可抽取的语义信息来看,包括文档 的基本属性,如文件名、目录信息和创建时间等;
③非结构化的知识结构特征不 明显,而结构化的知识结构特征明显,需要从中提取相应的语义信息。与前述的文本信息不同,非文本知识的语义信息自动提取应用效果有限,因此可以在知识 本体构建或者知识应用过程中借助人工算法不断修正。由上述分析可知,非结构 化知识本体的构建需要抽取的信息具体包含3类:①对文档基本信息的抽取。因 为非结构化知识的主要存储方式是文档,因此可以通过文档信息的读取获得文件 名(标题)、文档创建/修改时间和创建者等信息;
②对语义信息的抽取,如知 识分类与领域本体映射的信息。因为无法利用文本分析和模式匹配等方式,所以 效果难以保证,因而需要较多地依赖人工维护;
③对知识特征的提取,如对于采 用网页形式保存的信息,可以通过前述模式匹配的方法,获取网页的编辑时间、 导航层次和网页标题。如果是带有描述性的文字,也可以利用前述知识特征提取 方式构建知识特征向量;
如果是仅以分类目录形式保存的文档,则可以通过读取 文件目录体系,通过模式匹配方法抽取其中的知识特征,其基本流程见图3。图 3非结构化知识本体构建主要流程为分析非结构化的文件属性并提取相应信息, 同时从目录信息或文档网页描述信息中,按照上述方式提取知识特征。在提取知 识特征向量的过程中,可以用自动提取与人工提取相结合的方式。语义信息的加 入主要依靠知识用户从文档中抽取和审核。上述3种获取的语义信息按照知识本 体的定义,采用本体描述语言进行描述,并构成知识本体文档。与非结构化知识 构建本体的方式类似,结构化知识本体的构建主要体现在两个方面:①企业中结 构化信息的主要存储方式是关系数据库或者报表(也可以存储到关系数据库中)。
对于关系数据库而言,每一行都是一个实体,每一列都是实体中的一个属性,每 一行都是一个知识项,每一列都是知识项拥有(Has)的属性。因此,在结构 化知识本体的构建过程中,需要识别和分析信息结构;
②结构化信息的知识特征 根据信息来源的不同有不同的提取方式,从数据库中提取的信息一般不存在层次 目录信息,可将提取到的属性项作为知识特征的一部分。
本文主要研究符合高新技术制造业企业要求的知识表达方式,构建了基于 本体的知识表达模型。针对高新制造业企业的需求和知识特点,分析了信息抽取 与知识本体的两种构建方式:文本与非文本的知识本体构建模式,为高新技术制 造业企业的知识管理提供了理论借鉴。然而,知识本体并不是一成不变的,还需 要不断修正和完善,这将是未来研究应进一步关注的方向。
本文作者:郑双怡 闫培宁 工作单位:中南民族大学