自然语言在情报检索中的应用
刘冬
当今时代,是社会高度网络化发展的时代,信息资源已成为人类社会最重要的财富。网络环境的完善,不仅改变了信息载体形式和传递方式,也改变了读者获取信息的方式,读者获取知识的首选方式是网络。人们利用网络和信息检索系统来检索他需要的文献和信息。
信息检索系统的建立包括信息的存储和检索两个方面。信息存储是指编制检索工具和建立检索系统;信息检索即是利用这些检索工具和检索系统来查找所需要的信息。信息检索系统的建立是一个知识重组的过程,也是信息再生的过程。在这个过程中,信息的获取环节尤为重要,信息的检索和获取是否省力、方便、易得,直接影响用户对信息的认识程度,而获取信息的准确性将影响用户利用动机的强弱,最终影响信息检索系统的使用效率。因而,作为信息检索的基础和前提,信息的存储即重组和加工过程显得尤为关键,这是保障信息检索的高效率和信息检索系统的有效利用的前提。
在存储和检索信息的过程中,情报检索语言始终起着语言保证的作用,它是沟通情报存贮和检索两个过程、标引人员和检索人员双方思维的桥梁,情报检索语言的质量高低及其使用正确与否,对情报检索效率有重大影响。
情报检索语言,是表达一系列概括文献情报内容的概念及其相关关系的概念标识系统。作为情报检索专用语言,其特点能比较专指地表达文献及检索课题的主题概念,
在信息检索系统中,情报检索语言的应用保证了较高的检全率和检准率,提高了信息检索的效率。由于其成功的应用,使得其能够运用到今天并成为信息检索语言的主流。
但是人们在大量使用标引语言的实践中,发现这种受控的人工语言具有标引技术复杂、标引难度高、标引一致性和专指性差、词汇更新慢、用户检索困难等缺点。随着计算机技术和检索技术的发展,曾被人工语言取而代之的自然语言在标引和检索中的地位又重新得到了认定。
1.自然语言和自然语言处理
自然语言即人们日常使用的语言,自然语言处理是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇、章的输入、输出、识别分析、理解、生成等操作和加工。迄今国内外关于自然语言的处理和理解的研究和实践已取得了丰硕的成果,这些成果在计算机信息检索和处理中存在广泛的应用领域和前景。如全文文本存贮和检索涉及单词、主题此的理解和切分;计算机分析和理解以自然语言表达的提问或检索策略可以大大改善人机界面;自动文摘和自动分类需要计算机对主题结构的分析、理解等。这些都是未来情报检索技术的一个重要领域
。
2.自然语言使用的现状:
目前,国外尤其是美国,对自然语言在情报检索中应用的研究很活跃,已成为国外情报语言学研究的热点,并取得了一定的进展。如在自然语言接口坑与情报检索语言结合使用方面有了很大成绩,自然语言的初级应用,如关键词检索、文本匹配查找等,已相当普及。
当我国开展情报检索计算机化,着手建立文献数据库时,国外借助于计算机的自然语言检索法就被介绍进来。目前,自然语言检索正在我国渐渐流行起来。
在国内外各大网站、各种搜索引擎及各专业或非专业数据库中,利用自由词检索所带来的便利得到了情报界和图书馆界及广大用户的肯定。使用自由词检索,用户无须操作培训,检索词紧跟社会发展,克服了受控语言标引由于严格的控制措施而造成的检索障碍,自由词标引不仅不会破坏标引规范,而且还能提高文献标引的质量,并且使读者不受检索用词的限制,更便捷地利用数据库检索系统查找所需的信息,保证信息系统资源得以充分的挖掘和利用。
3.自然语言的应用方式:
自然语言主要是以下列方式应用于情报检索:
3.1关键词法。这是国外自然语言应用于情报检索最成熟的,也是最普遍的一
种方法。关键词法不仅用于编制书本式索引,而且还用于联机检索。
3.2文本检索。这是以自然语言表达检索课题,借助于截词检索等各种匹配方
法,直接在篇名、文摘、正文中查找(即全文检索),文本检索法也可与情报检索语言并用。
3.3以自然语言作为自由词进行补充标引,与情报检索语言并用。自由词主要
是一些专有名词,所以也称特征词。
3.4自然语言以入口词形式为接口,辅助情报检索语言。
3.5以情报检索语言词表作为控制手段,与自然语言的关键词系统结合使用。
3.6以后控制词表为控制手段,与自然语言的关键词系统结合使用。
3.7自动分类。这是与传统分类截然不同的一种分类方法,它是建立在语词共
现原理的基础上,通过计算机对文献原文中的关键词进行词频和语词共现频率的统计分析,判断出若干最能表达文献内容的词,确定文献属于代表某个词语类集的类,从而达到使相关的文献聚集在一起。
4.使用自然语言的优点:
4.1自然语言一般不标引,就不存在对标引人员的高要求和标引难度;即使采用自由词标引方式,在标引阶段是不用分类表和词表的,对标引人员的要求也比使用情报检索语言标引还是要容易得多。
4.2使用自然语言由于不标引,或由计算机进行自动抽词标引,速度极快,即使采用自由标引方式,标引速度银河要比使用情报检索语言快几倍。其标引速度快,成本低的特点,特别适合网络信息的特点。网络信息最主要的特点就是数据量庞杂而且增长迅速。使用自由词法可以降低信息标引的成本,提高标引工作的效率。
4.3不存在人为性和滞后性,采用自由词法能及时应用最新的提法以及最新的词汇,自然语言由于不受主题词表的限制,保持与新概念的同步,不会像情报检索语言那样要依靠词表来对词语进行选择和规范,而词表的制定和修改是需要一个过程的,这样不可避免地带来滞后性。而词表的编制滞后于新生事物和概念的,不能及时表达最新的概念。
4.4由于自然语言是使用文献著者的原文,不必像使用情报语言那样必须进行主题分析和概念与人工语言的转换,所以是一般不会失真的,其标引的一致性相对来说容易得到保证。也有由于文献本身题名与内容的差异,或计算机自动抽词的不准确性,引起标引的失真,但同情报检索语言比较,其失真程度相对要较小些。
5.使用自然语言的局限性:
5.1检全率。影响自然语言检索效率的因素很多,其中,文本用词的不规范性和不显示词间语义关系,是自然语言检索系统的最大的优点,也是对自然语言检索最不利的因素,尤其影响检全率。补救措施是采用编制较好的后控制表。而情报检索语言通过对语词的规范处理和显示概念之间的关系的控制,在要求检全文献方面更胜一筹,这也是它优于自然语言的最主要一点。
5.2检准率。自然语言的标识专指度高,固检准率很高,但由于其复杂的标引方式等因素造成检索时检准率不同程度的下降,所以有些情况并不比情报检索语言检准率高。
5.3检索速度。对于规模小的数据库,检索表达式不复杂,自然语言检索的速度是很快的。对于规模大的数据库,检索表达式较复杂,情报检索语言的检索速度要快于自然语言。
5.4适应性。自然语言只适用于计算机检索系统;情报检索语言既适用于计算机检索系统,也适用于手工检索系统。自然语言在全文检索中占绝对优势,对大型综合性报刊文献数据库和档案文献数据库更适用,但对藏书目录等则不适用。对于高要求的数据库仍应以情报检索语言为主,自然语言只能作为辅助检索途径。
6.完善措施:
一方面自然语言具有成本低、处理时差短、容易被检索者接受、检索率一般较高等优点,在信息呈几何级增长的网络时代无疑是一种相对较为实际的选择;另一方面自然语言存在着表达概念过分自由,语义无关联,词汇无控制的不足,在情报检索中需要放弃某些质量要求,从而影响了检索效率,造成信息检索中无可容忍的信息冗余,这对一些高要求的检索系统是一个致命的缺点。
6.1解决上述问题的出路在于将标引语言与自然语言结合起来,因而出现了标引语言与自然语言结合化的趋势。
(1)以自然语言词汇为基础的主题法,尤其是叙词法,广泛应用于计算机检索系统的文献标引和检索。
(2)标题表和叙词表中入口词的比例逐渐增加,甚至编制专门的入口词表,以更多地将自然语言指向受控词语。
(3)分类法引进并扩大字母标记,增加类目注释,尤其是索引中增加大量的非类名词语,为用户和计算机提供更多的自然语词入口,指向相应的分类号。
(4)此外,标引语言与自然语言结合的趋势还表现在文献标引大量采用自然语言词汇作为标引语言中号码与词汇的补充。
6.2使用后控制词表
自然语言检索方法虽然存在很多问题,但若采取后控制措施,变“前控制”为“后控制”,借助于后控制词表来弥补,会得到很好的解决。后控制词表具有情报检索语言的性质,但比情报检索语言的分类表、词表灵活。
后控制表的性质类似于入口词表,它是一种转换工具,是罗列自然语言检索标识供选择的工具。后控制词表的控制词并非直接用于标引,而是对作为文献检索标识的自然语言词进行控制,建立等同、等级、相关关系。
为了保证较高的检全率而适当降低检准率,情报检索语言要求对标识的专指度进行控制,所以具有概念粗化的弊病,而自然语言在配备后控制词表的控制下,在提高检准率的同时,仍可以保证检全率。
自然语言检索目前还只是处于发展的初级阶段,自然语言检索系统和情报检索语言检索系统两者个有优点而不能相互取代,更不是绝然对立的。随着计算机技术和自然语言系统的发展,情报检索的基本原理——对词汇的控制是永远不会取消的,变化的只是词汇控制的方式、方法和手段。未来的情报检索使用的语言会朝着综合两种检索语言的优点,消除彼此局限为目标,逐步完善检索语言,探寻有效的改进方法,达到一个理想的境界,这也是情报检索发展的主要研究课题。
参考文献:
1.《情报语言学基础》(增订二版) 张琪玉
2.“21世纪情报语言学研究面临的新课题”包冬梅《图书馆学刊》2001.3
3.“科技信息检索中的用户研究”?《图书馆研究与工作》2002.1