private&share

   

------------------------------------------

-=图情=-

 
自然语言检索的语言逻辑论析
作者:pine.lee  发表时间:2006-1-22

 

自然语言检索的语言逻辑论析
[作者] 王金夫
[单位] 上海大学情报学研究中心
[摘要] 从规范语言的合理内在并未消失,自然语言与信息检索的语言关联,自然语言检索组织的语言基础,
情报检索与自然语言检索逻辑的多元化发展等层面,论述自然语言检索的语言逻辑.
[关键词] 情报检索语言,自然语言检索,语言逻辑论析
所谓自然语言检索,就是将千百年来在人类社会生活中自然形成的非形式语言,通过一
定的语言处理技术使之应用于信息检索系统的信息组织,标引与输出.对信息用户而言,自
然语言检索则主要反映在提问输入和对话接口的语言检索方式上.
以往,在自然语言(natural language)与规范语言(controlled language)的使用中,
人们总是偏重于强调它们之间的对立与彼此取代.早先作为人工形式化语言的规范语言,是
因对自然语言需要实施有序控制而出现的;而情报检索中过于规范的语言形式所带来的弊
端,又使曾被否定的自然语言,在新的检索条件下成为一种有生命力的语言.
总之,在现时与未来,自然语言检索的深入应用,意味着检索语言的发展定会出现新的
格局.然而,笔者以为自然语言与规范语言在信息检索方面的交融并存将成为一大发展趋势.
对此,本文拟从自然语言检索的语言逻辑角度,作一基本分析与阐述.
1,规范语言的合理内在并未消失
在情报检索发展的初级阶段,人们面对自然语言的多元与复杂,在检索领域产生了一系
列困惑,通过直观的语言感觉,觉得有必要采用一种人工设计的形式语言,以"类"或"主
题"的概念语词来对自然语言实施"控制".从语言逻辑的观念出发,这是由于:
●自然语言的语句系统在语义解释上既有直接的成分,又有大量间接的成分.间接成分
在检索中造成了词汇转换时在概念与语词对应上的"错位",以及某些概念关系在揭示上的
混乱与隐含.而在语言逻辑系统方面,规范语言通常只具有受到限定的直接易解的语义解释
成分.
●在检索过程中,自然语言的语句系统所形成的句法结构及其规则极为多元,在自动化
检索程度较低的时代,将会极大地影响检索程度和质量.而规范语言的逻辑系统则相对较为
单纯划一.
●自然语言的语句系统在推理的关联性方面较为欠缺,因而影响了检索规律的有效寻求
与推定,而在检索的逻辑结构及语义特征的联系上,规范语言作为一种人工形态的语言,较
能生成并解释受检索语言控制的推理模型.
毫无疑问,无论是哪一种规范语言,只要出于语义解释直接,语言逻辑系统单纯划一,
语言推理易控的检索目的,都必须对人们日常习惯使用的自然语言实施种种转换及限定.然
而,这种对自然语言不断深化的转换及限定,最终却演变为规范语言自身的局限.人们倒过
来觉得还是自然语言最能反映人们进行情报检索时的语言思维习惯.这是因为:①采用文献
使用的原始语言标引,在语言习得上直接而自然对应,可以有效地避免因复杂的分析转换程
序所带来的语词与概念的错位现象,从而加快标引的速度.②用自然语言进行检索具有自然
生成的专指度,从而避免了过于复杂的专指生成程序,也不存在规范语言过于繁复的兼容问
e线图情(http://www.chinalibs.net)2004-9-2
题,这在语言结构上十分有利于系统的对应与资源共享.
然而,更为重要的是,信息化时代的人文发展,客观上已进入了一个新阶段,即:需要
计算机系统去理解人类使用的自然语言,并进行必要的信息处理.这就需要运用形式化的数
学或逻辑方法去分析自然语言的句法,语义和语用诸方面的特征.由于有计算机软件和硬件
的支撑,于是适应计算机系统的自然语言逻辑的研究成果使得自然语言检索系统得到了迅速
发展.有的国家的联机检索,已从只能利用受控的叙词语言进行布尔逻辑检索,演变为能利
用自然语言进行语境逻辑检索.
在标引,检索阶段均使用自然语言检索,固然较为理想,但在实际运行中,由于计算机
系统对自然语言的理解以及对汉语语词切分,识别上的障碍,要完全摈弃任何控制手段,达
到纯自然语言意义上的自动标引与检索,在现阶段依然较为困难.为了提高标引,检索效率,
利于检索策略的合理构造及消除检全与检准率问题上的一些不确定因素,自然语言检索在保
持自身一些基本特征的情况下,又对规范语言某些有效的控制因素作了合理的吸收.
事实上,任何事理及语言形态都不可能完全背离有序化的控制因素,在自然语言检索取
得长足发展的今天,规范语言的合理内在并未消失.
2,自然语言与信息检索的语言关联
计算机检索系统要和自然语言和谐相处,在自然语言的处理上必须遵循常规的语言原
则,即:对自然语言在词形及词的可识别成分方面,进行词汇形态学的处理;对自然语言的
词汇系统,构建有序的控制层面;对自然语言的语词结构,划定符合检索规律的语言句法层
次;使自然语言各种层次的语词及语句单位,在信息检索过程中产生可以释解与对应的语义;
使自然语言检索在程序化的过程中,有效形成利于语义分析顺利进行的语言环境.
在特定条件下,自然语言是指在文献信息中展现的一种原形语言,在利用计算机信息检
索系统进行检索,对信息集合实施特征描绘,语句构建等方面,自然语言具有关键的语言逻
辑作用:
●对庞杂信息源的采集处理以及提问处理,依据一定的方向与目标策略,具有很强的目
的性和选择性.多元的信息,决定了多元化的信息表达与存储方式,在知识信息吸收的意义
上,自然语言最为符合语言习得机制.对特定文献的原形语言以及提问输入和对话接口的检
索方式来说,自然语言的处理,在直接对应的意义上并不多元,因而在信息源及检索提问的
处理上,能在语言描述上做出更为精深的分析提炼.
●对信息检索领域来说,采用自然语言的方式,可以有效解决潜在语义表达上的不匹配
因素,自然语言的语言思维形式,对信息的表达对应性较强,因而有利于形成在语言无损耗
意义上的排序输出问题.
信息检索与自然语言检索的语言关联处理,因方式不同而有所差异.
在不改变规范语言检索系统性质的情况下,采用增补较多入口词,设置专用入口词表及
增设自然语言接口的方式,只是一种以规范语言为框架的语言"调节"方式,至于自然语言
处理技术对信息检索的有机融入,如无标引检索系统中的全文检索以及赋予自然语言标引词
以利自然语言匹配检索的方式,就是一种与规范语言几无关联的自然语言检索系统.
为规范语言词表增加自然语言入口词,以提供用户熟悉的自然语言检索入口,意在提高
不同语言的等同率;利用计算机的换词功能,可为用户提供更多的标引与检索入口.带有指
向,转换作用的入口词所形成的入口词表,可以接受用户的自然语言输入,但通过一定的程
序依然可以自动转换为相应的规范语言.此类充任语言接口的自然语言调节方式,其运行的
效率主要取决于两种语言的对应与转换结构.全文检索所采用的自然语言处理技术,在对信
息单元内容主题句法语义的分析上,需要借助具有一定覆盖面的深层及潜在的语义生成技
e线图情(http://www.chinalibs.net)2004-9-2
术;自然语言匹配检索在语言的关联方面,还需依赖具体语言的对应效能.
以自然语言辅助规范语言或以自然语言为单纯检索语言的方式,在语言的逻辑关联上,
无论是处于标引还是检索阶段,人们往往因滞后或失控的"检索语言障碍"而深感困惑.于
是逐渐觉得较为符合"语言习得"的方式应是:在标引时采用自然语言,而在检索时又增添
一些不那么严格的控制因素.这样,就产生了一种采用规范语言的结构形式对作为标引-检
索用词的自然语言实施控制的"后控词表".于是,在保留自然语言优点的情况下,将原本
属于规范语言特有的"词表"形式用于对自然语言等同,等级,相关关系的显示,从而有利
于解决检索语言使用上的障碍.
作为一种语言转换与信息扩检的工具,这种词表只是对充任检索标识的自然语言通过建
立语义关系来实施控制,生成针对系统的提问标识,因而其控制的词汇对象通常与直接标引
用词的语言选择无关.由于自然语言对应新概念而形成的语词以及"一义多词"现象的不断
出现,加上后控词表的词汇等级结构体系无标引功能,因而在词汇的容纳上能以类目等级的
渐次扩展做到与上述词汇的增长对应,并且对检索表达式用词的自动收集,也可成批或定期
地汇集为词表.
3,自然语言检索组织的语言基础
自然语言检索在组织上既跟检索语言有关又与自然语言逻辑相联.自然语言有着自身句
法,语义以及语用等方面的特点,作为检索语言的一种形态,自然语言又远比规范的人工符
号语言复杂多元,在信息检索领域,企图用一个模式对它的句法,语义乃至语用作统一的处
置是较为困难的.
自然语言检索的主要语言表达在于分析句子的逻辑结构及语义特征,全面理解自然语言
的检索要求,需要对句法结构和语义特征进行精确分析.
自然语言检索的语句系统需要探讨如何由词或短语的意义组合成句子意义的规律.一般
说来,自然语言检索具有系统的特征,句法的表达式可以递归地生成,语义的解释可以建立
起可以理解的模式;因此,自然语言可仿照检索逻辑的惯例去构造句法的形式系统,再配备
相应的表示语义时应予遵循的规则与方法,这就是关于自然语言检索时的语句系统.
该系统在逻辑标示上和规范语言有极大的区别.规范语言较为注重以最少数量的语义选
择单位来表征信息知识单元最多的语义内容,其语义在类的聚合关系上是一种显性结构,其
语义的组合关系在语词之间横向的联系上,又是一种隐性结构.自然语言检索的语句系统符
合语言习得的规律,在与信息内容的对应上并不存在对语义选择单位最少数量的认定问题,
而且在通常的检索结构情况下,其语义在类或等级的聚合关系上几乎与语义的组合关系一
样,并无明显的显性结构倾向.
此外,信息检索在知识信息的语义表示过程中,一般需要对所用词汇进行语义上的控制,
否则,所用词汇的确切涵义就难以确定.对此,规范语言较多地使用在体系中具有固定空间
的词汇以及语义参照注释等手段,并且在计算机检索系统中,还可通过某种语法辅助控制的
手段来达到目的.在以往的信息组织活动中,规范语言的重点是对信息内容的基本语义作出
形式化的语义处理,而由此产生的信息形态,无论在句法还是在语义上,均与用户所要表达
的信息存在一定程序对应上的困难.
自然语言检索则较为顺应用户用以表达信息需求时所使用的语言形式.自然语言检索的
句法与语义表达,更符合用户对事物运动状态,方式及规律在感知或表述上的语言逻辑形态,
因而,至少在语用信息层次上,自然语言检索较能反映信息检索系统运行的根本宗旨.然而,
自然语言毕竟存在许多语义表述上的含混,应当采用适当的语义结构形式去生成检索系统在
信息表达深层结构中的语义.即:自然语言检索应顺从用户在表达信息所需时所采用的知识
e线图情(http://www.chinalibs.net)2004-9-2
语言形式,在采用专用自然语言入口词表,自然语言入口词汇,后控词表检索及受控与自由
词共存词汇文档等方法的同时,应特别注重上述方式的交互进化,最终建立一个对自然语言
的理解体系,这个体系将有效地完成对信息源语用信息与用户语用信息的对接或匹配,在自
然语言的格局下有效地解决与人工语言的接口转换问题.
此外,自然语言检索依据词汇间的语法关系,还必须按照某种检索逻辑规则,形成一些
基本的语义结构,如采用布尔代数中的逻辑和运算方式对词汇进行组配,使之能准确表达特
定的检索概念意义;从特定的认识角度出发,使用适当的词汇引用次序方案来排定或固化各
个主题因素的组合排列次序;使用联系符号,职能符号以及赋予相应权值的方式,对不同层
次的词汇语义表达进行必要的语法限定;在形态各异的语义检索中,对词汇之间可能的语义
关联采用一定的语法指引手段等.
4,情报检索与自然语言检索逻辑的多元化发展
属于语言逻辑的自然语言的逻辑推演系统,在特定的学科层面上与服从检索逻辑的自然
语言系统,有着巨大的差异.这种差异主要表现在检索语言逻辑与理论语言学的逻辑形态分
属两个明显不同的知识范畴,其内涵与外延不尽相同.然而,作为检索语言特定形式的自然
语言,也有属于自身的多元化发展的语言逻辑体系,而且,对情报检索产生了深刻的语言结
构与语义表达方面的影响.
从历史纵向的角度看,自然语言检索逻辑体现出多元化的发展趋势.早先因对自然语言
需要实施有序控制而出现了规范语言,而过于规范的语言形式所带来的弊端,又使自然语言
在新的检索条件下成为一种有生命力的语言,在标引与检索的不同的发展阶段形成了众多的
应用方式,如具有一定检索深度,与全文检索技术相对应的无标引;采用各种算法将自然语
言与抽词词典匹配的抽词标引;从文摘,正文等方面抽取关键词,基于题名的增补关键词标
引;标引专指度较高,且款目与自然语言对应的词串标引;以及自然语言应用上的后控词表,
入口词表,切分词典方式等.
从横向角度看也是如此.按照现代情报检索逻辑的原则,应将自然语言看作是一种语义
符号形式系统,可以按照一定的参照形式语义模型进行解释,从语义学的角度去分析自然语
言检索的语义特征.因此,自然语言逻辑既有情报检索语言的结构成分,又有特定的检索逻
辑表达问题.不仅如此,从情报检索计算机理解自然语言的角度看,自然语言逻辑又与计算
语言学的需要密切相关:它的语句系统的构造上应顺应语言的计算机处理,形成具有自然语
言特色的逻辑推演系统,这在相当程度上取决于计算机人工智能学的研究进程.
以往从一般语言逻辑的角度出发分析自然语言的结构或语义,在很大程度上取决于经验
直觉或分析技能.情报检索逻辑虽不能完全避免,但是随着特定的语言分析程序的应运而生,
自然语言逻辑方式也会对计算机人工智能等信息科学产生影响.也就是说,对自然语言检索
的分析必须采取适合计算机处理的语言方式,自然语言检索必须建立符合情报检索逻辑的构
造部分与语句系统.
由此看来,情报检索与自然语言检索逻辑的多元化发展方向取决于3大内容要素:
第一内容要素与情报语言学相关,即:对自然语言进行检索逻辑分析.自然语言逻辑的
研究对象固然是语言,但它与情报语言有什么关系呢
笔者认为,自然语言检索逻辑虽然也研究自然语言,但它首先关注的应是情报检索过程
中的语言条件,意义与价值.与情报检索无关联的自然语言形态应和情报检索环境中的自然
语言逻辑无关.这表明自然语言检索逻辑的处理对象虽是自然语言,但必须明确这是一种情
报检索形态结构的语言.在这个意义上,自然语言与规范语言一样,也是一种情报检索语言.
由于其符合情报检索的基本要素与规律,同样具有情报语言的普遍特征.
e线图情(http://www.chinalibs.net)2004-9-2
这就意味着情报检索与自然语言检索逻辑的多元化发展在检索要素与规律的服从上,必
须走与规范语言逻辑的互补之路.
在把自然语言看作是同逻辑语言本质上相同的符号系统的基础上,如果我们认同它是一
种情报语言,那么,第二内容要素显然与对自然语言进行系统处理,并且从中挖掘影响检索
逻辑推理因素的"构造部分语句系统"有关.
上述系统的研究应充分吸收语言学上自然语言逻辑及情报检索领域语言组织的有效而
多元的理论成果.其检索逻辑,检索语言和计算机检索结合的多元组合模式,或者说,上述
组合所形成的自然语言语句系统,不仅能为构建相关的逻辑推演系统创造条件,为计算机自
然语言的处理提供依据,而且能对计算机人工智能等信息科学产生影响,是引发第三内容要
素的重要前提.
情报检索与自然语言检索逻辑多元化发展的第三内容要素是创建以自然语言检索特色
为主的语言逻辑推演系统.这个系统能从用户的语言出发,对语句的语境因素及认知心理特
征给予充分关注.有的领域的自然语言检索可以采用较为简洁的语言规则和类型去表达检索
命题的语义特征,有的领域则可在情报检索过程中使用程序化处理方式来生成语义组合意义
上的自然语言语义的演绎模型.
总之,自然语言在检索逻辑上经过形式化处理后,所揭示出来的内在结构较易显示情报
检索具有推演关系的语义结构.因此,虽然以规范语言为本的检索趋势或许不再存在,但自
然语言在检索逻辑意义上的形式化处理是终究离不开"类规范语言"式的辅助因素的.
参考文献
1,宋明亮.论对自然语言的控制.情报理论与实践,1994(2):27-30
2,汪东玻.规范语言与自然语言情报检索研究.图书情报知识,1986(3):33-34
3,李法勇.谈自然语言检索的发展.情报理论与实践,1997(5):260-262
4,寇均锋.论情报检索语言的自然语言化发展趋势.中国图书馆学报,1999(3):28-31
5,黄敏.自然语言处理与信息检索.图书情报工作,2001(4):41-44
e线图情(http://www.chinalibs.net)2004-9-

----------------------------------------
 

 

pine.lee发表于:工作中心  


 

全部分类中有 1 篇日志 | 每页显示 1 篇
留言内容(共有条)


{CommentAuthor}评论说:
{CommentContent}

--- {CommentTime} {CommentUrl}


 

流年--似水


也说--几句


 来来--往往


 

 快速--登陆

*用户名:
*密   码:

 


日志--搜索


踩上--几脚

 
pine 最新的 20 条日志
 

 

 

Designed By UBABY--2005