Algorithm 版 (精华区)

发信人: AA (积极的人生、美好的人生), 信区: Algorithm
标  题: 基于特征关联度与猜测规则的未登录词词类分析策略(zz
发信站: 哈工大紫丁香 (2002年05月23日10:26:31 星期四), 站内信件


一种基于特征关联度与猜测规则的未登录词词类分析策略*
摘要 本文提出了英汉机译中一种基于特征关联度与猜测规则的未登录词词类分析策略。
首先,通过评价未登录词与其所有相关词之间的关联度,寻求与其关联度最大的相关词
。其次,比较相关词与未登录词,将其转换为三元组的表示形式。最后,依据词类猜测
规则,获取其可能的词类标记序列。实验结果说明,该方法可以大约94.3%的召回率、7
6.1%的精确率及94.6%的覆盖率,来识别未登录词,从而有效地提高英汉机译质量,改善
系统整体性能。
【关键词】词类分析,未登录词,相关词,特征关联度,猜测规则。
1、前言
    在自然语言处理中,当由词典条目确认一个单词时,词层分析系统或词法分析器为
其产生所有合理的词类标记序列,并从中选择正确的词类标记。但词法分析器不能正确
分析未登录词,因为未登录词不存在于所使用的词典之中,造成词法分析器在词典确认
中拒绝分析正确的单词序列。因此,对于词典未登录的单词,存在一个词类标注的重要
问题。
1.1存在的方法
    目前一般是采用“猜测”策略处理未登录词,将这种单词词类猜测器作为自然语言
应用系统的一个基本组成。猜测器利用对于单词特征的分析,例如,单词的领头及跟随
字符,以指出其最可能的词类类别。猜测器的实现方法主要分为两种:
* 基于猜测规则的方法—利用简单的非随机猜测规则直接编码语言学信息,基于未登录
词词法特征将其激发,猜测其最可能的词类标记[1];
* 基于概率统计的方法—如果一个未登录词具有一个具体的词类标记,其大写字母书写
及结尾等重要特征的概率,通过已建立的随机数学模型,计算每一个未登录词的传播概
率,来猜测其词类标记[2]。
1.2所提出方法的纲要
    在早期实现的英汉机译系统中,对于在英语源文本分析中所遇到的未登录词,只是
简单地基于词典未确认信息,分配名词性的知识作为缺省词类标记,并未充分标识。由
于在机器翻译中,只有源语言文本分析正确,才能生成正确对应的目标语言文本,因此
未登录词处理好坏在很大程度上影响着机译系统的精确率。为此,在本文,提出一种基
于特征关联度与猜测规则的未登录词词类分析策略,它不仅采用基于猜测规则的传统词
类分析方法,而且建立一种基于特征关联度的评价机制,更为有效地抽取未登录词的相
关词,为进一步的词类分析奠定基础。首先,由未登录词组成特征,根据关联度评价标
准,获取与其关联度最大的相关词。其次,通过比较所获得相关词与未登录词,将未登
录词转换为三元组的表示形式。最后,依照猜测规则,获取未登录词最终的词类分析结
果。在图1中说明模型的总体结构。
图1、基于特征关联度与猜测规则的未登录词词类分析模型
2、未登录词预处理
    尽管对于英语,词法分析器的覆盖范围具有大约27,500个单词与26,400个词组,这
是非常令人满意的。但在所处理的语料库中,不可避免地存在词法分析器未识别的形式
—未登录词。这些形式经常是外国专有名词,或为语言学所接纳而不存在于机器可读词
典中的单词,或为非常晦涩的工程技术术语。
    对于未登录词,首先需要进行预处理,如果这些单词所包含的字母全部大写,则自
然为其分配最可能的词类标记,即作为专有名词(Proper Noun),否则分配作为普通名词
的词类标记(Common Noun)。对于包含特殊字符的未登录词,构造一种“词法启发式”的
简单规则描述形式进行处理。例如:
* If SpecialCharacter='.', then PosTag="NUM".
    即,如果未登录词中包含特殊字符".",则分配其最可能的词类标记为数词(NUM)。

* If SpecialCharacter='-', then PosTag="ADJ".
    即,如果未登录词中包含特殊字符"-",则分配其最可能的词类标记为形容词(ADJ)

    对于经过预处理之后所保留的未登录词,虽然已分配初始词类标记—普通名词,但
并不说明这是最终的词类分析结果,仍需进行以下处理,获取最终正确的词类标记。
3、基于特征关联度的相关词获取
    相关词获取的关键在于计算每个未登录词与机器可读词典中相关单词特征之间的关
联度。相似的单词倾向于具有相同或相近的字母组合,词与组合词的字母在该方法中起
重要作用。一个单词由它所包含的字母集合表示,单词类似于包含相似字母组合的相关
词的扩展。相关词获取是以基于特征关联度的评价机制为核心,以标准化特征向量的构
造及关联度评价为基础。首先,描述以下定义及原则:
[定义1]标准化特征向量—所谓特征向量,就是指对于所建立的对象,采用向量形式,确
切地描述对象自身特征或对象之间的联系,其中以反映对象特征或对象间联系的因素作
为向量的元素。而遵循标准化准则,经过标准化处理的特征向量,即为标准化特征向量

[定义2]关联度—遵循关联度评价准则,利用关联度描述对象之间的相似程度。
[原则1]标准化原则—对特征向量有必要进行标准化处理,使其具有相同的长度。
    设特征向量,对于中的每个:
,              其中,。
[原则2]关联度评价原则—设标准化特征向量与 ,二者之间的关联度按如下公式计算:


3.1未登录词特征向量的构造
    设,其中为未登录词中的字母组合情形,取值可为0或1,即,如果包含该字母,向
量元素所对应的值为1,否则为0,为未登录词长度。对于未登录词初始特征向量,最初
均为相同出现,即为1。
    遵循标准化原则,将初始特征向量经过标准化处理,即可获得标准化特征向量。
3.2相关词特征向量的构造
    利用正向匹配法,寻求机器可读词典中能与未登录词中部分字母组合相匹配的已知
单词,循环往复,直至不能寻找到适合匹配为止。如果未发现任何匹配,则去除未登录
词的第一个领头字母,重复以上过程。如果所查找到的适合匹配计数超过1,则认为相关
词查找成功。否则,如果去除领头字母数目超过4,仍未寻找到适合匹配,则证明查找失
败。
    对于成功查找所获取的相关词,为利用向量表现其特征,必须将其向量化。以未登
录词初始向量为标准,建立相关词词特征向量 ,其中为未登录词长度,为相关词数目。
其中字母-字母一一对应位置,向量元素值为1,其余字母-字母未对应位置,向量元素值
为0。
    遵循标准化原则,将相关词特征向量进行标准化处理,即可获得标准化特征向量。

3.3关联度评价
    决定未登录词最终的相关词,是通过未登录词与所有相关词之间的关联度评价来实现
。遵循关联度评价原则,评价未登录词与所获得的每一相关词的两种标准化特征向量之
间的关联度,获得关联度向量。
    关联度越大,未登录词与该相关词越相似。未登录词的最终相关词即为具有最大关
联度的相关词。
3.4未登录词至三元组的转换
    将所获取的相关词特征向量与未登录词特征向量相比较,相关词特征向量中为0的元
素即为与未登录词特征向量不同之处。通过该差异,即可判断相关词与未登录词相差的
字母组合。若相关词需在左侧添加字母组合,才能形成未登录词本身,即可将左侧所需
添加的字母组合看作为未登录词的前缀。若相关词需在右侧添加字母组合,才能形成未
登录词,即可将右侧所需添加的字母组合看作为未登录词的后缀或结尾。若相关词两侧
均需添加字母组合,则可分别将左右两侧所需添加字母组合看作为未登录词前缀与后缀
或结尾。最终,将未登录词转换为三元组的的描述形式,即为UW=(P,RW,SE)。其中:
        P(Prefix)—为未登录词前缀本身,若不存在,以Null作为缺省值;
    RW(RelWord)—为未登录词的相关词;
    SE(SE)—为未登录词的后缀或结尾本身,若不存在,也以Null作为缺省值。
    将所形成的未登录词三元组作为基于猜测规则的词类标记获取的基础。
4、基于猜测规则的词类标记获取
    对于未登录词三元组,利用两种猜测规则获取其最可能的词类标记,即词法猜测规
则与结尾猜测规则。一个<简单的猜测规则>相当于自然语言中的一个简单的“条件句”
,其基本形式如下:
          <Rule-ClassNumber>:<Test> => <Perform Operation>。
其中:<Rule-ClassNumber>为该条猜测规则的分类顺序号,<Test>为测试内容;<Perfo
rm Operation>所需执行的操作。
4.1基于词法猜测规则的词类标记获取
    词法单词猜测规则描述,给定一个已知单词的词类标记,及未登录词的词法特征,
怎样猜测其最可能的词类标记。在英语中,如在其它语言中,词法单词形成由添加词缀
实现:添加前缀与添加后缀。尽管有时添加词缀不仅仅是词缀与词干的直接串联,但可
以清楚地看到,多数情形还是遵循于简单的串联规律性。因此,首先仅集中于简单的串
联实例。存在两种词法规则:后缀词法规则(Suffix Rule)—应用于未登录词尾部的规则
,及前缀词法规则(Prefix Rule)—应用于未登录词起始部分的规则。
    后缀规则的一个样本为:
        SR:<"ed" (NOUN,VERB)> => <(ADJ,VERBD,VERBN)>。
    该规则说明,如果未登录词具有后缀"ed",相关词词类标记为名词或形容词(NOUN,
VERB),则未登录词的词类标记为形容词、动词过去式或动词过去分词(ADJ,VERBD,VERB
N)。例如,单词booked[Null, book,ed],及watered[Null,water,ed],等等。
    后缀规则的一个样本为:
        SR:<"ly" (ADJ)> => <(ADV)>。
    该规则说明,如果未登录词具有后缀"ly",相关词词类标记为形容词(ADJ),则未登
录词的词类标记为副词(ADV)。例如,单词automatically [Null,automatical,ly],及
completely[Null,complete,ly],等等。
    后缀规则的一个样本为:
        SR:<"er" (NOUN,VERB)> => <(NOUN)>。
    该规则说明,如果未登录词具有后缀"er",相关词词类标记为名词或形容词(NOUN,
VERB),则未登录词的词类标记为名词(NOUN)。例如,单词tensioner [Null,tension,e
r],及filler[Null,fill,er],等等。
    前缀规则的一个样本为:
    PR:<"un" (VERBD,VERBN)> => <(ADJ)>。
    该规则说明,如果未登录词具有前缀"un",相关词词类标记为动词过去式或动词过
去分词(VERBD, VERBN),则未登录词的词类标记为形容词(ADJ)。例如,对于单词uncov
ered[un,cover,ed],等等。
4.2基于结尾猜测规则的词类标记获取
    与词法猜测规则不同,结尾猜测规则(Ending Rule)不要求机器可读词典中列出一个
未登录词的主要形式。这些规则仅基于未登录词的结尾字符猜测其最可能的词类,而不
需要依赖于相关词的词类标记。这种规则与词法猜测规则相比较,能够覆盖更多的未登
录词,但它们的精确率并不高。
    结尾规则的一个样本为:
    ER:<Null,VERB,"ing"> => <(ADJ,NOUN,VERBG)>。
    该规则说明,如果未登录词以"ing"结尾,其可能的词类标记为形容词、名词或动名
词(ADJ,NOUN, VERBG)。例如,单词buying[Null,buy,ing],going[Null,go,ing]等等。
与词法规则不同,该规则不请求检查是否"ing"结尾前面的字符串是具有词类标记的单词
。因此,结尾猜测规则与词法猜测规则显著不同。
5、实验测试与评价
5.1标注语料库的建立
标准语料库通过首先应用预处理器与词法分析器测试文本来创建。创建是基于美国克雷
斯勒汽车公司关于汽车配件的真实语料库。所建立的标准语料库包含克雷斯勒真实语料
库中的大约3,000个句子,将该整个语料库分割为三个子语料库,作为测试语料库,利用
基于特征关联度与猜测规则的未登录词词类分析策略进行测试。表1给出在测试之前,三
个标准语料库中的基本统计状况。
语料库编码
句子总数
单词总数
未登录词总数
B1500
1,500
18,230
1,024
B1000
1,000
7,147
270
B700
750
9.270
493
表1:标准语料库中的基本统计状况
5.2实验测试
    将词类标记集合分配给具体单词的任务,非常相似于文件分类的任务,其性能可测
量如下:
* ;
* ;
* 。
    在针对未登录词及整个文本的词类分析精确率的评价中,注意两种度量:
* 未登录词中的词类分析精确率:。
* 整体词类分析性能的测量:。
使用非常完善的词典,通过词类分析器与未登录词处理器标注三个标准语料库中的文本
。表2给出针对三个标准语料库中未登录词的词类分析结果。表3总结测试语料库中的整
体分析结果。
语料库编码
召回率
精确率
覆盖率
B1500
94.437%
75.106%
94.628%
B1000
93.214%
77.315%
93.529%
B700
95.413%
74.793%
95.807%
表2:测试语料库中的未登录词词类分析结果
语料库编码
整体标注错误
未登录词错误
整体得分
未登录词得分
B1500
464
85
97.452%
91.688%
B1000
205
21
97.126%
92.109%
B700
106
53
98.852%
89.259%
表3:测试语料库整体词类分析结果
5.3结果评价
    观察测试语料库的词类分析结果,可以看到,其中产生以下分析错误:
    当猜测器为未登录词提供更为广泛的词类类别时,使分析器具有消除这种类别歧义
的困难。这是具有"ing"的未登录词的特别情形,这些未登录词一般执行功能作为名词、
形容词,及动名词,并且仅直接的词典编辑可限制查找空间。例如,未登录词"going",
不能作为形容词,而只能作为名词与动名词。
6、结论
    本文主要介绍了英汉机译中针对英语的一种未登录词词类分析策略,即,基于特征
关联度评价与猜测规则,获取对于词典未登录的单词的可能词类标记。同时,建议一种
评价方法,单独致力于未登录词词类猜测器的性能测量。对于测试集合,建立三个标准
语料库作为测试语料库,从猜测器局部性能至词类分析器整体性能,作出完整度量。从
实验结果可以看出,通过所建立的未登录词词类分析策略,可以大约93.2%-95.4%的召回
率,74.8%-77.3%的精确率,及93.5%-95.8%的覆盖率,来识别未登录词。另一方面,未
登录词分析具有89.2%-92.1%的精确率,这对于整体词类分析性能的完善,具有很大促进
,整体性能提高至大约97.1%-98.8%。因此,本文所提出的针对英语的未登录词词类分析
策略,对于真实文本的分析是非常有益的,从而有效地提高英汉机器翻译质量,改善系
统整体性能。
参考文献
1. E. Brill, Transformation-based error-driven learning and natural language
 processing:a case study in part-of-speech tagging, in Computational Linguis
tics 21(4), 1995.
2. R. Weischedel,M. Meter,R. Schwartz,L. Ramshaw and J. Palmucci, Coping wit
h ambiguity and unknown words through probabilistic models, in Computational
 Linguistics, vol 19/2, 1993.
3. J. Kupiec, Robust Part-of-Speech Tagging Using a Hidden Markov Model, in
Computer Speech and Language, 1992.
4. E. Tzoukermann,D.R. Radev,and W.A. Gale, Combining Linguistic Knowledge a
nd Statistical Learning in French Part of Speech Tagging, in EACL SIGDAT Wor
kshop, 1995.
5. Voutilainen, A Syntax-based Part-of-Speech Analyser, in Proceedings of th
e Seventh Conference of European Chapter of the Association for Computationa
l Linguistics(EACL), 1995.
6. Jean-Pierre Chanod and Pasi Tapanainen, Creating a tagset,lexicon and gue
sser for a French tagger, in Computational Linguistics, 1995.
7. 姚天顺,《自然语言理解:一种让机器懂得人类语言的研究》,清华大学出版社,1
995。
8. 刘开瑛等,语料库词类自动标注算法研究,中文信息学报,1994。
* 本文受国家自然科学基金(编号:69675019)和国家教委博士点专项基金资助。
1 张玥杰,女,24岁,博士研究生。
2 张跃,男,22岁,硕士研究生。
3 姚天顺,男,63岁,教授,博士生导师。

--
                人世间的事谁也无法掌握
                  该执著的  永不怨悔
                  改舍去的  不在牵挂
                  改珍惜的  好好把握

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: NLPCenter.hit.edu.cn]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:206.930毫秒