自动分词中的单字虚词处理 - 中国搜索技术门户

推荐给好友 上一篇 | 下一篇

自动分词中的单字虚词处理

本站欢迎转载,但任何媒体、网站或个人转载使用时请注明来源:中国搜索门户http://www.cnsousuo.com/viewnews-910

【中国搜索门户讯】
李小明1 王亚莉2 易立夫 杨 静 孙金城
(中国科学院声学研究所讯飞语音实验室,北京,100080)
(1 清华大学热能系,北京,100084)
(2 北京大学中文系,北京,100871)
摘 要
文语转换系统中自动分词的理想结果是和人朗读习惯相符合的韵律词。在利用词库切分
文本之后,处理语句中残留的大量单字虚词就成了完善切分结果的重要步骤。本文主要探讨
在汉语自动分词中如何对虚词进行处理,尝试利用词性和词长等因素对特定的虚词制定一些
规则,从而在实际应用时系统可以根据这些规则来确定虚词与前后字或词组的归属与结构。
引 言
一般认为汉语虚词中包括五类:副词、介词、连词、助词和语气词。据统计,常用的单
字虚词有300 个左右,且这些字的出现概率相当高。这些虚词虽然在文本中以单字形式出现,
但人们实际朗读时往往会或是与前面的结构连读,或是与后面的结构连读,或是通过该虚词
把前后结构联系在一起。
如果在分词后不对这些虚词进行处理,就会造成分词后句子中残留大量的单字词,这不
仅跟人们的朗读习惯不符,也给后端的语音学的韵律处理带来麻烦,会直接影响到合成语言
的自然度。
本文主要探讨在汉语自动分词中如何对虚词进行处理,尝试利用词性和词长等因素对特
定的虚词制定一些规则,从而在实际应用时系统可以根据这些规则来确定虚词与前后字或词
组的归属与结构。对加上虚词规则的文语转换系统的测试证明,经过这样的处理后,句子中
基本上不再存在单字词结构,句子划分更有组织,也更接近常人的朗读习惯,提高了合成语
音的自然度。
1 单字虚词处理前的自动分词
据笔者统计,句子中出现单字虚词的概率差不多在90%以上,这些句子由于单字虚词的
存在,自动分词后整个句子的结构仍然是支离破碎。
表一:词性对应的标记
词性 副词 连词 介词 助词
标记 d c p u
337
下面我们举几个单字虚词处理前的自动分词结果和相应的理想的韵律分词结果:
1a.妹妹 / 不(d) / 想 / 理会 / 那个 / 小孩。
1b.妹妹 / 不想 / 理会 / 那个 / 小孩。
2a.他 / 从(p) / 篮子 / 里 / 掏 / 出 / 手枪。
2b.他 / 从篮子里 / 掏出 / 手枪。
3a.老鹰 / 能够 / 飞 / 得(u) / 很(d) / 高。
3b.老鹰 / 能够 / 飞得很高。
4a.那个 / 村庄 / 远 / 虽(c) / 远,却(d) / 是 / 离 / 我们 / 最(d) / 近 /
的(u) / 一个。
4b.那个 / 村庄 / 远虽远,却是 / 离我们 / 最近的 / 一个。
从上面几个例句可以看出,自动分词结果和理想的韵律分词结果的差距主要就在于其中
一些单字虚词的处理。所以说,在自动分词完成后,单字虚词的处理就显得必不可少。
2 规则的考虑因素
虚词虽然比实词少得多,但是虚词的意义比实词虚得多,不易捉摸,虚词的用法相当复
杂,而且个性很强。从语法意义上来说,副词修饰动词和形容词,但是应用到分词时并不能
这样简单的应用。比如说“他的话我一点都听不懂”这一句,利用简单的副词修饰动词、形
容词的规则划分出的结果肯定是不对的,分词要做到的理想结果是把“听不懂”作为一个韵
律词。虚词的个性要强于共性,这就要求我们为一些常见的单字虚词逐一制定规则。
虚词中的语气词与其他四种词相比,其共性是主导因素。语气词主要出现在句末位置,
分词时一般将它和前一位置的词组合成韵律词,所以这里就无需专门为语气词来制定规则。
笔者制定规则主要就针对副词、介词、连词和助词。
制定虚词处理的规则主要从下面几个方面来考虑:
(1)虚词前后词的词性
有些虚词划分的韵律词是和词性紧密相关的,此时怎样组合成韵律词就取决于前后词的
词性。示例:
1a.胜者 / 或(d) / 因(c) / 其强,或(d) / 因(c) / 其 / 指挥 / 无误。
1b.胜者 / 或因 / 其强,或因 / 其 / 指挥 / 无误。
2a.他 / 因(d) / 故 / 未能 / 出席。
2b.他 / 因故 / 未能 / 出席。
连词“因”在前面有副词、连词的情况下,首先与前面的虚词组合成韵律词;如果前面
无副词、连词,那么就会和后面的名词、形容词组合成韵律词。
这种情况主要是在多个单字虚词相邻时出现。
(2)虚词前后词的长度
虚词前后词的长度也很重要,许多虚词偏向于和音节数较少的词组合成韵律词。示例:
1a.我 / 和(c) / 妹妹 / 去 / 出差。
1b.我和 / 妹妹 / 去 / 出差。
2a.动物 / 和(c) / 人 / 怎么能 / 相提并论 / 呢?
2b.动物 / 和人 / 怎么能 / 相提并论呢?
338
3a.这 / 两种 / 不同 / 的(u) / 方针 / 其实 / 就是 / 放 / 和(c) / 收。
3b.这 / 两种 / 不同的 / 方针 / 其实 / 就是 / 放和收。
连词“和”组合的韵律词往往就取决于前后词的长度,如果前面的词长,那么就和后面
的词组合成韵律词;如果后面的词长,那么就和前面的词组合成韵律词;如果前后词的长度
一样且均为单字词,那么就和前后两个词一起组合成韵律词。
(3)前后出现一些特定字
有些虚词常常在某些特定的字出现时组合成一种固定结构的韵律词,笔者觉得这是语言
长期发展形成的一种习惯性用法。示例:
1a.这件 / 衣服 / 的(u) / 颜色 / 好 / 得(u) / 很(d)。
1b.这件 / 衣服的 / 颜色 / 好得很。
2a.一会儿 / 功夫,茶 / 啊 / 水 / 的(u) / 全(d) / 上来 / 了。
2b.一会儿 / 功夫,茶啊水的 / 全 / 上来了。
句1 中的助词“得”就存在着这样一种习惯性用法:形容词或者动词加“得”再加“很”、
“慌”、“多”等单字,组成一个韵律词,比如说“累得很”、“愿意得很”、“颠得慌”、“热得
慌”、“安静得多”、“长得多”等。
句2 中的助词“的”有着类似“诗啊信的”、“说啊笑的”结构的韵律词。
这种情况在句中出现的概率并不大,但是一旦出现,肯定会造成句中存在大量的单字词。
对这种情况的处理也是有必要的。
3 规则的制定和使用
3.1 制定规则
实际制定规则时需要考察虚词常出现的句子环境,综合考虑词性、词长和特定字这三个
因素,把可能存在的句子环境进行归类,让每一类包含尽可能多的句子环境,从而达到可以
利用规则来分出包含单字虚词的韵律词的目的。
这里以介词“照”为例,根据“照”经常出现的句子环境,就可以制定出如下几条规则:
a. 前面出现词长为1 的动词或代词或副词
b. 后面出现不定词长的名词或代词
c. 后面出现不定词长的名词或代词,再后面紧跟“说”或“看”
实际上这些规则按照如下的格式来写:
a. 动词/代词/副词(词长为1)+照
b.照+名词/代词(词长不限)
c.照+名词/代词(词长不限)+说/看
如果单字虚词的后续处理中要使用到词性这个属性,那么也可以给组合成的韵律词添加
相应的词性。
3.2 规则的优先级
实际使用时我们要考虑优先级的问题,多个规则在一起很容易发生冲突,调节好规则的
使用顺序是发挥虚词规则作用的保证。这里主要涉及到两个优先级的问题:
(1)同一虚词的不同规则间的优先级
同一虚词可能会总结出若干规则,如果虚词所在环境和两个或者两个以上的规则相匹配,
339
这时就会出现同一虚词的不同规则间的冲突。实际上在这种情况下肯定只能使用一种规则来
匹配这个虚词,这就需要我们事先确定虚词规则的优先级。
同一虚词不同规则间的优先级按照以下顺序:
a.含有特定字的规则
b.有词长限制的规则,如果有多个包含词长限制的规则,词长短的在前
c.其他规则
按照这个标准,前面所述介词“照”的规则在规则库中的实际顺序就是c、a、b。
(2)不同虚词的规则间的优先级
在句中出现多个虚词时,很容易出现这种情况:利用规则匹配时,两个不同虚词都要求
和同一个词组合成韵律词。
这时可以按照下面的顺序来匹配:
a.组合音节数量最多的规则
b.助词、副词、介词、连词依次处理
4 结 束 语
单字虚词的处理是在自动分词的结果上进行的,其中牵涉到词性和词长的属性,这实际
上是自动分词的有效补充。经过单字虚词的处理,句子基本划分成了韵律词的组合,这对于
提高文语转换系统的自然度很有帮助。
参 考 文 献
[1] 吕叔湘等,语法研究入门,商务印书馆,北京,2000.3
[2] 刘利等,语法应用通则,春风文艺出版社,沈阳,1999.3
[3] 侯学超等,现代汉语虚词词典,北京大学出版社,北京,1998.5
[4] 应宏等,结构助词在韵律短语界定中的作用,第四届语音学会议
[5] 陆俭明等,现代汉语虚词散论,北京大学出版社,北京,1985.7
[6] 张斌等,现代汉语虚词,华东师范大学出版社,上海,2000.4
[7] 唐启运等,汉语虚词词典,广东人民出版社,广州,1989.5


TAG: 分词 单字 虚词
 

评分:0

我来说两句

seccode