如何实现中文文献的自动聚合分类 - 中国搜索技术门户

推荐给好友 上一篇 | 下一篇

如何实现中文文献的自动聚合分类

本站欢迎转载,但任何媒体、网站或个人转载使用时请注明来源:中国搜索门户http://www.cnsousuo.com/viewnews-1604

【中国搜索门户讯】
1.自动分类方法大致可以分为两种:

  一是基于规则的方法,一般由知识库和推理机两大基础部分组成。知识库储存了从专家那里获得的关于某领域的专门知识,推理机具有推理的能力,即根据知识推导出结论,而不仅仅是简单搜索现成的答案。由于需要由知识工程师手工编制大量的推理规则,因此其开发费用是相当昂贵的。

  二是基于数据的机器学习方法,研究从观测样本出发,寻找规律(即利用一些做好标识的训练数据自动地构造分类器),利用这些对未来样本进行预测。现有机器学习的重要理论基础之一是统计学。传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于大数定律的结论。由于基于相对简单的机制,以及实际环境中所表现出来的良好性能,而为大部分文本自动分类系统所采用。

  另外,按照有无训练集,自动分类方法还可以分为归类和聚类:在文本分类过程中,文本的类别可以是预先给定的,也可以是不确定的。前者对应自动分类中的自动归类,后者对应自动分类中的自动聚类。自动归类是分析被分类对象的特征,并与各种类别中对象所具有的共同特征(或一定的分类标准、分类参数)进行比较,然后将对象化归为特征最接近的一类(或最符合标准参数的一类),并赋予相应的分类号。实际上,手工分类一般根据历史的经验先定了类,于是一般分类的问题就蜕化成了归类的问题。自动聚类是从待分类对象中提出特征,然后将提出的全部特征进行比较,再根据一定的原则或需要(如类别数目的规定,或同类对象的相似或接近程度),将具有相同或相近特征的对象定义为一类,并设法使各类中包含的对象大致相等。

2.如何对现有的分类及自动分类系统进行评价?

  随着信息时代的来临,特别是因特网对人们生活的全面介入,信息爆炸的现实使人们越来越注重对自动分类的研究,目前,已经提出了许多理论上较为优秀的分类算法,例如支持向量机、向量空间模型、BAYES方法和决策树方法等,并已经有许多模型系统被开发出来。

1和表2是国内个已经开发的部分系统。

1:国外近年来开发的自动分类系统

序号

时间

完成机构

完成人员

技术特点

1

1994

At&T实验室

David D. Lewis

基于非确定性的自动分类技术

2

1996

At&T实验室

William W. Cohen

电子邮件的自动分类

3

1997

德国Dortmund大学计算机系

Torsten Joachims

基于向量空间模型的自动分类

4

1997

美国Stanford大学计算机系

Daphne Koller

基于很少语料词汇的层次自动分类

5

1998

美国Carnegie mellon大学计算机系

Yiming Yang

采用决策树等聚类算法的在线自动分类

6

1999

美国Just Research公司

Andrew McCallum

运用信息熵理论、Bayes理论等实现多类号的自动分类

7

1999

美国Massachusetts大学计算机系

Jamie Callan

针对文本库的自动分类系统

8

1999年

美国IBM和Oracle公司

 

为推广电子商务研制基于文本内容的电子邮件自动分类

9

1999年

Microsoft公司

 

为其浏览器开发基于内容属性分类的插件

 

2 国内一些自动分类系统

Table 1-1 Some assistant and automatic classification systems


 

评分:0

我来说两句

seccode



完成时间

研制人

单位

类型

主要技术特点

1986

朱兰娟,王永成

上海交通大学计算机系

自动归类系统

类主题词表,检索类主题词累计其类归属度,据Bayes最小损失原则确定分类

1995

苏新宁等

南京大学

自动归类系统

主题词与类号关系表,确定权重系数,分类前控词典,停用词表