WEB超链分析算法纵览

上一篇 / 下一篇  2009-01-07 01:31:40 / 个人分类:爬虫采集

  • 文件大小: 41.6 KB
文件格式
  • 文件格式:word

1.引言

   万维网WWWWorld Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。1998WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到9个月的时间文档总数就会翻一番[14]WEB上的文档和传统的文档比较,有很多新的特点,它们是分布的,异构的,无结构或者半结构的,这就对传统信息检索技术提出了新的挑战。

   传统的WEB搜索引擎大多数是基于关键字匹配的,返回的结果是包含查询项的文档,也有基于目录分类的搜索引擎。这些搜索引擎的结果并不令人满意。有些站点有意提高关键字出现的频率来提高自身在搜索引擎中的重要性,破坏搜索引擎结果的客观性和准确性。另外,有些重要的网页并不包含查询项。搜索引擎的分类目录也不可能把所有的分类考虑全面,并且目录大多靠人工维护,主观性强,费用高,更新速度慢[2]

   最近几年,许多研究者发现,WWW超链结构是个非常丰富和重要的资源,如果能够充分利用的话,可以极大的提高检索结果的质量。基于这种超链分析的思想,Sergey BrinLawrence Page1998年提出了PageRank算法[1],同年J. Kleinberg提出了HITS算法[5],其它一些学者也相继提出了另外的链接分析算法,如SALSAPHITSBayesian等算法。这些算法有的已经在实际的系统中实现和使用,并且取得了良好的效果。

   文章的第2部分按照时间顺序详细剖析了各种链接分析算法,对不同的算法进行了比较。第3部分对这些算法做了评价和总结,指出了存在的问题和改进方向。

点击下列原文下载

TAG: 算法 超链

sonnyjou的个人空间 引用 删除 sonnyjou   /   2009-02-18 17:09:07
原帖由renavatior于2009-02-18 15:17:34发表
我怎么看不到文章的第2部分和第3部分呢

点击下载,这是下载资源区,有完整的word档
renavatior的个人空间 引用 删除 renavatior   /   2009-02-18 15:17:34
我怎么看不到文章的第2部分和第3部分呢
sonnyjou的个人空间 引用 删除 sonnyjou   /   2009-02-08 22:54:06
可以通过发帖等方法获得积分
akululu的个人空间 引用 删除 akululu   /   2009-01-09 22:45:38
没有钱啊,怎么办
 

评分:0

我来说两句

显示全部

:loveliness: :handshake :victory: :funk: :time: :kiss: :call: :hug: :lol :'( :Q :L ;P :$ :P :o :@ :D :( :)

日历

« 2010-07-29  
    123
45678910
11121314151617
18192021222324
25262728293031

我的存档

数据统计

  • 访问量: 2675
  • 文件数: 48
  • 建立时间: 2009-01-06
  • 更新时间: 2009-01-07

RSS订阅

Open Toolbar