竹坞无尘水槛清,相思迢递隔重城。 秋阴不散霜飞晚,留得枯荷听雨声。


搜索引擎联邦算法设计与系统实现

上一篇 / 下一篇  2009-04-28 13:43:58 / 个人分类:算法设计

【英文题名】Algorithm Design and System Implementation of Search Engine Confederation
【作者】刘辉;
【导师】李星;
【学位授予单位】清华大学;
【学科专业名称】信息与通信工程
【学位年度】2004
【论文级别】硕士
【网络出版投稿人】清华大学;刘辉
【网络出版投稿时间】2005-04-21
关键词索引联邦;索引优化;网页排序算法;数据库排序;日志分析;
【英文关键词】search engine confederation;inverted index optimizing;webpage ranking;database ranking;log analysis;
【中文摘要】随着互联网上信息的空前膨胀,当前大型集中式搜索引擎面临扩展性、更新速度和用户专业化需求等一系列挑战;分布式搜索引擎在一定程度上解决了集中式系统数据库规模扩展的限制,但在扩展性、相关度和分布式资源控制策略等方面仍存在很大局限,需要扩展性强、相关度高、可行性强的系统结构和组织方式来进行资源管理和检索。基于以上背景和现有分布式算法研究,论文设计了分布式资源组织和导航系统——搜索引擎联邦的体系结构,实现了基于日志分析的联邦原型系统,有效的组织了专业化的基于站点或站点群的搜索引擎节点,提供了快速、准确、更新快的分布式资源导航。 在搜索引擎技术分析的基础上,论文提出搜索引擎联邦体系结构的设计。联邦为中心控制结构,中心服务器实现对分布式资源的导航,节点为面向站点或站点群的中小规模搜索引擎,节点之间通过中心实现相互推荐。该体系结构扩展性强,可作为分布式资源检索系统的标准框架。 联邦实现的基础是分布式搜索引擎节点,因此论文设计并实现了应用于中小规模站点的集中式搜索引擎关键技术,主要是采集预处理、索引算法和网页排序算法。采用了创新性的分块索引结构优化和针对中小站点的网页排序算法,进行了大量工程...
【英文摘要】With Internet information explosion, central search engines face challenges in scalability, freshness, specialized requirements and etc; distributed search engines to some degree solved scalability problem of central systems, but has limitation in precision, distributed organization and etc. In this case, highly scalable, meaningful and practical resources organization method and retrieval system is needed, and this paper designed the system architecture of such distributed resource navigation system – sear...
点击下列原文下载

TAG:

 

评分:0

我来说两句

显示全部

:loveliness: :handshake :victory: :funk: :time: :kiss: :call: :hug: :lol :'( :Q :L ;P :$ :P :o :@ :D :( :)

日历

« 2010-07-29  
    123
45678910
11121314151617
18192021222324
25262728293031

数据统计

  • 访问量: 6910
  • 日志数: 19
  • 文件数: 198
  • 书签数: 33
  • 建立时间: 2009-01-17
  • 更新时间: 2009-07-19

RSS订阅

Open Toolbar