一句顶一万句电影枪版:搜索引擎技术研究 - fanjianguo的专栏[MD,图不见了!]

来源:百度文库 编辑:偶看新闻 时间:2024/04/23 22:03:14
 搜索引擎技术研究

1.搜索引擎技术研究;

2.数据挖掘技术研究。

 



Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=610142

[点击此处收藏本文]   发表于 2006年02月26日 2:53 PM

 pascal 发表于2006-02-26 3:01 PM  IP: 61.145.238.*基于个性化信息服务技术的研究
2006年第2期(1月下 总第88期)

--------------------------------------------------------------------------------

黄 堃,林旭云
(福建金融职业技术学院,福建 福州 350007)

【摘 要】传统信息检索技术满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的查询请求,个性化搜索引擎技术就显得越来越重要。文章主要介绍了个性化搜索引擎技术的研究现状,并讨论了个性化搜索引擎技术将来的研究方向。
  【关键词】信息检索;个性化;搜索引擎
【中图分类号】 TP39 【文献标识码】 A 【文章编号】 1008-1151(2006)02-0038-02

一、引言
  Web已成为人们获取信息的一个重要途径,由于Web信息的日益增长,人们不得不花费大量的时间去搜索浏览自己需要的信息,搜索引擎是最普遍的辅助人们检索信息的工具。传统的信息检索技术满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的查询请求,因而需要寻找一种新的检索技术来解决这个问题。
  对用户行为进行分析后,人们发现存在以下几个特征,如:用户的查询词非常集中,20%的查询词约占查询次数的80%;用户的查询词雷同率较高即用户的查询具有一定的稳定性;用户很少在查询结果中翻很多页,一般就看看前几页而已;用户点击URL具有很强的局部性。个性化信息服务技术就是针对这个问题而提出的,它为不同用户提供不同的服务,以满足不同的需求。个性化服务通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的。个性化服务技术能够充分提高站点的服务质量和访问效率,以吸引更多的访问者。
  二、搜索引擎技术
  (一)通用搜索引擎
  目前通用搜索引擎的组织方式主要有网络综合搜索引擎和网络主题资源搜索引擎两种。其中网络综合搜索引擎能够广泛地采集各Internet站点资源,并对其进行页面搜索,将索引结果存入索引数据库,供网络用户检索,提供Internet网络资源地导航功能的工具,如google、baidu等。而网络主题资源搜索引擎的工作方式与网络综合搜索引擎也相同,都是对In?鄄ternet网络中的资源进行挖掘操作。但在处理方式上与网络综合搜索引擎存在着本质上的不同,网络主题搜索引擎只对符合预先设定的主题相关的网络资源敏感,并对他们进行相应的标引和进一步的处理工作。一般该类的搜索引擎是面向资源内容的,即它不仅提供用户资源的原始出处,还可以直接根据用户的需求,进行相应的资源操作,如:标引、清理等。该类搜索引擎的典型例子如万方数据库股份有限公司的I-Know智能知识服务系统包含的Robot搜索模块系统等。
  (二)个性化搜索引擎
  当前的个性化搜索引擎思路主要有基于规则的系统和信息过滤系统两种。基于规则的系统利用预定义的规则来过滤信息,其优点是简单、直接,缺点是规则的质量难以保证,而且不能动态更新。此外,随着规则的数量增多,系统将变得越来越难以管理。而信息过滤系统又包含有基于内容过滤的系统和协作过滤系统两种,其中基于内容过滤的系统利用资源和用户兴趣的相似性来过滤信息,它的关键问题是相似性计算,优点是简单、有效,缺点是难以区分资源内容的品质和风格,而且不能为用户发现新的感兴趣的资源,智能发现和用户已有兴趣相似的资源。而协作过滤系统利用用户之间的相似性来推荐信息,它能够为用户发现新的感兴趣的内容,其关键问题是用户聚类,且需要用户的参与。
  (三)实时搜索系统
实时搜索又被称为针对专题的搜索,它的主要目标就是发现Internet上符合用户个性化需求的网页。研究表明,大量使用互联网的专业用户所关心的内容仅仅局限于他们所在领域或者仅仅关心几个专业主题,所以些用户需要的是一个精确的小型的面向主题的搜索引擎,一个大的商业通用搜索引擎不能很好的满足他们的需要。
实时搜索系统与通用搜索引擎存在一定的区别,通用搜索引擎是搜集和索引所有可以访问到的网页,而实时搜索引擎是将其搜索限定在与用户查询需要最为相关的链接上,避免访问互联网上那些不相关的部分。为此,实时搜索引擎相对于通用搜索引擎具有以下优点:
  1.节省了大量的硬件和网络资源,同时可以更好的保证被索引网页的有效性。
  2.可以很方便的和浏览器整合在一起,构成单机版的搜索系统,使用户的搜索设置更加灵活,方便用户的使用。
  三、个性化服务技术
  个性化服务技术是为不同用户提供不同的服务,以满足不同的需求。个性化服务通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的。个性化服务技术能够充分提高站点的服务质量和访问效率,以吸引更多的访问者。在个性化服务技术中最主要的有协同过滤技术和数据挖掘技术两种。
  协同过滤技术主要有KNN技术、基于聚类的协同过滤和基于项目的协同过滤三种技术,但是协同过滤技术主要存在着需要用户提供主观的评价信息、不能处理大规模的数据量、用户的评价信息可能会过时以及使用不方便等方面的缺陷,从而还没有在实际中得到广泛的应用。
  数据挖掘技术主要包含有关联规则发现、序列模式发现、聚类技术和Web挖掘等技术,由于数据挖掘技术具有不需要用户提供主观的评价信息、可以处理大规模的数据量、用户访问模式动态获取以及使用方面等优势,为此数据挖掘相对应于协同过滤技术具有更为广泛的应用前景。
四、值得进一步研究的相关问题
  (一)用户兴趣模型
  在个性化信息服务系统中,主要面临着用户兴趣模型的建模、用户兴趣模型的更新和用户兴趣模型的相似性计算三个问题,而其中最为关键的问题又是如何进行用户兴趣模型的建模。由于个性化服务是通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的,而用户兴趣模型正是用户的兴趣和行为的信息模型,用户兴趣模型的好坏直接影响到个性化信息服务技术的性能。为此,如何构造一个好的用户信息模型是一个值得研究的方向。
  (二)Fish算法的研究
  Fish算法是于1993年由荷兰TUE大学的Debra教授提出,并整合到当时流行的Mosaic浏览器上,是实时搜索中比较有名的算法。Fish算法模拟了一个鱼群的觅食过程,算法本身并不建立索引数据库,而是即时搜索用户要求的特定信息。在Fish算法中每条鱼代表一个URL,每读取一个文档,鱼就繁殖一定数量的后代,文档相关也就是指鱼找到食物,可以繁殖出更多后代,则在增加此文链接深度;文档若不相关,鱼就越来越弱,后代也较少。在某一方向经过几条链接仍未找到相关文档,就表明这些鱼已死,就不再沿这个方向继续查找,将此URL加入到URL列表的尾部,只有在表中其它URL列表访问完之后,才可能访问到它们。若一条鱼读取文档时间太长,说明鱼进入污染区,则尽量少沿这条URL搜索,以免出现死循环。
  Fish算法的动态特性和它相对的简单易行使它在实时搜索中得到了大量的使用,但是它的potential-score的二值(0,1)设置却显得粗糙。为此,如何对Fish算法进行改进也是一个具有挑战意义的研究课题。
  (三)基于Web的个性化
  基于Web使用挖掘的个性化服务的基本思路是分析Web日志数据,利用数据挖掘方法发现用户的使用模式,从而向用户提供个性化服务。由于Web数据挖掘需要处理的是大规模的数据量,为此一个好的基于Web的数据挖掘算法就显得更为重要。
  (四)用户聚类算法
  用户信息聚类是构建个性化信息服务系统的一个关键问题,而在用户信息聚类中最为关键的又是用户的个性化聚类。由于每个用户对信息所属类型的理解不同,那么他们需要的信息分类方式也不尽相同,因此,信息服务系统提供给用户的应该是一种可以由用户自己决定的分类。从而,如何构造一个基于个性化的用户聚类算法也是今一项很有意义的工作。
  五、结语
  Web已成为人们获取信息的一个重要途径,由于Web信息的日益增长,人们不得不花费大量的时间曲搜索浏览自己需要的信息,搜索引擎是最普遍的辅助人们检索信息的工具。传统的信息检索技术满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的查询请求,而个性化服务技术就是针对这个问题而提出的,它为不同用户提供不同的服务,以满足不同的需求。本文在简单介绍了个性化服务技术的研究状况,最后指出并阐释了值得进一步研究的相关问题。
  个性化服务技术的研究处于初期,待研究的问题还很多,如用户兴趣模型的建模、Fish算法的改进、聚类算法的改进、基于Web的个性化技术以及与其他相关的智能算法的结合等等,这些都是目前的研究热点。

【参考文献】
  [1]徐学文,唐明湘.下一代因特网的信息服务:网络信息综合集成服务[J].中国信息导报,2001,(1).
  [2] 潘金贵, 胡学联,李俊,张灵玲.一个个性化的信息搜索Agent的设计与实现[J].软家学报,2001,(7).



 pascal 发表于2006-02-26 3:05 PM  IP: 61.145.238.*搜索引擎研发的困难和发展方向
http://FullSearch.Com 中文全文检索网 2006-2-17 14:36:30 王小川
关键词:搜索引擎发展方向
 
  ——今天很高兴有机会在这里做这个题为《搜索引擎研发的困难和发展方向》的报告。几年前,搜狐公司的地址在建国门附近,那是一个商业的环境;2003年,公司研发中心成立于清华同方大厦,在这里,公司可以得到更多技术力量的支持;2004年,搜狐公司整体迁入清华科技园区。依此,我们看到一种轨迹:搜狐公司本身作为一家企业,已由原先的市场导向转变成为了现在的技术驱动,与高校之间建立了紧密的合作关系。



  1.搜索与搜索引擎



  ——搜索与搜索引擎的区别在于,搜索引擎是一个技术上的概念,是一种以技术为核心的服务;而搜索则更偏向产业化。今天着重讲的是中文网页搜索中遇到的困难和发展方向。



  ——搜狗的成长道路



  ——• 2003年9月,组建团队;



  ——• 2004年8月,正式发布1.0版本;



  ——• 2005年12月,正式发布2.5版本;



  ——• 预计在2006年7月,达到业界同期领先水平。



  ——_搜索引擎的研发与其它项目不一样。由于其直接依托于技术、技术与经营密不可分,所以一般来说,搜索引擎应由商业化公司自行研发,并投入使用。在这里就需要一个界限,限定哪些工作是研发机构来做的,哪些是企业来做的。只有明确了这个界限,才能提高工作效率,开发出技术先进而又适合市场需求的大型搜索引擎。



  2.搜索引擎面临的挑战



  ——(1)工程方面



  ——在98、99年,曾有人预测搜索引擎的开发是不可能的。由于互联网信息成指数增长,而要在如此海量的信息中作检索,根本无法做到。但如今,虽然搜索引擎的效果还不尽人意,但至少已经完成了其基本功能,在该领域跨出了一大步。



  ——要支持一个如此复杂的引擎,就需要一个庞大的硬件环境,例如Google在全球,就拥有不止14万台服务器。这样的大系统,在开发、测试以及硬件的维护方面都给人们带来了一定的困难,甚至是挑战。



  ——(2)学术研究方面



  ——目前,公司已和清华大学建立了合作的关系,双方可以做到优势互补。



  ——在搜索引擎开发过程中,海量数据的处理是现有的一大难题。在研究领域,语言模型可以做到高达97%的识别率;但在实际应用中,面对互联网海量数据,处理速度受到严重的影响,最尖端的技术成果变得无用武之地,导致开发商宁肯选择效率高而识别率低的技术。



  ——在进行研发工作时,往往需要互联网上海量的真实数据。这些数据的采集在高校很难完成,而在公司就很容易获得。同样的,大量的人工标注工作,也是更适合在公司来做。



  ——工程/运营构架的妥协是如今学术领域与工程领域之间的一大问题。例如,研究机构中研究出的优质算法,在实际应用中,会因为算法的过于精细和系统的过于庞大,导致可用性不强。



  ——(3)社会方面



  ——首先是垃圾信息的问题。在互联网中,有80%的信息是垃圾。用户搜索到的是精确信息,而公司内部需要组织团队去建立学习系统,以此来处理网上的垃圾信息。



  ——由于搜索引擎中,海量数据的抓取很困难,有人曾考虑将搜索引擎与各网站建立合作关系,网站自行将数据推给搜索引擎;或者每个网站都建立说明文档,说明其有用信息。但这都将严重破坏搜索引擎的公正性,使搜索结果的意义大大丧失,故没有可发展的空间。



  ——新生事物的产生,如Blog,也对搜索引擎的开发产生了一定影响。例如有的Blog上的信息比网站信息还要全面,而有的则全部是垃圾信息,这就给搜索引擎的检索工作带来了一定的困难。



  3.搜索引擎未来的发展方向



  ——(1)宽带的应用



  ——对互联网上的音频、视频信息的内容进行整理,有效地描述,并做到高效的存储和传输,这是搜索引擎未来发展的方向之一。



  ——(2)互动体验



  ——Google已经改变了用户在互联网上冲浪、漫游的浏览习惯,而是将用户所需信息线性排列出来。未来,导航将是互联网浏览的主要方式:搜索引擎充分理解用户所要表达的主题,将所需信息按类别依次排列,呈现给用户,并加入更多的纠错能力,列出纠错提示。



  ——(3)垂直化及入口占领



  ——未来,搜索引擎将从平行搜索转向垂直搜索,只对某一领域的信息进行精确搜索,这种细化是搜索引擎未来发展的一个方向。而所谓入口,就是指搜索将变成用户登入互联网的第一道关卡,搜索引擎的品牌和用户的习惯将直接引导市场走向。



  ——(4)互联网的进程



  ——Google不但在搜索领域占有领先地位,现在也加入了网站翻译的领域,并取得了很好的效果。之所以Google在翻译工作上能取得好的成绩,就是因为它占有着其他人所不能完备的海量信息优势。这也是搜索引擎发展的一个趋势,例如在输入法等领域,同样可以通过对于海量信息的评测,加入传统字典中所不具有的信息。









本文地址:http://www.FullSearcher.Com/n2006217143630735.asp
网站地址:http://www.FullSearcher.Com/
文章来源:sohu

 pascal 发表于2006-02-26 3:32 PM  IP: 61.145.238.*搜索引擎技术揭密:中文分词技术 信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。


  搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度(http://www.baidu.com)等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。

  什么是中文分词

  众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。

  中文分词和搜索引擎

  中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很多问题。下面就以这个例子来说明分词对搜索结果的影响,在现有三个中文搜索引擎上做测试,测试方法是直接在Google(http://www.google.com)、百度(http://www.baidu.com)上以“和服”为关键词进行搜索:

  在Google上输入“和服”搜索所有中文简体网页,总共结果507,000条,前20条结果中有14条与和服一点关系都没有。

  在百度上输入“和服”搜索网页,总共结果为287,000条,前20条结果中有6条与和服一点关系都没有。

  在中搜上输入“和服”搜索网页,总共结果为26,917条,前20条结果都是与和服相关的网页。

  这次搜索引擎结果中的错误,就是由于分词的不准确所造成的。通过笔者的了解,Google的中文分词技术采用的是美国一家名叫Basis Technology(http://www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提供的分词技术。由此可见,中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。

  中文分词技术

  中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。

  现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

  1、基于字符串匹配的分词方法

  这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:

  1)正向最大匹配法(由左到右的方向);

  2)逆向最大匹配法(由右到左的方向);

  3)最少切分(使每一句中切出的词数最小)。

  还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。

  一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。

  对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。

  2、基于理解的分词方法

  这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

  3、基于统计的分词方法

  从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

  到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。

  分词中的难题

  有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。

  1、歧义识别

  歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。

  交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?

  如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。

  2、新词识别

  新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?

  新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

  中文分词的应用

  目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。

  分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。(文章来源:DONEWS)


 pascal 发表于2006-02-26 3:36 PM  IP: 61.145.238.*文章标题开始基于JAVA技术的搜索引擎的研究与实现文章标题结束
作者开始KissJava转作者结束
简介开始简介结束
关键字开始基于JAVA技术的搜索引擎的研究与实现关键字结束
文章内容开始
基于JAVA技术的搜索引擎的研究与实现







目录



目录............................................................................................................................................................................ 1

摘要............................................................................................................................................................................ 3

第一章 引言............................................................................................................................................................. 4

第二章 搜索引擎的结构........................................................................................................................................ 5

2.1系统概述........................................................................................................................................................... 5

2.2搜索引擎的构成............................................................................................................................................... 5

2.2.1网络机器人............................................................................................................................................... 5

2.2.2索引与搜索............................................................................................................................................... 5

2.2.3 Web服务器............................................................................................................................................. 6

2.3搜索引擎的主要指标及分析........................................................................................................................... 6

2.4小节................................................................................................................................................................... 6

第三章 网络机器人................................................................................................................................................ 7

3.1什么是网络机器人........................................................................................................................................... 7

3.2网络机器人的结构分析................................................................................................................................... 7

3.2.1如何解析HTML........................................................................................................................................ 7

3.2.2 Spider程序结构...................................................................................................................................... 8

3.2.3如何构造Spider程序............................................................................................................................... 9

3.2.4如何提高程序性能................................................................................................................................. 11

3.2.5网络机器人的代码分析............................................................................................................................. 12

3.3小节................................................................................................................................................................ 14

第四章 基于lucene的索引与搜索.................................................................................................................. 15

4.1什么是Lucene全文检索............................................................................................................................ 15

4.2 Lucene的原理分析................................................................................................................................... 15

4.2.1全文检索的实现机制............................................................................................................................ 15

4.2.2 Lucene的索引效率.............................................................................................................................. 15

4.2.3 中文切分词机制.................................................................................................................................. 17

4.3 Lucene与Spider的结合........................................................................................................................ 18

4.4小节................................................................................................................................................................ 21

第五章 基于Tomcat的Web服务器................................................................................................................. 22

5.1什么是基于Tomcat的Web服务器............................................................................................................ 22

5.2用户接口设计................................................................................................................................................ 22

5.3.1客户端设计............................................................................................................................................ 22

5.3.2服务端设计............................................................................................................................................ 23

5.3在Tomcat上部署项目................................................................................................................................. 25

5.4小节................................................................................................................................................................ 25

第六章 搜索引擎策略.......................................................................................................................................... 26

6.1简介................................................................................................................................................................ 26

6.2面向主题的搜索策略.................................................................................................................................... 26

6.2.1导向词.................................................................................................................................................... 26

6.2.3权威网页和中心网页............................................................................................................................ 27

6.3小节................................................................................................................................................................ 27

参考文献................................................................................................................................................................. 28











摘要

网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎——新闻搜索引擎。

新闻搜索引擎是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。

本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎的实现代码来说明,图文并茂、易于理解。





Abstract

The resources in the internet are abundant, but it is a difficult job to search some useful information. So a search engine is the best method to solve this problem. This article fist introduces the system structure of search engine based on the internet in detail, then gives a minute explanation form Spider search, engine and web server. In order to understand the technology more deeply, I have programmed a news search engine by myself.

The news search engine is explained and searched according to hyperlink from a appointed web page, then indexs every searched information and adds it to the index database. Then after receiving the customers‘ requests from the web server, it soon searchs the right news form the index engine,

In the chapter of introducing search engine, it is not only elaborate the core technology, but also combine with the modern code,pictures included, easy to understand.





第一章 引言

面对浩瀚的网络资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。

搜索引擎技术伴随着WWW的发展是引人注目的。搜索引擎大约经历了三代的更新发展:

第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR(Information Retrieval)、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月,网络爬虫World Web Worm (WWWW)平均每天承受大约1500次查询。

大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的网页索引。Altavista搜索引擎声称他们每天大概要承受20,000,000次查询。

2000年搜索引擎2000年大会上,按照Google公司总裁Larry Page的演讲,Google正在用3,000台运行Linux系统的个人电脑在搜集Web上的网页,而且以每天30台的速度向这个微机集群里添加电脑,以保持与网络的发展相同步。每台微机运行多个爬虫程序搜集网页的峰值速度是每秒100个网页,平均速度是每秒48.5个网页,一天可以搜集超过4,000,000网页

搜索引擎一词在国内外因特网领域被广泛使用,然而他的含义却不尽相同。在美国搜索引擎通常指的是基于因特网的搜索引擎,他们通过网络机器人程序收集上千万到几亿个网页,并且每一个词都被搜索引擎索引,也就是我们说的全文检索。著名的因特网搜索引擎包括First Search、Google、HotBot等。在中国,搜索引擎通常指基于网站目录的搜索服务或是特定网站的搜索服务,本人这里研究的是基于因特网的搜索技术。



第二章 搜索引擎的结构

2.1系统概述

搜索引擎是根据用户的查询请求,按照一定算法从索引数据中查找信息返回给用户。为了保证用户查找信息的精度和新鲜度,搜索引擎需要建立并维护一个庞大的索引数据库。一般的搜索引擎由网络机器人程序、索引与搜索程序、索引数据库等部分组成。











系统结构图

2.2搜索引擎的构成

2.2.1网络机器人

网络机器人也称为“网络蜘蛛”(Spider),是一个功能很强的WEB扫描程序。它可以在扫描WEB页面的同时检索其内的超链接并加入扫描队列等待以后扫描。因为WEB中广泛使用超链接,所以一个Spider程序理论上可以访问整个WEB页面。

为了保证网络机器人遍历信息的广度和深度需要设定一些重要的链接并制定相关的扫描策略。

2.2.2索引与搜索

网络机器人将遍历得到的页面存放在临时数据库中,如果通过SQL直接查询信息速度将会难以忍受。为了提高检索效率,需要建立索引,按照倒排文件的格式存放。如果索引不及时跟新的话,用户用搜索引擎也不能检索到。

用户输入搜索条件后搜索程序将通过索引数据库进行检索然后把符合查询要求的数据库按照一定的策略进行分级排列并且返回给用户。

2.2.3 Web服务器

客户一般通过浏览器进行查询,这就需要系统提供Web服务器并且与索引数据库进行连接。客户在浏览器中输入查询条件,Web服务器接收到客户的查询条件后在索引数据库中进行查询、排列然后返回给客户端。

2.3搜索引擎的主要指标及分析

搜索引擎的主要指标有响应时间、召回率、准确率、相关度等。这些指标决定了搜索引擎的技术指标。搜索引擎的技术指标决定了搜索引擎的评价指标。好的搜索引擎应该是具有较快的反应速度和高召回率、准确率的,当然这些都需要搜索引擎技术指标来保障。



召回率:一次搜索结果中符合用户要求的数目与用户查询相关信息的总数之比

准确率:一次搜索结果中符合用户要求的数目与该次搜索结果总数之比

相关度:用户查询与搜索结果之间相似度的一种度量

精确度:对搜索结果的排序分级能力和对垃圾网页的抗干扰能力




2.4小节

以上对基于因特网的搜索引擎结构和性能指标进行了分析,本人在这些研究的基础上利用JavaTM技术和一些Open Source工具实现了一个简单的搜索引擎——新闻搜索引擎。在接下来的几章里将会就本人的设计进行详细的分析。



第三章 网络机器人

3.1什么是网络机器人

网络机器人又称为Spider程序,是一种专业的Bot程序。用于查找大量的Web页面。它从一个简单的Web页面上开始执行,然后通过其超链接在访问其他页面,如此反复理论上可以扫描互联网上的所有页面。

基于因特网的搜索引擎是Spider的最早应用。例如搜索巨头Google公司,就利用网络机器人程序来遍历Web站点,以创建并维护这些大型数据库。

网络机器人还可以通过扫描Web站点的主页来得到这个站点的文件清单和层次机构。还可以扫描出中断的超链接和拼写错误等。

3.2网络机器人的结构分析

Internet是建立在很多相关协议基础上的,而更复杂的协议又建立在系统层协议之上。Web就是建立在HTTP ( Hypertext Transfer Protocol ) 协议基础上,而HTTP又是建立在TCP/IP ( Transmission Control Protocol / Internet Protocol ) 协议之上,它同时也是一种Socket协议。所以网络机器人本质上是一种基于Socket的网络程序。

3.2.1如何解析HTML

因为Web中的信息都是建立在HTML协议之上的,所以网络机器人在检索网页时的第一个问题就是如何解析HTML。在解决如何解析之前,先来介绍下HTML中的几种数据。

文本:除了脚本和标签之外的所有数据 注释:程序员留下的说明文字,对用户是不可见的 简单标签:由单个表示的HTML标签 开始标签和结束标签:用来控制所包含的HTML代码


我们在进行解析的时候不用关心所有的标签,只需要对其中几种重要的进行解析即可。

超连接标签

超连接定义了WWW通过Internet链接文档的功能。他们的主要目的是使用户能够任意迁移到新的页面,这正是网络机器人最关心的标签。



图像映射标签

图像映射是另一种非常重要的标签。它可以让用户通过点击图片来迁移到新的页面中。

表单标签

表单是Web页面中可以输入数据的单元。许多站点让用户填写数据然后通过点击按钮来提交内容,这就是表单的典型应用。

表格标签

表格是HTML的构成部分,通常用来格式化存放、显示数据。

我们在具体解析这些HTMl标签有两种方法:通过JavaTM中的Swing类来解析或者通过Bot包中的HTMLPage类来解析,本人在实际编程中采用后者。

Bot包中的HTMLPage类用来从指定URL中读取数据并检索出有用的信息。下面给出该类几种重要的方法。

HTMLPage构造函数 构造对象并指定用于通讯的HTTP对象

Public HTMLPage(HTTP http) GetForms方法 获取最后一次调用Open方法检索到的表单清单

Public Vector getForms() GetHTTP方法 获取发送给构造函数的HTTP对象

Public HTTP getHTTP() GetImage方法 获取指定页面的图片清单

Public Vector getImage() GetLinks方法 获取指定页面的连接清单

Public Vector getLinks() Open方法 打开一个页面并读入该页面,若指定了回调对象则给出所有该对象数据

Public void open(String url,HTMLEditorKit.ParserCallback a)




3.2.2 Spider程序结构

网络机器人必须从一个网页迁移到另一个网页,所以必须找到该页面上的超连接。程序首先解析网页的HTML代码,查找该页面内的超连接然后通过递归和非递归两种结构来实现Spider程序。

递归结构

递归是在一个方法中调用自己本身的程序设计技术。虽然比较容易实现但耗费内存且不能使用多线程技术,故不适合大型项目。

非递归结构

这种方法使用队列的数据结构,当Spider程序发现超连接后并不调用自己本身而是把超连接加入到等待队列中。当Spider程序扫描完当前页面后会根据制定的策略访问队列中的下一个超连接地址。

虽然这里只描述了一个队列,但在实际编程中用到了四个队列,他们每个队列都保存着同一处理状态的URL。



等待队列 在这个队列中,URL等待被Spider程序处理。新发现的URL也被加入到这个队列中

处理队列 当Spider程序开始处理时,他们被送到这个队列中

错误队列 如果在解析网页时出错,URL将被送到这里。该队列中的URL不能被移入其他队列中

完成队列 如果解析网页没有出错,URL将被送到这里。该队列中的URL不能被移入其它队列中




在同一时间URL只能在一个队列中,我们把它称为URL的状态。



以上的图表示了队列的变化过程,在这个过程中,当一个URL被加入到等待队列中时Spider程序就会开始运行。只要等待队列中有一个网页或Spider程序正在处理一个网页,程序就会继续他的工作。当等待队列为空并且当前没有任何网页时,Spider程序就会停止它的工作。

3.2.3如何构造Spider程序

在构造Spider程序之前我们先了解下程序的各个部分是如何共同工作的。以及如何对这个程序进行扩展。

流程图如下所示:



IspiderReportable接口

这是一个必须实现的接口,可以通过回调函数接受Spider所遇到的页面。接口定义了Spider向他的控制者发送的几个事件。通过提供对每个事件的处理程序,可以创建各种Spider程序。下面是他的接口声明:

public interface IspiderReportable{

public boolean foundInternalLink(String url);

public boolean foundExternalLink(String url);

public boolean foundOtherLink(String url);

public void processPage(HTTP page);

public void completePage(HTTP page,boolean error);

public boolean getRemoveQuery();

public void SpiderComplete(); }




3.2.4如何提高程序性能

Internet中拥有海量的Web页面,如果开发出高效的Spider程序是非常重要的。下面就来介绍下几种提高性能的技术:

Java的多线程技术

线程是通过程序的一条执行路线。多线程是一个程序同时运行多个任务的能力。它是在一个程序的内部进行分工合作。

优化程序的通常方法是确定瓶颈并改进他。瓶颈是一个程序中最慢的部分,他限制了其他任务的运行。据个例子说明:一个Spider程序需要下载十个页面,要完成这一任务,程序必须向服务器发出请求然后接受这些网页。当程序等待响应的时候其他任务不能执行,这就影响了程序的效率。如果用多线程技术可以让这些网页的等待时间合在一起,不用互相影响,这就可以极大的改进程序性能。

数据库技术

当Spider程序访问一个大型Web站点时,必须使用一种有效的方法来存储站点队列。这些队列管理Spider程序必须维护大型网页的列表。如果把他们放在内存中将会是性能下降,所以我们可以把他们放在数据库中减少系统资源的消耗。

3.2.5网络机器人的代码分析

程序结构图如下:



程序代码实现如下:

package news; /** * 新闻搜索引擎 * 版本 1.0 */

import com.heaton.bot.HTTP;

import com.heaton.bot.HTTPSocket;

import com.heaton.bot.ISpiderReportable;

import com.heaton.bot.IWorkloadStorable;

import com.heaton.bot.Spider;

import com.heaton.bot.SpiderInternalWorkload; /** * 构造一个Bot程序 */

public class Searcher implements ISpiderReportable {

public static void main(String[] args)

throws Exception { IWorkloadStorable wl = new SpiderInternalWorkload();

Searcher _searcher = new Searcher();

Spider _spider = new Spider(_searcher, "http://127.0.0.1/news.htm", new HTTPSocket(), 100, wl); _spider.setMaxBody(100);

_spider.start(); } // 发现内部连接时调用,url表示程序发现的URL,若返回true则加入作业中,否则不加入。

public boolean foundInternalLink(String url) {

return false; } // 发现外部连接时调用,url表示程序所发现的URL,若返回true则把加入作业中,否则不加入。

public boolean foundExternalLink(String url) {

return false; } // 当发现其他连接时调用这个方法。其他连接指的是非HTML网页,可能是E-mail或者FTP

public boolean foundOtherLink(String url) {

return false; } // 用于处理网页,这是Spider程序要完成的实际工作。

public void processPage(HTTP http) {

System.out.println("扫描网页:" + http.getURL());

new HTMLParse(http).start(); } // 用来请求一个被处理的网页。

public void completePage(HTTP http, boolean error) { } // 由Spider程序调用以确定查询字符串是否应删除。如果队列中的字符串应当删除,方法返回真。

public boolean getRemoveQuery() {

return true; } // 当Spider程序没有剩余的工作时调用这个方法。

public void spiderComplete() { }

}




3.3小节

在本章中,首先介绍了网络机器人的基本概念,然后具体分析了Spider程序的结构和功能。在最后还结合具体代码进行了详细说明。

本人在编程中运用了JavaTM技术,主要涉及到了net和io两个包。此外还用了第三方开发包Bot(由Jeff Heaton提供的开发包)。



第四章 基于lucene的索引与搜索

4.1什么是Lucene全文检索

Lucene是Jakarta Apache的开源项目。它是一个用Java写的全文索引引擎工具包,可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。

4.2 Lucene的原理分析

4.2.1全文检索的实现机制

Lucene的API接口设计的比较通用,输入输出结构都很像数据库的表==>记录==>字段,所以很多传统的应用的文件、数据库等都可以比较方便的映射到Lucene的存储结构和接口中。

总体上看:可以先把Lucene当成一个支持全文索引的数据库系统。

索引数据源:doc(field1,field2...) doc(field1,field2...) \ indexer / _____________ | Lucene Index| -------------- searcher \

结果输出:Hits(doc(field1,field2) doc(field1...))

Document:一个需要进行索引的“单元”,一个Document由多个字段组成

Field:字段

Hits:查询结果集,由匹配的Document组成




4.2.2 Lucene的索引效率

通常书籍后面常常附关键词索引表(比如:北京:12, 34页,上海:3,77页……),它能够帮助读者比较快地找到相关内容的页码。而数据库索引能够大大提高查询的速度原理也是一样,想像一下通过书后面的索引查找的速度要比一页一页地翻内容高多少倍……而索引之所以效率高,另外一个原因是它是排好序的。对于检索系统来说核心是一个排序问题。

由于数据库索引不是为全文索引设计的,因此,使用like "%keyword%"时,数据库索引是不起作用的,在使用like查询时,搜索过程又变成类似于一页页翻书的遍历过程了,所以对于含有模糊查询的数据库服务来说,LIKE对性能的危害是极大的。如果是需要对多个关键词进行模糊匹配:like"%keyword1%" and like "%keyword2%" ...其效率也就可想而知了。所以建立一个高效检索系统的关键是建立一个类似于科技索引一样的反向索引机制,将数据源(比如多篇文章)排序顺序存储的同时,有另外一个排好序的关键词列表,用于存储关键词==>文章映射关系,利用这样的映射关系索引:[关键词==>出现关键词的文章编号,出现次数(甚至包括位置:起始偏移量,结束偏移量),出现频率],检索过程就是把模糊查询变成多个可以利用索引的精确查询的逻辑组合的过程。从而大大提高了多关键词查询的效率,所以,全文检索问题归结到最后是一个排序问题。

由此可以看出模糊查询相对数据库的精确查询是一个非常不确定的问题,这也是大部分数据库对全文检索支持有限的原因。Lucene最核心的特征是通过特殊的索引结构实现了传统数据库不擅长的全文索引机制,并提供了扩展接口,以方便针对不同应用的定制。可以通过一下表格对比一下数据库的模糊查询:

 
Lucene全文索引引擎
数据库

索引
将数据源中的数据都通过全文索引一一建立反向索引
对于LIKE查询来说,数据传统的索引是根本用不上的。数据需要逐个便利记录进行GREP式的模糊匹配,比有索引的搜索速度要有多个数量级的下降。

匹配效果
通过词元(term)进行匹配,通过语言分析接口的实现,可以实现对中文等非英语的支持。
使用:like "%net%" 会把netherlands也匹配出来, 多个关键词的模糊匹配:使用like "%com%net%":就不能匹配词序颠倒的xxx.net..xxx.com

匹配度
有匹配度算法,将匹配程度(相似度)比较高的结果排在前面。
没有匹配程度的控制:比如有记录中net出现5词和出现1次的,结果是一样的。

结果输出
通过特别的算法,将最匹配度最高的头100条结果输出,结果集是缓冲式的小批量读取的。
返回所有的结果集,在匹配条目非常多的时候(比如上万条)需要大量的内存存放这些临时结果集。

可定制性
通过不同的语言分析接口实现,可以方便的定制出符合应用需要的索引规则(包括对中文的支持)
没有接口或接口复杂,无法定制

结论
高负载的模糊查询应用,需要负责的模糊查询的规则,索引的资料量比较大
使用率低,模糊匹配规则简单或者需要模糊查询的资料量少




4.2.3 中文切分词机制

对于中文来说,全文索引首先还要解决一个语言分析的问题,对于英文来说,语句中单词之间是天然通过空格分开的,但亚洲语言的中日韩文语句中的字是一个字挨一个,所有,首先要把语句中按“词”进行索引的话,这个词如何切分出来就是一个很大的问题。

首先,肯定不能用单个字符作(si-gram)为索引单元,否则查“上海”时,不能让含有“海上”也匹配。但一句话:“北京天安门”,计算机如何按照中文的语言习惯进行切分呢?“北京 天安门” 还是“北 京 天安门”?让计算机能够按照语言习惯进行切分,往往需要机器有一个比较丰富的词库才能够比较准确的识别出语句中的单词。另外一个解决的办法是采用自动切分算法:将单词按照2元语法(bigram)方式切分出来,比如:"北京天安门" ==> "北京 京天 天安 安门"。这样,在查询的时候,无论是查询"北京" 还是查询"天安门",将查询词组按同样的规则进行切分:"北京","天安安门",多个关键词之间按与"and"的关系组合,同样能够正确地映射到相应的索引中。这种方式对于其他亚洲语言:韩文,日文都是通用的。

基于自动切分的最大优点是没有词表维护成本,实现简单,缺点是索引效率低,但对于中小型应用来说,基于2元语法的切分还是够用的。基于2元切分后的索引一般大小和源文件差不多,而对于英文,索引文件一般只有原文件的30%-40%不同,


自动切分
词表切分

实现
实现非常简单
实现复杂

查询
增加了查询分析的复杂程度,
适于实现比较复杂的查询语法规则

存储效率
索引冗余大,索引几乎和原文一样大
索引效率高,为原文大小的30%左右

维护成本
无词表维护成本
词表维护成本非常高:中日韩等语言需要分别维护。 还需要包括词频统计等内容

适用领域
嵌入式系统:运行环境资源有限 分布式系统:无词表同步问题 多语言环境:无词表维护成本
对查询和存储效率要求高的专业搜索引擎


4.3 Lucene与Spider的结合

首先构造一个Index类用来实现对内容进行索引。

































代码分析如下:

package news; /** * 新闻搜索引擎 * * 版本1.0

*/ import java.io.IOException;

import org.apache.lucene.analysis.cn.ChineseAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.index.IndexWriter;



public class Index {

IndexWriter _writer = null;

Index() throws Exception {

_writer = new IndexWriter("c:\\News\\index",new ChineseAnalyzer(), true);

} /** * 把每条新闻加入索引中 * @param url 新闻的url * @param title 新闻的标题 * @throws java.lang.Exception */

void AddNews(String url, String title) throws Exception {

Document _doc = new Document();

_doc.add(Field.Text("title", title));

_doc.add(Field.UnIndexed("url", url));

_writer.addDocument(_doc); } /**优化并且清理资源 @throws java.lang.Exception */ void close() throws Exception {

_writer.optimize();

_writer.close(); }

}


然后构造一个HTML解析类,把通过bot程序收集的新闻内容进行索引。


代码分析如下:

package news; /** * 新闻搜索引擎 * 版本1.0 */

import java.util.Iterator;

import java.util.Vector;

import com.heaton.bot.HTMLPage;

import com.heaton.bot.HTTP;

import com.heaton.bot.Link;



public class HTMLParse {

HTTP _http = null;

public HTMLParse(HTTP http) { _http = http; } /**对Web页面进行解析后建立索引*/ public void start() {

try { HTMLPage _page = new HTMLPage(_http);

_page.open(_http.getURL(), null);

Vector _links = _page.getLinks();

Index _index = new Index();

Iterator _it = _links.iterator();



int n = 0;

while (_it.hasNext()) {

Link _link = (Link) _it.next();

String _herf = input(_link.getHREF().trim());

String _title = input(_link.getPrompt().trim());

_index.AddNews(_herf, _title);

n++;

}

System.out.println("共扫描到" + n + "条新闻");

_index.close();

}

catch (Exception ex) {

System.out.println(ex); }

} /** * 解决java中的中文问题 * @param str 输入的中文 * @return 经过解码的中文 */ public static String input(String str) {

String temp = null;

if (str != null) {

try {

temp = new String(str.getBytes("ISO8859_1"));

}

catch (Exception e) { }

}

return temp;

}

}




4.4小节

在进行海量数据搜索时,如果使用单纯的数据库技术,那将是非常痛苦的。速度将是极大的瓶颈。所以本章提出了使用全文搜索引擎Lucene进行索引、搜索。

最后,还结合了具体代码说明了如何把Lucene全文搜索引擎和Spider程序互相集合来实现新闻搜索的功能。



第五章 基于Tomcat的Web服务器

5.1什么是基于Tomcat的Web服务器

Web服务器是在网络中为实现信息发布、资料查询、数据处理等诸多应用搭建基本平台的服务器。Web服务器如何工作:在Web页面处理中大致可分为三个步骤,第一步,Web浏览器向一个特定的服务器发出Web页面请求;第二步,Web服务器接收到Web页面请求后,寻找所请求的Web页面,并将所请求的Web页面传送给Web浏览器;第三步,Web服务器接收到所请求的Web页面,并将它显示出来。

Tomcat是一个开放源代码、运行servlet和JSP Web应用软件的基于Java的Web应用软件容器。Tomcat由Apache-Jakarta子项目支持并由来自开放性源代码Java社区的志愿者进行维护。Tomcat Server是根据servlet和JSP规范进行执行的,因此我们就可以说Tomcat Server也实行了Apache-Jakarta规范且比绝大多数商业应用软件服务器要好。

5.2用户接口设计

5.3.1客户端设计

一个良好的查询界面非常重要,例如Googl就以她简洁的查询界面而闻名。我在设计的时候也充分考虑了实用性和简洁性。

查询界面截图如下:





























搜索结果截图如下:

















































5.3.2服务端设计

主要利用JavaTM Servlet技术实现,用户通过GET方法从客户端向服务端提交查询条件,服务端通过Tomcat的Servlet容器接受并分析提交参数,再调用lucene的开发包进行搜索操作。最后把搜索的结果以HTTP消息包的形式发送至客户端,从而完成一次搜索操作。

服务端Servlet程序的结构如下:


实现的关键代码如下:

public void Search(String qc, PrintWriter out) throws Exception { // 从索引目录创建索引 IndexSearcher _searcher = new IndexSearcher("c:\ews\\index"); // 创建标准分析器

Analyzer analyzer = new ChineseAnalyzer(); // 查询条件



String line = qc; // Query是一个抽象类

Query query = QueryParser.parse(line, "title", analyzer);

out.println("");

out.println("搜索结果");

out.println("");

out.println("
" + "
" + "新闻搜索引擎:" + "" + "" + "
" );

out.println("

搜索关键字:" + query.toString("title") + "

");

Hits hits = _searcher.search(query);

out.println(" 总共找到" + hits.length() + "条新闻
");

final int HITS_PER_PAGE = 10;

for (int start = 0; start < hits.length(); start += HITS_PER_PAGE) {

int end = Math.min(hits.length(), start + HITS_PER_PAGE);

for (int i = start; i < end; i++) {

Document doc = hits.doc(i);

String url = doc.get("url");

if (url != null) {

out.println( (i + 1) + " " +replace(doc.get("title"), qc) +"
");} else {

System.out.println("没有找到!");

}

}

}

out.println("");

_searcher.close(); };




5.3在Tomcat上部署项目

Tomcat中的应用程序是一个WAR(Web Archive)文件。WAR是Sun提出的一种Web应用程序格式,与JAR类似,也是许多文件的一个压缩包。这个包中的文件按一定目录结构来组织:通常其根目录下包含有Html和Jsp文件或者包含这两种文件的目录,另外还会有一个WEB-INF目录,这个目录很重要。通常在WEB-INF目录下有一个web.xml文件和一个classes目录,web.xml是这个应用的配置文件,而classes目录下则包含编译好的Servlet类和Jsp或Servlet所依赖的其它类(如JavaBean)。通常这些所依赖的类也可以打包成JAR放到WEB-INF下的lib目录下,当然也可以放到系统的CLASSPATH中。

在Tomcat中,应用程序的部署很简单,你只需将你的WAR放到Tomcat的webapp目录下,Tomcat会自动检测到这个文件,并将其解压。你在浏览器中访问这个应用的Jsp时,通常第一次会很慢,因为Tomcat要将Jsp转化为Servlet文件,然后编译。编译以后,访问将会很快。

5.4小节

本章中详细介绍了如何构架基于Tomcat的Web服务器,使得用户通过浏览器进行新闻的搜索,最后还对Tomcat如何部署进行了说明。

第六章 搜索引擎策略

6.1简介

随着信息多元化的增长,千篇一律的给所有用户同一个入口显然已经不能满足特定用户更深入的查询需求。同时,这样的通用搜索引擎在目前的硬件条件下,要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况,我们需要一个分类细致精确、数据全面深入、更新及时的面向主题的搜索引擎。

由于主题搜索运用了人工分类以及特征提取等智能化策略,因此它比上面提到的前三代的搜索引擎将更加有效和准确,我们将这类完善的主题搜索引擎称为第四代搜索引擎。



6.2面向主题的搜索策略



6.2.1导向词

导向词就是一组关键词,它们会引导搜索器按照一定顺序搜索整个网络,使得搜索引擎可以在最短的时间里面得到最全面的跟某一个主题相关的信息。通过设置导向词以及它们对应的不同权值,所有标题、作者、正文或超连接文本中含有某一导向词的网页都会被赋予较高的权值,在搜索的时候会优先考虑。搜索器在向主控程序获得URL的时候也是按照权值由高到低的顺序。反之,搜索器在向主控程序提交新的URL和它的权值的时候,主控程序会按照权值预先排序,以便下一次有序的发给搜索器。



6.2.2网页评级

在考虑一个网页被另一个网页的引用时候,不是单纯的将被引用网页的Hit Number加一,而是将引用网页的连接数作为权,同时将该引用网页的重要性也考虑进来(看看上面提到的例子,Yahoo!引用的网页显然比个人网站引用的网页重要,因为Yahoo!本身很重要),就可以得到扩展后的网页评分。

最早提出网页评分的计算方法是Google。它们提出了一个“随机冲浪”模型来描述网络用户对网页的访问行为。模型假设如下:

1) 用户随机的选择一个网页作为上网的起始网页;

2) 看完这个网页后,从该网页内所含的超链内随机的选择一个页面继续进行浏览;

3) 沿着超链前进了一定数目的网页后,用户对这个主题感到厌倦,重新随机选择一个网页进行浏览,并重复2和3。

按照以上的用户行为模型,每个网页可能被访问到的次数就是该网页的链接权值。如何计算这个权值呢?PageRank采用以下公式进行计算:





其中Wj代表第j个网页的权值;lij只取0、1值,代表从网页i到网页j是否存在链接;ni代表网页i有多少个链向其它网页的链接;d代表“随机冲浪”中沿着链接访问网页的平均次数。选择合适的数值,递归的使用以上公式,即可得到理想的网页链接权值。该方法能够大幅度的提高简单检索返回结果的质量,同时能够有效的防止网页编写者对搜索引擎的欺骗。因此可以将其广泛的应用在检索器提供给用户的网页排序上,对于网页评分越高的网页,就排的越前。



6.2.3权威网页和中心网页

权威网页

顾名思义,是给定主题底下的一系列重要的权威的网页。其重要性和权威性主要体现在以下两点:

2) 从单个网页来看,它的网页内容本身对于这个给定主题来说是重要的;

3) 从这个网页在整个互联网重的地位来看,这个网页是被其他网页承认为权威的,这主要体现在跟这个主题相关的很多网页都有链接指向这个网页。

由此可见,权威网页对于主题搜索引擎的实现有很重大的意义。主题搜索引擎一个很关键的任务就是从互联网上无数的网页之中最快最准的找出这些可数的权威网页,并为他们建立索引。这也是有效区别主题搜索引擎和前三代传统通用搜索引擎的重要特征。

中心网页

是包含很多指向权威网页的超链接的网页。最典型中心网页的一个例子是Yahoo!,它的目录结构指向了很多主题的权威网页,使得它兼任了很多主题的中心网页。由中心网页出发,轻而易举的就会到达大量的权威网页。因此,它对于主题搜索引擎的实现也起了很大的意义。

权威网页和中心网页之间是一种互相促进的关系:一个好的中心网页必然要有超链接指向多个权威网页;一个好的权威网页反过来也必然被多个中心网页所链接。



6.3小节

本章介绍了面向主题的搜索策略,并作了详细阐述。虽然在新闻搜索中并没有应用到搜索策略,但是对于WWW搜索引擎来说,搜索策略是极其重要的。他直接关系到搜索的质量以及匹配度等性能。



参考文献

文献资料

1 《Programming Spiders,Bots,and Aggregator in Java》[美]Jeff Heaton著

2 《搜索引擎与信息获取技术》徐宝文、张卫丰著

3 《基于Java的全文搜索引擎Lucene》车东著

4 《主题搜索引擎的设计与实现》罗旭著

5 《Thinking in Java 》[美]Bruce Eckel著

开发工具、平台及资源:

1 Borland Jbuilder 9

2 Sun JDK 1.4.1

3 Jakarta Tomcat 4.1

4 Jakarta Lucene

5 Package Bot

文章内容结束

 pascal 发表于2006-02-26 3:44 PM  IP: 61.145.238.*中文搜索引擎技术未来展望

[ 作者:刘建国 转贴自:http://www.FullSearcher.Com/ 点击数:616 更新时间:2005-2-23 ]

中文搜索引擎技术未来展望
http://FullSearch.Com 中文全文检索网 2004-9-13 9:58:18 刘建国
关键词:搜索引擎

在互联网正式进入中国10周年之际,备受关注的中国互联网大会暨亚太数字科技博览会9月1日-3日在北京国际会议中心召开。以“构建繁荣、诚信的互联网”为主题,以“把握机遇、创新发展、务实合作”为准则,本届“网络两会”将有力推动企业、投资与研究三类机构在技术、资本、业务等三个层面的深度合作。 搜狐IT对本次大会进行直播。下面是 百度公司副总裁刘建国先生在中国互联网高层峰会上的精彩演讲。




  各位来宾下午好,我觉得主持人把百度放在最后一位可能也是有比较深的寓意,刚才三位也说了,尤其王总刚才说从去年开始搜索市场突然很火,实际上大家知道百度是99年底、2000年初就开始做搜索了,所以我们对搜索的市场一直是非常看好的。说到竞争,我自己是做技术的,我觉得最后所有的竞争归根到底是用户体验的竞争。用户体验靠什么来?我个人认为还是靠技术的竞争,就看谁可以做的更好,更可以满足用户的需求,谁最后能够在市场中胜出。所以我想中文的 搜索引擎技术对未来做一些展望。



  我的第一个展望,搜索引擎在中国将成为互联网第一大应用,现在第一大应用是电子邮件,我相信在未来不久搜索引擎应该成为中文网民最常使用的服务。另外一个展望是中文搜索的流量将成为世界上最大的万维网的流量。



  基本判断有几个,一个是中国网民数的成长是非常高的。像今年7月是8700万,如果我们以年增长率是15%来算的话,这个15是华尔街互联网一个非常有名的分析师估计全球平均网民的增长速度,但是中国应该比这个高得多。我们就以15%的增长速度来算的话,到十年以后中国的网民数是3.5亿,这个数已经超过美国整个国家的人数了,所以互联网肯定会成为世界上最大的一个市场。



  而搜索引擎是它的第一个应用,所以它的应用量肯定是世界上最大的。第二网民更加依赖搜索引擎寻找信息,因为网上的信息越来越多了,信息的海洋会将网页的时间全部浪费掉,所以必须依赖于搜索引擎进行导航。第二,我认为更多中文信息内容将WEB化,中文搜索引擎的索引量将超过20亿,而且是很高质量的20亿,而不是像互联网的抄袭等等。另外更多结构化的信息变得可检索,一些离线的内容可以在搜索引擎里不断地提供。



  第二个是更多的垂直内容将会在搜索引擎里提供。像现在我们讲的音乐的搜索、图片的搜索、产品的搜索、本地搜索,以后可能有旅游搜索、人的搜索等等这些都会垂直化,因为主要解决精准的问题。



  第三个展望是搜索引擎的基本问题没有变,它仍然是准、全、新和快。目前对于这几个问题的解决远没有达到一个完美的境地,在这些方面都还有很多工作可以做,比如在准方面,新的Ranking的算法,全是怎么样来提高索引的大小,新就是要是最新的东西第四点是要快,同时要很稳定。



  第四点搜索引擎的工具性将进一步加强,人们有可能在不觉察的情况下使用搜索引擎服务。搜索引擎的使用将越来越简单、方便,用户更易用。另外搜索引擎会发生一个很大的转变,搜索引擎会像答案引擎转变。当然在搜索引擎上去找答案,而不是说我找着了一个信息再点一下看原来的信息,直接要获得答案、获得信息、获得知识。另外就是无处不在。在任何地方当你要找信息时都可以用搜索引擎。



  第五个判断是中文语言的处理技术将得到进一步的发展,并会首先在中文搜索引擎上得到大规模的应用。大家知道中文是我们很大的优势,像最初中文的输入,到后来方正的中文排版很多都与中文息息相关,搜索引擎也不例外,里要做中文的搜索引擎对于中文语言的处理,对中文语义的理解、最信息的抽取必须达到一定的规模。



  第六个是搜索的个性化将得到进一步的重视和研究,相关技术会有较大的发展,这个判断主要是对于搜索引擎带将用户的需求是非常重要的,你必须理解用户的需求才能给他提供相关、准确的信息,所以你要对用户的意图、上下链进行理解。另外要对不同人的查询做不同的处理,就是要有个性化,而不是千篇一律的。这是我的一点展望,谢谢大家。




 pascal 发表于2006-02-26 3:49 PM  IP: 61.145.238.*搜索引擎——一场技术的博弈
[日期:2005-08-09] 来源:中国电子报 作者:孙永杰 [字体:大 中 小]

  本报记者 孙永杰

  第二代搜索引擎面临挑战

  提到搜索引擎,人们会马上想到Google,从技术角度讲,Google是第二代搜索引擎的典型代表。从Google诞生至今已有六年多时间,Internet上先后诞生了数千个提供检索服务的站点,著名的有Google、Dogpile、百度等。虽然这些站点的搜索引擎在收录的范围、内容、检索方法上各有不同,技术上各具特色,但它们在引擎的技术原理上却是一致的,始终处于第二代搜索引擎范畴。

  第二代搜索引擎是以Pagerank为代表的超链分析技术,根据网页之间的超链关系来决定网页内容的重要程度,它在现有技术对网页内容缺乏足够认识时发挥了作用,但其理论基础并不坚实,因为这体现的是“谁的声音大,谁就代表真理”的思想,也就是谁的链接多、流量大,谁的排名就靠前。比如有关SARS的文章,新浪网上的文章会排在中华医学会网站的前面。这些事例都表明超链分析只是一种参照性技术,而无法揭露内容本身。

  如果无法理解内容,也就无法做到个性化。几年来,搜索网站都在利用相似的超链分析技术对搜索结果进行排序,各家也会不时打开竞争对手的网站,查看一下别人的排序情况,思量一番再微调自己的参数。这样调来调去,各家网站的搜索结果变得越发相似。中搜的相关人士告诉记者,结果和别人不同,可能做得好;如果结果和别人相同,肯定没法做得好。第二代搜索使用的超链分析技术已经不可能实质性改善搜索质量了。

  如何实现用户搜索的个性化、智能化,以及更快、更准确地搜索到用户想要信息,这一需求变得越发迫切,搜索引擎技术再次走到了一个革命的路口。

  专业搜索

  ——中国搜索本地化的优势

  如果在桌面搜索技术和市场上,Google和微软依旧占据着优势的话,那么在国内,专业搜索的出现,则为我们的搜索引擎提供了赶超的机会。据业内相关人士介绍,目前,搜索引擎市场的主导方向还是“博大”,重导航作用轻精准信息服务。如何在信息的海洋中捞“金针”呢?这就需要我们的工具更快速、更专业和更个性,于是,“专业搜索”悄然步入传统搜索引擎的领地。

  从技术的层面来看,专业搜索的技术与以前的搜索技术相比从以下几个方面得到了提高。搜索技术不断开发适用和实用的更小搜索单位,发现精深信息内容的方法将得到利用,用户将得到更加准确的内容,而不仅仅是得到包含关键字的网页。专业搜索将做到识别信息并将信息整理好,用友好的界面返回给用户。结合专业功能的移动搜索,即移动终端上的专业搜索,让更多的人开始使用搜索引擎,而且使专业搜索真正专业。

  尽管Google在搜索引擎市场领先,然而非本土化的运作,毕竟有其局限性,随着中国网民日益走向成熟,他们自己的喜好也逐渐显现出与美国观念的不同之处。Google长期坚持不在新窗口中打开搜索结果页面使得很多中国用户感到无奈,MP3,贴吧等功能的缺失更使得Google与中国用户的距离渐行渐远,Google对中国语言文化的了解和认同恐怕永远不能够达到国内搜索引擎的水平。首先中文是双字节,英文是单字节;中文需要切词,而英文不需要。Google要在中文搜索市场有所作为,这两方面都得重新开始,而这里面需要极其复杂的技术。事实上,Google在双字地区罕有成功,比如韩国、日本。除此之外,Google还受到一些非商业因素的影响,这更增加了其进军中国市场的不可预知性。而当互联网越来越成为人们生活的一部分,搜索越来越成为人们不可或缺的工具时,人们从搜索引擎中寻找对自己语言和文化的认同感的愿望恐怕就越来越强烈。所以作为国内搜索引擎先锋的百度称,总有一种力量让我们做得更好,告诉世界,一个民族的搜索力量应该掌握在自己手中。

  为此,作为国内搜索引擎市场老大的百度打造了其所谓的技术、平台、文化相结合的楔形竞争力。在这里,技术、平台都是直指专业搜索领域。

  根据赛迪顾问公司最近做的一项调查显示,互联网用户经常使用的搜索功能主要集中在网页、音乐、图片、购物等四项专业搜索功能上。例如在音乐搜索方面,一搜和百度以绝对的优势,领先于其他的搜索引擎。在图片搜索方面,百度以44.7%的优势领先其他的搜索引擎。这个统计数据说明,在专业搜索领域,国内的厂商依旧具有独特的优势。

  桌面搜索——微软与Google的技术博弈

  需求引发革命,搜索引擎的技术革命似乎日趋临近,但是关于第三代搜索引擎的概念却还没有统一的定论。但有一点是可以肯定的,搜索引擎将在诸多方面发生着深刻的变化:搜索技术将更加智能化;搜索资源将更加广泛;搜索方式将更加便捷、有效;专项搜索将更加丰富。

  于是以个性化搜索为主要特征的桌面搜索从去年开始成为了厂商竞逐的热点。相对网络搜索,桌面搜索在功能上可以更加方便地实现终端用户的个性化、智能化需求,并且语音、视频等多媒体搜索方式也将得到平台的依靠,具备进一步开发应用可能。在搜索范围上,桌面搜索实现了更加广泛的选择,从电脑到网络包括本地硬盘、局域网、互联网,每个角落都可以用桌面搜索寻找要找的东西。在这里要说明的是,虽然各公司纷纷投入桌面搜索的研发和发布,但各个公司对桌面搜索的定义却不尽相同。Google、百度认为桌面搜索应该只针对计算机本地信息的搜索,如文档、邮件、图片、网站浏览记录等。微软、Yahoo、中搜的桌面搜索产品却是包括本地搜索以及互联网搜索在内的全方位的桌面搜索软件,搜索方式便捷且专项搜索也更为丰富。

  说到桌面搜索的真正竞争是从2004年10月开始的,Google第一个推出了桌面搜索,立刻受到网民追捧,这个举措同时也将“桌面搜索”的概念清晰化。紧随其后,12月微软推出了MSN桌面搜索;2005年1月,雅虎推出了硬盘搜索工具。进入到3月,桌面搜索的竞争开始变得白热化。先是中国搜索发布了“网络猪”的最新版本,接着是Google、百度发布了各自的桌面搜索新产品,桌面搜索新的“圈地运动”展开了。

  桌面搜索“就像是电脑的照相存储器,任何在计算机上浏览过的信息都能轻松搜索到”,它将对现有的搜索方式产生极大的挑战。这巨大的诱惑力使得国内外的搜索厂商们纷纷加入到竞争中。但终级的博弈还是在软件技术力量强大的微软与Google之间展开,这从近日李开复弃微软转投Google而使微软极度恼火的事实可见一斑,因为李开复此前在微软主要负责微软MSN搜索技术的研发。

  尽管在桌面搜索上,Google占了先手,并动之以挖对手墙脚的策略。但微软毕竟是微软,在软件技术上不出手便罢,一出手必然指向全球最高目标,PC和手机操作系统无不如此。在搜索领域,微软“双管齐下”,一边拿MSN最新版对抗Google,一边在Windows Media Center系统中加入视频搜索功能。另外,微软的独创之处在于,首先是打造了软硬件结合的搜索平台,其次是它提供了一些Google没有的新功能。

  没有终点的较量——厂商角逐未来搜索引擎技术

  搜索引擎从诞生至今,始终是技术推动型的发展模式,在经历了二代的发展,进入第三代的今天,人们已经开始面向未来的搜索技术的研发。这之中包括了搜索引擎的老大Google和其竞争对手微软,也有一向以技术闻名IT界的IBM。

  Google改善企业搜索和音视频搜索:Google目前正在致力于研究分析音频和视频剪辑文件的算法。该公司还对软件系统加以改进,将不同IT系统中的数据萃取到易于理解的分类下,据称Google在其新闻网站上已经采用了该技术,搜索的准确率得到了很大的提高。

  微软加强搜索个性化:微软认为,计算机用户和搜索引擎交互还有一段艰难路途。该公司的市场分析显示,对于多半问题搜索引擎得不到令人满意的答案,原因往往在于用户没有提供足够多的细节信息。为此,微软正在开发一种工具,便于用户设定其问题,而且计算机易于得出相关答案。有迹象表明微软正在利用其技术实力对搜索结果个性化。

  IBM研究多媒体分析和语义搜索:对多媒体信息进行分析也是萦绕在IBM技术人员头脑中的想法,IBM认为,新型搜索技术将文档视为“人类语言的表达”,而不是匹配文字模式。除处理句法分析之外,IBM还在研究能够理解语义的搜索引擎技术——词在上下文中的含义。

  目前,该公司正在开发一种称作非结构化信息管理架构(UIMA)的软件架构,它有助于其他程序获取并分析文本、音频、视频中的数据,并且将之组织为更加结构化信息。在今后几年内,IBM计划公布UIMA技术细节,以帮助软件厂商构建应用程序,通过文本挖掘及分析从存储数据中提取有用信息。这将开启第三代搜索系统之门,真正实现智能化。

  P2P技术应用到网页的检索中:P2P是peer-to-peer的缩写,意为对等网络。它通过共享所有硬盘上的文件、目录乃至整个硬盘,用户搜索时无需通过Web服务器,不受信息文档格式的限制,即可达到传统目录式搜索引擎无可比拟的深度(传统引擎只能达到20%~30%的网络资源)。美国一家新兴搜索引擎设计公司i5 Digital在两年前已正式推出了依据对等搜索理念的商业性搜索引擎Pandango(www.pandango.com),但它至今仍未进入主流搜索引擎阵容的事实,则说明P2P搜索是未来的技术发展方向。


 pascal 发表于2006-02-26 3:51 PM  IP: 61.145.238.*中文搜索引擎技术揭密:系统架构

互联网发展的今天,一方面离不开其开放、共享的特性带给人们的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点。互联网被普及前,人们查阅资料第一想到的便是拥有大量书籍资料的图书馆,到了今天你怎么想?或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——互联网。你可以坐在家里轻点几下鼠标就查到想要的各类信息,这在互联网没有被普及之前,还都仅是一个梦而已,但如今这一切已成为了可能。

而帮助你通过整个互联网快速查找到目标信息的就是越来越被重视的搜索引擎。有关搜索引擎的技术资料网络上已经很多,关于搜索引擎经济的多方面报道各大媒体也都已经铺天盖地,因此在这里小编并不想过多的谈论这些方面的感受,只想在本次“中文搜索引擎技术揭密”系列文章全部完成之际来聊一下搜索引擎对小编的深远影响。

记得2000年左右网络上开始大量出现免费个人主页空间,当时的小编还只是一个刚刚进入IT圈的小朋友,看着这些空间那叫一个口水横流,于是乎立刻申请了一个。又经过了一个多月的刻苦修炼和先后三次的改版,自己有生以来的第一个个人主页诞生了。可看着每天寥寥无几的访问量,心里那叫一个难受,可一时间也想不到好办法解决问题。突然有天发现一篇介绍如何在搜索引擎注册自己个人网站的文章,于是小编就照着文章所讲的分别在SOHU、网易等搜索引擎的相关分类目录下注册了自己的个人主页。直至今日,小编才确切的知道了当时盛行的搜索引擎都属“目录搜索引擎”。这实际上是小编第一次使用、认识搜索引擎,再后来通过每天个人主页不断上升的数字小编感觉到了搜索引擎的神奇。

其实正是由于搜索引擎,才使小编的个人主页被更多的人所熟识,以至于后来有多份工作都是因为这个个人主页所带来的机会。其实这些经历或许很多人都有切身的体会,同样也有很多人因此去全身投入到互联网工作中。这正像那句话讲的“世界真奇妙,不看不知道”,小编在此多加一句“到底怎么看,搜索引擎帮你忙!”

互联网在近10年的得到飞速发展,互联网正在逐渐深入人们的生活,改变人们的生活。互联网经济也经历了风风雨雨,从缓慢起步到急速膨胀,从泡沫破灭到逐步回暖;从“网络广告”到“拇指经济”,从“网络游戏”到“搜索力经济”。目前,搜索引擎成为最受人们关注的焦点之一,也成为亿万富翁的制造摇篮。越来越多的公司都希望在搜索引擎这座金矿中挖到筐金子,其中许多人会选择拥有自己的搜索引擎。国内著名搜索引擎公司百度( http://www.baidu.com )总裁李彦宏说:搜索引擎不是人人都能做的领域,进入的门槛比较高。

搜索引擎的门槛到底有多高?搜索引擎的门槛主要是技术门槛,包括网页数据的快速采集、海量数据的索引和存储、搜索结果的相关性排序、搜索效率的毫秒级要求、分布式处理和负载均衡、自然语言的理解技术等等,这些都是搜索引擎的门槛。对于一个复杂的系统来说,各方面的技术固然重要,但整个系统的架构设计也同样不可忽视,搜索引擎也不例外。

搜索引擎技术和分类
搜索引擎的技术基础是全文检索技术,从20世纪60年代,国外对全文检索技术就开始有研究。全文检索通常指文本全文检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索,一般用于企事业单位。随着互联网信息的发展,搜索引擎在全文检索技术上逐渐发展起来,并得到广泛的应用,但搜索引擎还是不同于全文检索。搜索引擎和常规意义上的全文检索主要区别有以下几点:

1、数据量
传统全文检索系统面向的是企业本身的数据或者和企业相关的数据,一般索引库规模多在GB级,数据量大的也只有几百万条;但互联网网页搜索需要处理几十亿的网页,搜索引擎的策略都是采用服务器群集和分布式计算技术。

2、内容相关性
信息太多,查准和排序就特别重要,Google等搜索引擎采用网页链接分析技术,根据互联网上网页被链接次数作为重要性评判的依据;但全文检索的数据源中相互链接的程度并不高,不能作为判别重要性的依据,只能基于内容的相关性排序。

3、安全性
互联网搜索引擎的数据来源都是互联网上公开的信息,而且除了文本正文以外,其它信息都不太重要;但企业全文检索的数据源都是企业内部的信息,有等级、权限等限制,对查询方式也有更严格的要求,因此其数据一般会安全和集中地存放在数据仓库中以保证数据安全和管理的要求。

4、个性化和智能化
搜索引擎面向的是互联网访问者,由于其数据量和客户数量的限制,自然语言处理技术、知识检索、知识挖掘等计算密集的智能计算技术很难应用,这也是目前搜索引擎技术努力的方向;而全文检索数据量小,检索需求明确,客户量少,在智能化和个性可走得更远。

搜索引擎与全文检索除了以上的区别外,还结合互联网信息的特点形成了三个不同的类型:

全文检索搜索引擎: 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google ( http://www.google.com ) 、yahoo( http://search.yahoo.com ) 、AllTheWeb ( http://www.alltheweb.com ) 等,国内著名的有百度( http://www.Baidu.com )、中搜( http://www.zhongsou.com )。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,也是目前常规意义上的搜索引擎。

目录搜索引擎: 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。国外比较著名的目录索引搜索引擎有yahoo( http://www.yahoo.com )Open Directory Project(DMOZ)( http://www.dmoz.com/ )、LookSmart( http://www.looksmart.com )等。国内的搜狐( http://www.sohu.com )、新浪( http://www.sina.com )、网易( http://www.163.com )搜索也都具有这一类功能。

元搜索引擎: 元搜索引擎在接受用户查询请求时,同时在其它多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有Dogpile( http://www.dogpile.com )、Vivisimo( http://www.vivisimo.com )等,国内元搜索引擎中具代表性的有搜星搜索引擎( http://www.soseen.com/ ),优客搜索( http://www.yok.com )。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。

其他的像新浪( http://search.sina.com.cn )、网易( http://search.163.com )、A9( http://www.A9.com )等搜索引擎都是调用其它全文检索搜索引擎,或者在其搜索结果的基础上做了二次开发。

搜索引擎的系统架构
这里主要针对全文检索搜索引擎的系统架构进行说明,下文中提到的搜索引擎如果没有特殊说明也是指全文检索搜索引擎。搜索引擎的实现原理,可以看作四步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。  

1、从互联网上抓取网页
利用能够从互联网上自动收集网页的 网络蜘蛛 程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集到服务器中。

2、建立索引数据库
由索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

3、在索引数据库中搜索
当用户输入关键词搜索后,分解搜索请求,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。

4、对搜索结果进行处理排序
所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

下图是一个典型的搜索引擎系统架构图,搜索引擎的各部分都会相互交错相互依赖。其处理流程按照如下描述:



“ 网络蜘蛛 ”从互联网上抓取网页,把网页送入“ 网页数据库 ”,从网页中“ 提取URL ”,把URL送入“ URL数据库 ”,“ 蜘蛛控制 ”得到网页的URL,控制“ 网络蜘蛛 ”抓取其它网页,反复循环直到把所有的网页抓取完成。

系统从“ 网页数据库 ”中得到文本信息,送入“ 文本索引 ”模块建立索引,形成“ 索引数据库 ”。同时进行“ 链接信息提取 ”,把链接信息(包括锚文本、链接本身等信息)送入“ 链接数据库 ”,为“ 网页评级 ”提供依据。

“ 用户 ”通过提交查询请求给“ 查询服务器 ”,服务器在“ 索引数据库 ”中进行相关网页的查找,同时“ 网页评级 ”把查询请求和链接信息结合起来对搜索结果进行相关度的评价,通过“ 查询服务器 ”按照相关度进行排序,并提取关键词的内容摘要,组织最后的页面返回给“ 用户 ”。

搜索引擎的索引和搜索
对于网络蜘蛛技术和 排序技术 请参考作者其它文章[1][2],这里以Google搜索引擎为例主要介绍搜索引擎的数据索引和搜索过程。

数据的索引分为三个步骤:网页内容的提取、词的识别、标引库的建立。

互联网上大部分信息都是以HTML格式存在,对于索引来说,只处理文本信息。因此需要把网页中文本内容提取出来,过滤掉一些脚本标示符和一些无用的广告信息,同时记录文本的版面格式信息[1]。词的识别是搜索引擎中非常关键的一部分,通过字典文件对网页内的词进行识别。对于西文信息来说,需要识别词的不同形式,例如:单复数、过去式、组合词、词根等,对于一些亚洲语言(中文、日文、韩文等)需要进行 分词处理 [3]。识别出网页中的每个词,并分配唯一的wordID号,用于为数据索引中的标引模块服务。

标引库的建立是数据索引中结构最复杂的一部分。一般需要建立两种标引: 文档标引和关键词标引 。文档标引分配每个网页一个唯一的docID号,根据docID标引出在这个网页中出现过多少过wordID,每个wordID出现的次数、位置、大小写格式等,形成docID对应wordID的数据列表;关键词标引其实是对文档标引的逆标引,根据wordID标引出这个词出现在那些网页(用wordID表示),出现在每个网页的次数、位置、大小写格式等,形成wordID对应docID的列表。

关于索引数据的详细数据结构,有兴趣的朋友可以参看文献[4]。

搜索的处理过程是对用户的搜索请求进行满足的过程,通过用户输入搜索关键字,搜索服务器对应关键词字典,把搜索关键词转化为wordID,然后在标引库中得到docID列表,对docID列表进行扫描和wordID的匹配,提取满足条件的网页,然后计算网页和关键词的相关度,根据相关度的数值返回前K篇结果(不同的搜索引擎每页的搜索结果数不同)返回给用户。如果用户查看的第二页或者第多少页,重新进行搜索,把排序结果中在第K+1到2*K的网页组织返回给用户。其处理流程如下图所示:



搜索引擎细化趋势
随着搜索引擎市场空间越来越大,搜索引擎也分得越来越细。互联网没有国界,百度总裁李彦宏所讲:搜索引擎市场是赢家通吃的市场。如果一个搜索引擎要想在搜索市场上有自己的一席之地,必须拥有自己的特色。而且,数以亿计的网民,搜索需求不可能都一样,不同类型的用户需要不同类型的搜索引擎,网页搜索只是搜索需求中的一种,这就决定了搜索引擎会不断细化,各具特色的搜索引擎也陆续出现。

从技术上讲,各种搜索引擎都具有类似的系统架构,其不同在于搜索的数据源的不同。除了上面提到的网页搜索引擎以外,下面列举几个典型的搜索引擎:

新闻搜索引擎
看新闻是许多网民上网的主要目的,新闻搜索也就成了查看新闻的重要工具。新闻搜索引擎实现的过程比较简单,一般是扫描国内外有名的新闻网站,抓取新闻网页,建立自己的新闻数据库,然后提供搜索,只是对新闻网页抓取的频率要求很高,有的需要做到几分钟扫描一次。现在许多大型的网页搜索引擎都提供相应的新闻搜索功能,如:Google新闻搜索( http://news.google.com ),中搜新闻搜索( http://news.zhongsou.com ),百度新闻搜索( http://news.baidu.com )等。

音乐搜索引擎
有了互联网以后,音乐得到了广泛的传播,对于喜欢音乐的网民来说,音乐搜索引擎成了最钟爱的工具。音乐搜索引擎需要监控互联网上大型的音乐网站,抓取其音乐数据的描述信息,形成自己的数据库,音乐的下载和试听都会在其原来的音乐网站上进行。目前有:搜刮网( http://www.sougua.com ),百度mp3搜索( http://mp3.baidu.com ),1234567搜索( http://www.1234567.com )等。

图像搜索引擎
通过图像搜索引擎可以找到自己感兴趣的图片链接,各大搜索引擎也提供了图像搜索功能。图像文件本身不能够被搜索引擎索引,但搜索引擎可以通过链接文本分析和图片注解等得到图片的信息。目前有:Google图像搜索( http://images.google.com/ ),VisionNext搜索( http://www.eefind.com ),百度图像搜索( http://images.baidu.com )等。

商机搜索引擎
电子商务一直是互联网的热点,商机搜索对电子商务的发展也起到了巨大的推动作用,商机搜索让互联网经济和传统经营紧密结合在一起,给传统的企业提供了一个新的销售模式。商机搜索引擎,通过抓取电子商务网站的商品信息和其他商业信息,给访问者提供统一的搜索平台。目前有:soaso价格搜索引擎( http://www.soaso.com ),8848购物搜索( http://www.8848.com ),阿里巴巴商机搜索( http://www.alibaba.com )等。

其他特色的搜索引擎还有专利搜索、软件搜索、ftp搜索、游戏搜索、法律搜索等等,有兴趣的朋友可以参看文献[5]。

更多参考:
关于搜索引擎系统架构的知识可以参考文献[4][6][7]。以下的文献中有些只列出了文章的标题,大家可以在搜索引擎中输入标题进行搜索,可以直接得到下载链接。

[1] 中文搜索引擎技术解密:网络蜘蛛 。
[2] 中文搜索引擎技术解密:排序技术 。
[3] 中文搜索引擎技术解密:分词技术 。
[4] The Anatomy of a Large-Scale Hypertextual Web Search Engine. Author: Sergey Brin and Lawrence Page, 1998.
[5] 搜索引擎目录。
[6] WiseNut Search Engine white paper. Author: Wisenut Inc. 2001.
[7] AltaVista white paper. Author: Altavista Inc. 1999

 pascal 发表于2006-02-26 4:05 PM  IP: 61.145.238.*第三代搜索引擎技术与P2P

2003-03-11· · ··Yesky


  第二代搜索引擎虽然比第一代在搜索速度、针对多种语言信息的扩展等方面有所改进,在以自然语言为查询语言方面也做了一些探索。然而,随着Internet的强势发展,网上庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出。IDC在2001年下半年公布的一份报告表明,前期被大肆宣传为“使用简便易用,搜索结果丰富”的搜索引擎技术正在被信息更集中的局域网取代,因为大多数搜索系统的表现与用户的期望值相差太大,诸如数据量高速增长的视频、音频等多媒体信息的检索,现在仍然是无法突破的难题。

  一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自动排序软件Spiders蜘蛛程序,只能接受这种格式的网页。这意味着,在企业内部的局域网上,任何没有使用HTML格式的信息将无法被外部的搜索引擎查到。这就是为什么像PPT、Word、PDF、电子邮件等文件,以及ERP、CRM等应用软件的数据库的信息会长期的“沉没”在信息的海底中。

  如何解决这些难题已成为第三代搜索引擎探索的方向。一个好的搜索引擎不再仅凭借数据库大小、更新频率、检索速度、对多语言的支持这几个基本特性来衡量,随着数据库容量的不断膨胀,如何从庞大的资料库中精确地找到正确的资料,被公认为是下一代搜索技术的竞争要点。比如在某搜索引擎中查询“旅游”这个词,返回的信息超过一百万条,假定一个人3秒钟查看一个网页,就算只查看其中10%的网页,一刻不停地看下去也需要十多个小时。

  好在搜索引擎技术发展迅速,诸如智能化、个性化特色的新型引擎与过去的搜索引擎相比有了很大的区别。智能搜索可以通过对搜索内容相关性的自动学习,来提高搜索结果的准确度。不过,现在还没有一种可行的方式真正实现智能化,很难将所需信息一定显示在前两三页的搜索结果之中。

  另一个颇受瞩目的搜索技术就是将P2P技术应用到网页的检索中。通过共享所有硬盘上的文件、目录乃至整个硬盘,用户搜索时无需通过Web服务器,不受信息文档格式的限制,即可达到传统目录式搜索引擎无可比拟的深度(传统引擎只能达到20%~30%的网络资源)。美国一家新兴搜索引擎设计公司i5 Digital在两年前已正式推出了依据对等搜索理念的商业性搜索引擎Pandango(www.pandango.com),但至今仍未进入主流搜索引擎阵容的事实,则说明P2P搜索目前也只能称为是未来的技术。

  “P2P搜索这个理念我最早是1997年底在Infoseek听到的,当时的Infoseek里已经有人提出并开始考虑这种搜索技术了”,李彦宏表示,“各个网站上都有一个自己的小的搜索引擎,大家相互之间可以进行沟通,如果这个引擎查不到,可以通过其他的引擎查,就是这样的一个概念。但是到目前为止,它离实际的应用还差得非常远,主要是违反了关键性指标中有关速度的问题。由于有很多这种小的相互独立又相互链接的引擎,其速度与集中式管理的搜索引擎相比肯定会差很多”。

  商业应用与学术研究之间总会存在一定的距离,但这并不是表示商业界不重视对技术的追求,尤其是像Google这些已经处于该领域金字塔塔尖的公司。Google拥有一个开放性数据库,内含一百多个未来需要实施的项目,这些项目由五十位计算机科学博士负责推进。2002年6月,Google专门成立了“实验室”,以展示他们在互联网搜索领域里最新研究的技术,并发布在互联网(labs.google.com)上供公众试用,广泛收集用户的反馈意见。实验室里已经展示的项目,包括键盘检索、语音检索等等。

  或许有些人会认为,这些所谓的实验项目似乎看不出搜索引擎技术将在观念上进行大的转变,实际上,搜索引擎技术在8年多的时间里一直是以一个渐变的过程在发展。“一个搜索引擎并不是说某一方面好就能受大众喜欢,必须方方面面做到了才行”,李彦宏这么认为,“现在搜索还不能完全满足人们的需求,因为需求太多样化,很难一一满足”。这也是主流搜索引擎目前更重视在细节上下功夫的原因。

  无论如何,包括Google的佩杰在内的搜索技术领域的领先者都认为,最终的搜索引擎将是智能化的,能够理解世界上的所有事物。佩杰还是Web服务技术领域积极的参与者,他正在尝试将Web服务技术应用到搜索当中,以解决跨平台、多格式的信息检索。而我们现在所见到的,主流搜索技术把注意力集中在提升自身搜索引擎质量、扩展应用范围,比如支持图片检索、PDA等移动手持设备的检索,这些都将成为下一代技术实现过程中必不可少的步骤。


 pascal 发表于2006-02-26 4:14 PM  IP: 61.145.238.*黑客:搜索引擎技巧让您成为黑客 我要评论

更新时间:05年1月19日 ITdoor.net/王涵涵


利用 Google 突破各种封锁来下载你要的东西


在搜索框上输入:"index of/ "inurl:lib
再按搜索你将进入许多图书馆,并且一定能下载自己喜欢的书籍。

在搜索框上输入: "index of /"cnki
再按搜索你就可以找到许多图书馆的CNKI、VIP、超星等入口!

在搜索框上输入: "index of /"ppt
再按搜索你就可以突破网站入口下载powerpint作品!

在搜索框上输入: "index of /"mp3
再按搜索你就可以突破网站入口下载mp3、rm等影视作品!

在搜索框上输入: "index of /"swf
再按搜索你就可以突破网站入口下载flash作品!

在搜索框上输入: "index of /"要下载的软件名
再按搜索你就可以突破网站入口下载软件!

注意引号应是英文的!

再透露一下,如果你输入:
"index of /"AVI

你会找到什么呢?同理,把AVI换为MPEG看看又会找到什么呢?呵呵!接下来不用我再教了吧?



小编点评:

google搜索引擎的强大,足可以让您在互联网上的身份曝露,同时保存在不可阅读处的秘密文件也将可以被阅览,这些都在证明着,一个强大的工具反过来也同样是一款强大的武器,还是希望大家谨慎小心,在互联网上不要存放过多真实信息,要不,很可能为您带来捆饶!





 pascal 发表于2006-02-26 4:20 PM  IP: 61.145.238.*让收费网站去死吧,用google 突破 -|咕噜猪 发表于 2005-8-13 18:22:38



首先打开Google,在关键词输入框中输入"index of/"inurl:lib(双引号为英文状态下),选择“搜索简体中文网页”选项,回车搜索,得到了一些网页,不要以为这是一些普通的页面,其实它们是一些图书网站的资源列表,点击打开它来看看,怎么样?是不是所有资源一收眼底了?

使用其他关键字可能得到更多的资源
在搜索框上输入:"index of /"cnki
再按搜索你就可以找到许多图书馆的CNKI、VIP、超星等入口!
在搜索框上输入:"index of /" ppt
再按搜索你就可以突破网站入口下载powerpint作品
在搜索框上输入:"index of /"mp3
再按搜索你就可以突破网站入口下载mp3、rm等影视作品
在搜索框上输入:"index of /"swf
再按搜索你就可以突破网站入口下载flash作品
在搜索框上输入:"index of /"加上要下载的软件名

再按搜索你就可以突破网站入口下载软件

到这里,大家也许都明白了,其实就是"index of /"这个关键词在起的作用,使用它可以直接进入网站首页下的所有文件和文件夹中,不必在通过HTTP的网页形式了,从而避免了那些网站的限制,作到了突破限制下载



发了这个帖,我又上网遛遛,又发现这篇相关文章,把它贴在这里与大家分享
超级P2P搜索引擎让所有收费网站破产!
2005-04-01 05:45:06 fzj4326@-6tZZ http://bbs.mobile.163.com/push/-6tZZ-OnrjHn--BLA.html 复制 评论
搜索Google大家都用过吧?我们正是利用它强劲的搜索功能来突破封锁下载,Google搜索和限制下载有什么关系,没可能实现吧?不要不相信哦,往下看哦!

http://www.google.com/intl/zh-CN/
http://www.3721.com/
http://www.baidu.com/

首先打开Google,在关键词输入框中输入"index of/"inurl:lib(双引号为英文状态下),选择“搜索简体中文网页”选项,回车搜索,得到了一些网页,不要以为这是一些普通的页面,其实它们是一些图书网站的资源列表,点击打开它来看看,怎么样?是不是所有资源一收眼底了?

使用其他关键字可能得到更多的资源:

在搜索框上输入:"index of /"cnki

再按搜索你就可以找到许多图书馆的CNKI、VIP、超星等入口!

在搜索框上输入:"index of /" ppt

再按搜索你就可以突破网站入口下载powerpint作品!

在搜索框上输入:"index of /"mp3

再按搜索你就可以突破网站入口下载mp3、rm等影视作品!

在搜索框上输入:"index of /"swf

再按搜索你就可以突破网站入口下载flash作品!

在搜索框上输入:"index of /"加上要下载的软件名

再按搜索你就可以突破网站入口下载软件!

在搜索框上输入:"index of /"AVI

再按搜索你就可以突破网站入口下载AVI视频

你会找到什么呢?同理,把AVI换为MPEG看看又会找到什么呢?呵呵!接下来不用我再教了吧?那就试一下你的手气吧!

"index of /" RMVB
"index of /" WMA
"index of /" MTV
"index of /" MPEG
以下是百度搜索排名
1. index of mpeg4
3. index of mp3
4. index of cnki
5. index of rmvb
6. index of rm
7. index of movie
8. index of swf
9. index of jpg
10. index of admin
12. index of pdf
13. index of doc
14. index of wmv
15. index of mdb
16. index of mpg
17. index of mtv
18. index of software
19. index of mov
20. index of asf
23. index of lib
24. index of vod
25. index of rar
27. index of exe
28. index of iso
29. index of video
30. index of book
31. index of soft
32. index of chm
33. index of password
34. index of game
35. index of music
36. index of dvd
37. index of mid
38. index of ebook
40. index of download

到这里,大家也许都明白了,其实就是"index of /"这个关键词在起的作用,使用它可以直接进入网站首页下的所有文件和文件夹中,不必在通过HTTP的网页形式了,从而避免了那些网站的限制,作到了突破限制下载。

怎么回事?点鼠标右键直接用网际快车下不了,都是网页,链接地址是乱码。别灰心懈气,可以在新窗口中打开页面中的超链接,真实地址不就出来了。下面就用马克思ie(mxie)这个超级P2P共享资源搜索引擎帮你搞定收费网站。
马克思ie简体中文网址:http://cn.mxie.com/down.html
http://cn.mxie.com/mxie0400Setup_cn.exe

马克思ie(mxie)
软件大小:3307KB
软件语言:简体中文
软件类别:国产软件/免费版/搜寻引擎
运行环境:Win9x/Me/NT/2000/XP
马克思ie(mxie)是一个拥有网页浏览器功能的超级P2P搜索引擎,完全免费!各种音乐、电影、动漫、小说、图片等娱乐文件,一切你想得到的都可以找到!采用目前最为先进的多点P2P技术,搜寻到的就能下载到,绝对无死链!神奇的“越多人下载越高速”特性,充分挖掘你的带宽潜力,保证高速!独家装备了强力防火墙穿透利器,即使在严密防护的企业防火墙后也能通行自如。
完全免费,永远免费!
完全免费!永远免费!马克思ie(mxie)就是要把免费进行到底!奉行网络上的马克思主义,打造影音娱乐共产帝国!

编者自述:此方法采用独特技巧,集成了网络加速及穿透防火墙的P2P共享技术,能够无限提升你的网速!----高手自然一点就透,对于菜鸟本人也不想浪费唇舌多作解释,以下跟着洒家向前冲:

先下一个exe文件合成器“绿色分割{X} V3.1”:
http://www.pcdog.com/soft/20205.htm
http://www1.pcdog.com/down/Split3.1.rar

解压到指定文件夹。再下一个加速软件“speed4web”:
Speed4WEB 可以帮忙你把浏览器的速度提升到原来的300%!程序使用简单,提交小巧!功能强大!
Speed4WEB V2.2.3.2 汉化版:
http://www.yqdown.com/soft/675.htm
http://km.yqdown.com:8989/UUAuth/wlgj/Speed4WEB_v2.H.rar
http://www2.pcdog.com/down4/HB_Speed4WEBV2.2.3.2.exe
http://www.pcdog.com/down2/HB_Speed4WEBV2.2.3.2.exe

解压安装后点击桌面图标打开,在所有选项前均打勾(除了“总在顶部”),最小化令其运行。
点桌面图标右键,点属性,点查找目标,找出其真实应用文件“Speed4WEB.exe”,将它复制到指定文件夹。

选择你最想加速的文件***:点桌面图标右键,点属性,点查找目标,找出其真实应用文件“***.exe”,复制到指定文件夹。

双击打开绿色分割,点“合并”,点“合并任意文件”,点+号依次选择“***.exe、Speed4WEB.exe”,点“设置”,点“正常、分割完成后生成合并exe文件”,点“保存文件”选择***文件原路径,重命名为“***.exe”,点开始即可替换原“***.exe”。

注意:合并过程中***软件不可使用,否则无法成功替换原***文件!也不可以关闭Speed4WEB!

再下一个共享资源搜索利器“马克思ieV.0.4.0.0 最新版--
马克思ie简体中文网址:http://cn.mxie.com/down.html
http://cn.mxie.com/mxie0400Setup_cn.exe

解压双击安装后,以“马克思ie(mxie)”为例,下载后重命名为“马克思ie(mxie).exe”即可直接双击安装,点桌面上刚刚生成的”马克思ie(mxie)”图标右键,点属性,点查找目标,找出其真实应用文件“mxie.exe”,复制到指定文件夹。下面按步就搬即可。

以上方法经本人测试,适合于各式各样五花八门的下载工具、游戏、浏览器以及其它一切与网络相关的软件。----这种合成的软件同时运行的越多,网速愈快!

每个人上网的方式与宽带限制都不一样,有时候是电信局封了BT端口或用了扫描仪限制下载流量,请恕本人也无能为力了!用过马克思ie的朋友仍然嫌慢的话,请打上下面的补丁

最新上传漏洞通用工具 V1.0
http://soft.sq88.com/soft/537.htm
http://download.sq88.com/hk/upld.rar

动网下载中心上传漏洞利用工具
http://soft.sq88.com/soft/419.htm
http://download.sq88.com/hk/dvup.rar

任意下载其中一个后门程序,解压后即可见其中的两个ActiveX控件“MSINET.OCX、MSWINSCK.OCX”,然后再用绿色分割合并即可。

好了,废话少说。觉得有用请顶一下,并帮我多多转贴,别小心眼偷懒呀!
当网上有半数人熟悉此法时,估计收费网站也要破产了!

楼下的朋友看不懂么?我晕。后缀名为.exe的文件,下载后可重命名***.exe,直接双击安装即可,而不是用RAR解压,这个难道还用问我?压缩包中的绿色分割放进RAR解压,其后缀名已经是"Split3.1.exe",直接从压缩包中拖出来即可双击使用。

[阅读全文(226) | 回复(3) | 引用通告(0) | 编辑]

--------------------------------------------------------------------------------

·回复:让收费网站去死吧,用google 突破 -|表扬(游客)发表评论于2006-2-24 15:24:16

真的很有用,不用不知道,用了吓一跳。
[ | 引用 | 返回 | 删除]

--------------------------------------------------------------------------------

·回复:让收费网站去死吧,用google 突破 -|一碗水(游客)发表评论于2006-2-12 2:45:41

真不错
[ | 引用 | 返回 | 删除]

--------------------------------------------------------------------------------

·回复:让收费网站去死吧,用google 突破 -|骑士(游客)发表评论于2005-10-9 13:21:20

很好
[ | 引用 | 返回 | 删除]

--------------------------------------------------------------------------------

视高高清视频会议,免费试用
千人视频会议,租用60元不限时包月
视频电话,协同办公,免费赠送,诚征代理


视频社区 www.video.com.cn/club/ 全新推出
视频爱好者的网上新家园
打造最好的网络视频社区


 pascal 发表于2006-02-26 5:03 PM  IP: 61.145.238.*用google查密码


实际上用google检索密码非常的容易,就像一个朋友曾经讲的,设定检索关键词非常重要,我的经验有以下几点,与大家交流:
1 任何想查的+password(注意 +号不打),而且PASSWORD在西文中都是相同的,不会漏检,不像username有很多词能够替代,比如userID,userlogin等等。
2 在查到初步结果后,用google的高级检索,具体设定每页的检索结果,然后用IE页面上的编辑→查找→“PASSWORD”,可以大大提高检索效率。
3 最关键的是主题词设定,这里还是强调不要仅仅用刊物名+password查,会漏掉很多宝贝。以前已经讲过要用“medicine journal password”,“medicine databases password”,“health journal/databases password”,“medical e-journal password”,“medicine e-resourse password”或者直接用“Ovid journal password ”“proquest password”“ebsco password”等等来查。
5 上述方法就是高手常用的一般方法,有的朋友还用别人找到的密码反查,也有很好的效果,这种窍门应该值得提倡。
6 实际上如此检索仍有漏洞,因为西方文献检索的书目编排与中文不同,很多我们认为天经地义属于医学的类目不在“medicine”下,因此造成漏检,比如护理、精神病以及生物学往往自成体系,与“medicine”并列,因此除了上述检索式外,还应该用“. ..... password”查,这里仍然卖个关子,实际上聪明人已经知道该怎样去做了.
7 当然还有其他更绝的方法,留待以后再讲吧.

首先声明,这只是我自己的经验,不一定适合大家。
找期刊或数据库密码,当然www.google.com,就用“期刊名(数据库)+password”就可以了,通常username有很多形式,比如“username”“useraccount”“useer ID”等等,只有password不变,因此上述方法就可以了。注意在google页面上进入高级检索,对上述检索式进一步修订,通常google只分页显示800个条目,这已经够你找的了,一般每次你用不同的检索式都会有惊喜。
上述方法能够很快使你成为中级战友的,而且越来越不用求人。我想这是很多中级战友的共同体会,这也是我为什么讨厌有的新手一进来就嚷嚷要密码,自己没有试过最好试完以后再说。
当学会这种方法以后,实际上你会越来越迷上找密码,有些朋友公布的密码和另一些人重复就不足为奇了。
至于用代理服务器甚至hecker软件,并不足取,也没必要,但代理服务器的好处是一旦拥有,别无所求,可以一劳永逸的“吃饱吃好”,再无密码失效的烦恼。
先到这里,我还要到中级论坛发一个重要的数据入口,当然是用上面的方法找的。

继续我们之前的话题:
1 千万重视在检索密码时的某些PDF格式文件,常常有惊人的发现,我有两个密码就是通过这种方法查到的,赶紧下载阅读PDF阅读软件吧。
2 很多朋友在查密码的时候会发现非英语国家的图书馆密码,这就是目前的现状——欧洲国家的文明与科学开化程度决定的。因此如果你进入到一个非英语的图书馆,要学会用当时页面某些词作为关键词回到GOOGLE检索,会有发现的,举例说明MEDICINE在德文 或丹麦语中为“MEDIZINE”。
3 强调对检到的网页不要轻言无效,由于GOOGLE的时效性,某些页面已经被调整了,因此如果高度怀疑会有密码的话,一定要勤于研究。这也是为什么我不愿意随便公开密码,或痛恨随便泄露密码的原因,因为这是艰苦搜索换来得。
4 说来说去,检索密码的关键在于检索词,目前的引擎技术或搜索引擎没有大的区别,就我的经验来看,GOOGLE是首选,因为其页面明确标明PASSWORD,易于快速寻找,不象某些引擎。

通过检索发现国外的密码公布在94~2001上半年是比较多的,前期连数据库都有,后期以个别期刊的密码为主,也就是说数据库的管理越来越严,入口限制的很厉害,看来未来的发展应该是以期刊入口为主了。这方面还是应该有所准备的好。
台湾/南韩的密码好象很容易得到,真正好用的也不少,但我以前比较轻视台湾/南韩,这一点,FRIEND88作的非常好,向他祝贺!

大家请看以下内容(来http://libinfo.uark.edu/eresources/eresources.asp )就知道以前我所说的不虚,与医学有关的都在Science & Technology 大条目下,又细分为:
Agriculture & Food | Biology | Botany | Chemistry | Computer Science | Engineering | Environmental Dynamics | Geology | Kinesiology | Mathematics | Medicine | Nursing | Physics | Psychology | Statistics | Zoology。
因此如果仅以medicine检索,就会漏掉不少很有价值的信息,特别是漏掉的专业的,损失惨重也。

我曾用过的密码检索词
medicine journal ID pw
chemWEB.COM PASSWORD
Virtuelle Bibliothek PASSWORD
“Online Full Text Resources password”
“health sciences library password ”
“OvidLWW password”
“medizin bibliothek password”
“medizin Volltext password”
“medizin literatur password”
“health ejournals password ”
“medizin elektronik password”
Medizin Bibliothek Datenbank Benutzername Kennwort
medicina BIBLIOTECA password
médecine PéRIODIQUES éLECTRONIQUES password
health ejournals password
American Journal of Medicine OnLine FULL TEXT Journals username password
medicine journal fulltext username
大家如果有兴趣可参考我以前的贴子,自设关键词,在GOOGLE上检索,慢慢的就明白原来如此简单、有趣...艰苦、吐血...

A GOOD NETSITE
http://www.tcd.ie/Library/People/Mark.Walsh/JournalA.html
http://210.119.137.155/journal/journal_main_06.html
http://www.galaxyofhealth.com/journals.html
http://www.hamdenlibrary.org/reference.html

和多朋友都知道“medicine journal username password”....或者进一步扩充上述检索词,能够找到很多有价值的地址。
实际上有一种窍门,可以减少工作量:
既然我们在找全文杂志密码,那么有全文网址的地方一定会登载一些医学界经典杂志,比如新英格兰、自然等杂志的密码和用户名,我们只要用一本经典杂志名+username password就能事半功倍,例如:
username password "American Heart Journal"
就能大有收获,如果再对上述检索式修饰一下,比如:
username password "American Heart Journal" site:ac.jp
就将检索范围限制在日本的大学中(建议少用ac,直接用site:jp就行)

tips:
1. 注意,日本和韩国图书馆多用“userid password”或“USERID PWD”,这一点要注意。
2. 上面提到的检索式中,那个“经典杂志”的选择很重要,不要用自然或新英格兰医学,要用美国心脏杂志、美国妇产科杂志...你选择什么杂志与你的检索收获成正比,如果幸运的话,能够有惊人发现,包括ovid以及目前肯定没有被公开的全文密码站点!!!
3. 上述检索式还能够对时间进行限制,更减少工作量。
4. 杂志名一定要用双引号!

http://www.bcrp.pcarp.usp.br/recursos_onlineB-D.htm
www.unicaen.fr/unicaen/service/scd/periodiques-integral.htm
http://www.acta.nl/page_nl.asp?pid=26

http://lib.ghil.com/ej/c.htm 站内有很多杂志,而且链接也作的非常精美!值得推荐,但是这些都掩饰不住其中的奥妙:
凡是杂志倩影旁边有绿色笔记本样标记,就代表“fulltext”,将鼠标放在该杂志上,就会显示出杂志的用户名与密码!试一试吧!

www.lib.nctu.edu.tw/n_service/joulist.htm
http://216.239.33.100/search?q=c ... =zh-CN&ie=UTF-8
http://goserv.iis.sinica.edu.tw/LIB/USERS/sevena.html

目前经过验证,最简单有效的密码检索式应该是:
"medicine journal password OR pw OR pwd "american heart journal" -telnet -forget -forgot -required"
说明:以上检索在GOOGLE中进行
1. 检索目的在于查找能够提供绝大多数医学杂志的username password的网页,通常医学核心杂志没有不是带有"医学杂志"称谓的,故选择american 和journal.
2. "password OR pw OR pwd" 在于password是password的衍生(当然还有一两个,这里保密),绝大多数不会超过这三个词,不像username 有user name\user login\userlogin\accunt\nickname\userid\user ID...等等衍生.不利于精检.
3. "American Heart Journal"则仁者见仁,智者见智,也可以选其他最知名杂志名称,大大提高检出率,并显著减少工作量.
4 -TELNET 代表删去带有telnet的页面,因为很多医学站点提供的telnet根本永不上,常常与期刊杂志混淆.其他删减原因自明.
5. 当然你还可以增删,包括限定时间,国家,语言,或加入语法.


出处:联合在线 日期:2005-4-5

 pascal 发表于2006-02-26 5:06 PM  IP: 61.145.238.*第三代搜索引擎技术揭密



本站域名: www.21eb.org 加入日期:2004-8-3


什么是第三代搜索引擎
  互联网提供了即时丰富的信息(以及人与人沟通参与/娱乐的平台),深层影响着现代人的生活。但随着网站数量和内容的急增,互联网就像是没有目录的巨大百科全书,让人们无法找寻自己想要的信息。搜索引擎的出现,为这本百科全书加上了目录和索引。不论我们想从互联网中寻 找清华北大的网址、李小龙的图片,或者养猫的方法,只需要在搜索框中敲入关键词汇,就能够获得相关的信息或网址。

  搜索引擎是对计算机科学与技术的极大发挥,将理论研究和工程开发完美结合,创造了非凡的用户体验和文化。以Google为代表的传统搜索引擎,在用户输入一个查询词时,返回和此查询词相关的网页摘要,并尽可能将用户需要的结果排在了前面。但搜索引擎毕竟不会“猜心术”,对于一个词,通常用户会有不同的需求,比如对于“绿茶”,人们要的可能分别是茶文化、健康知识、电影介绍、化妆品或者其他。(大多数)用户并不能够通过一两个词,精确表达自己所想要的内容,搜索引擎也无能为力只有返回大量的结果供用户选择。

  搜狐首推的第三代搜索——互动式搜索,在用户输入一个查询词时,尝试理解用户可能的查询意图,给与多个主题的搜索提示,引导用户更快速准确定位自己所关注的内容。 (另一个好处:在用户搜索冲浪时,给与用户未曾意识到的主题提示)

  搜索历程

  1998年提供分类目录和搜索

  2000年升级(网站搜索:自主开发的网站搜索引擎网页搜索:采用第三方技术和服务)

  开发进度

  2003年3月立项,7月份完成团队组建和系统设计

  2004年3月,完成第一期开发,推出beta测试版本,成为首家拥有自主开发网页搜索引擎技术的门户网站

  2004年8月,完成第二期开发,正式发布1.0版本,整合搜索传统分类资源,首推用户互动式搜索功能,成为全球首家第三代搜索引擎服务提供商

  开发优势

  搜狐的传统文化,秉承了搜狐文化引导技术和产品的结合

  团队优势:研发中心承接,研发核心人员由2个本科,15个硕士,6个博士组成,国际信息学奥赛金牌领衔开发

  整合了自搜狐初创以来八年的人工整理分类信息

  产品特点

  互动式搜索:互动式搜索是在用户查询和搜索引擎返回结果的人机交互过程中,引擎根据用户的查询内容,智能展开多组相关的主题,帮助用户快速找到相关搜索结果

  分类导航:针对部分查询结果项,扩展到类似或相关网站

  查询精确相关:先进的分词引擎,并利用搜狐4000万用户名优化分词引擎的人名识别。在查询结果中,剔出了页面中仅在链接文字上包含查询词的网页数据量,收录2亿中文网页,超过Google收录量。

  更新速度:每天更新最重要的网站和新闻



 pascal 发表于2006-02-26 5:12 PM  IP: 61.145.238.*搜索引擎
关键词: 搜索引擎

21世纪是信息的时代,也是网络的时代。不断通畅与进步的互联网在给人们带来浩如烟海的网络信息的同时,也容易使人在查询自己所需的有用的相关信息时陷入迷茫。

搜索引擎是为满足人们网络信息搜索应运而生的网络工具,它是互联网信息查询的导航针,是沟通用户与网络信息的桥梁。然而,随着网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎越来越不能满足挑剔的网民们的各种搜索需求,那种强有力的搜索工具成为这些网民们的渴盼。Google搜索引擎正是在满足人们这种强烈要求下诞生的优秀的,高效的网上搜索工具。1 Google简介Google是由LarryPage与SergeyBrin于1998年9月在美国硅谷创建的高科技公司,他们所设计的Google搜索引擎,旨在提供全球最优秀的搜索引擎服务,通过其强大,迅速而方便的搜索引擎,在网上为用户提供准确,详实,符合他们需要的信息。自2000年正式开始商业运营以来,目前在全球范围内已拥有了一个正在快速增长的忠实用户群,其中一半以上是国际用户。Google公司不但拥有自身的独立搜索引擎网站,现今的日访问量高达7000万次,还将其搜索引擎技术售卖给世界上许多公司,目前就有包括雅虎、美国在线、网景和中国的网易等知名网站在内的全球150多家公司采用了Google搜索引擎技术。Google非常注重技术创新,并由此获得了多项荣誉,如美国《时代》杂志评选的“1999年度十大网络技术”,《个人电脑》杂志授予的“最佳技术奖”,TheNet授予的“最佳搜索引擎奖”等等。[2]Google支持中文搜索,其中文搜索引擎是收集亚洲网站最多的搜索引擎之一,并成为它藉此拓展全球信息市场的重要基础。虽然Google非中国本土公司,但在国内,使用它的独立搜索引擎的人数正迅猛增长,其搜索引擎技术还受到了中文雅虎、网易等知名门户网站的青睐,采用了其中文互联网服务。这大大提升了Google在国内的影响力。随着Google即将在北京正式宣布开通其简体中文版服务,相信Google作为迅速崛起的世界性公司,在中国的市场将会展现一片全新的景象。[5]2 Google的功能与特点Google搜索引擎是一个利用蜘蛛程序(Spider)以某种方法自动地在互联网中搜集和发现信息,并由索引器为搜集到的信息建立索引,从而为用户提供面向网页的全文检索服务的互联网信息查询系统。它主要具有以下的特点和功能:1)采用了先进的网页级别(PageRankTM)技术。这种技术是指依据网络自身结构,根据互联网本身的链接结构对相关网站用自动方法进行分类,清理混沌信息整合组织资源,使网络井然有序。这种独树一帜的技术打破了传统网络分类概念,它是基于网页的自然结构,即任何网页均可直接地连接到另一网页,而无须任何媒介。从某种意义上说,该链接结构自动地推动了互联网的民主化,消除了等级,从而使信在同一个界面下,用户可以定制语言和到何种网站中进行搜索。因为Google将多国语言的搜索引擎整合到同一个界面,供用户方便选择。他不象许多其它搜索引擎(如Yahoo)那样,要搜索不同语言版本的网站,必须先进入相应语言的网站。目前,Google已可以对包括中文简体、中文繁体、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、希伯来语、匈牙利语、冰岛语、意大利语、日语、朝鲜语、拉托维亚语、立陶宛语、挪威语、波兰语、葡萄牙语、罗马尼亚语、俄语、瑞典语、西班牙语等26个国家和地区的语言文字进行搜索。而一般情况下,Google会自动根据用户所使用的浏览器设置相应的语言界面。3)Google的搜索结果,通常会比其它搜索引擎来的更准确。对于现实中许多不谙搜索引擎复杂系统的使用方式和规则同时又无意尝试去了解的用户,例如不知道搜索引擎与分类目录的差别,不懂使用逻辑运算符,只会用单一关键字查询等的这些情况,Google都替他们考虑过,并尽力使自身系统能为更广大的人们适用。当用户输入关键字作Google搜索时,Google不仅会去搜索包含关键字的网页,同时还会搜索和这些网页具有高相关性的网页。因为Google具有超链分析的功能,即根据网页间彼此的连结关系,把一篇网页被连结数目的多寡视为相关性的一项指标,并根据相关性的高低排列出次序,以确定该网页的质量或重要度。4)当用户在查询时,同时提供多个关键字,Google将只提供包含所有关键字的网页,其正文或指向它的链接包含用户所输入的所有关键字。而且,Google还能遵从关键字的相对位置,不仅搜索出包含所有关键字的网页,并且对网页关键字的接近度进行分析,按照关键字的接近度区分搜索结果的优先次序,筛选与关键字较为接近的结果。并且,在显示的结果中,Google只摘录包含用户查询字串的内容作为网页简介,且查询字串被醒目地高亮显示。这使用户尽可能地不受其它无关结果的烦扰,从而节省了查阅时间,同时也大大提高了查询结果的精准度。5)Google中文搜索引擎是目前收集亚洲网站最多的搜索引擎之一,对中文的支持强大。相对于许多国内研发的中文搜索引擎,Google不但大大提升了中文搜索引擎的相关性,而且更好地实现了检索字串与网页中文字的语义上的匹配,从而提高了检索效率。例如它支持中英文混合检索词查询,对诸如“MP3”、“甲A”、“F-1一级方程式”等中英混合词,能够准确识别,并作出恰当反应。有别于传统的搜索引擎,Google还能支持多种编码,使有些字虽然不在常用字符集中,但存在于Google所支持的其它字符集中,使问题迎刃而解。例如“朱基”“”字不在GB2312字符集中,但存在于GBK编码中,许多传统搜索引擎由于不支持GBK,便无法搜索到有关“朱基”的网页,这使Google在对信息的准确搜索上更胜一筹。此外,对于用户所输入的中文关键字,Google还不仅会去搜索中文简体网站,还会找出相应的中文繁体网站,甚至是日文网站。6)Google还提供了一些诸如“手气不错”、“网页快照”和“类似网页”等全新的功能。Google和一家名为Realnames(简称RN)的网络关键词管理公司有合作关系,其网络关键词是指可以连接到网站的商标、产品、服务或者公司名称,起网络中的注册商标的作用。当关键词与Google推荐的网站匹配时,在搜索结果中就会显示“RN”标记。例如,有时,用户查询的目的是想进入一个特定的网站(如公司网站),但他就只知道和该网站有关的一些局部信息(如该公司的产品等),这时,用户便可通过输入他所知道的产品名称和尽可能多的关键字来试试“手气不错”,Google一般会带他至最佳网站。“网页快照”是指Google保存的网页的快照内容,Google为用户贮存了大量的应急网页。它的作用是:当用户所要检索的网页在实际上可能已经过时或者不存在了,而由于搜索引擎数据库的更新需要一定的时间,无法跟得上那些更新速度快的网站(如新闻网站等),或是有时碰到网页服务器的暂时中断而找不到服务器,这时快照内容便可暂缓燃眉之急。此外,从存储的网页快照中找寻资料也要比常规链接快的多,尽管所获取的信息可能不是最新的。7)Google具有十分简单、方便的新网站登录功能,除了接受网站自行提交的申请外,Google自身也经常在互联网上漫游,搜寻新网站,经过必要的分析后,作取舍、更新和编排等处理。对于新网站的登录,Google只需要该网站提交其最上层的网页,其余的由Google自行查找。对所收录的网站,Google会定时地对其网页进行检索和更新,以确保数据库的信息新颖,有效。这些都更好地保证了整个搜索引擎网站资料的更新速度和其资料库的相对完整。对于那些有特殊要求的网站(例如有的网站不愿意被录入该搜索引擎数据库等),向Google提出要求,或按Google要求作相应的处理后,Google一般会尊重其选择,并作出妥善处理。3 Google的优越性3.1 界面简洁首页作为用户开始接触该搜索引擎的门户,它的美观、简洁是一大根本,不但要使用户能直观地感觉到搜索引擎功能的存在,而且意识到其搜索功能强大的可能性,从而有继续搜索操作的愿望。Google的主页界面相当简洁,它既没有分类目录,也没有象其它的许多搜索引擎网站(这些网站最后都发展成了门户网站)那样,把广告、频道、新闻等服务项目在主页上济济一堂,造成首页混乱而没有重点,使人眼花缭乱而无所适从。Google首页设计简洁、鲜明、大方,完全突出了搜索的功能,不但给人以开门见山的感觉,而且会使人感受到其强大的内在,并引发出强烈的搜索欲望。即使在几款较知名的支持中文关键字的搜索引擎评测中,Google首页界面的简洁、明了也是独一无二的。[4]3.2 易 用对于搜索引擎来说,它的简单、易用仍是现代用户的首选,Google首页的简洁从一个侧面已反映出其在用户操作上提供的方便、易用的特色。实际上,由于Google采用了新一代的网页级别(PageRank?)先进技术,这种技术使网页之间链接直接,畅通无阻。有效链接率高也为用户带来便捷、易用的效果。Google对各类型的用户有所研究,设计出的搜索引擎针对性强,同时适应面更广。它使Google的关键字输入并不复杂。此外,Google还提供了详尽、具体的“Google说明”,用语大众化,易于理解。还配以清晰的图片,加以强化解释。3.3 快 速Google搜索速度的快捷是它的又一大特色。用户所输入的任何关键字或信息,都能得到Google快速的响应,且其超链分析的算法还会将搜索结果排列出优先次序,从而使重要的结果排列在前,节省了用户的查询时间。此外,Google数据·64·《现代图书情报技术》 2002年 第1期信息检索技术  总第91期




库的更新速度快,有效链接率高,这些都是带出搜索快速的重要因素。3.4 相关性高Google可以根据网页间彼此的连接关系,把一篇网页被连接数目的多寡视为其相关性的一项指标。对于用户所输入的关键字,Google最大程度地寻求语义上匹配,例如想查找有关某人的网页,但误输入“同音不同字的名字”,Google也能帮你找到想要的信息。或者,在查询框输入作者名字,所有文章或有关的网页都会被检索到,连哪个网站有转载的结果都准确地显示出来。此外,Google还包含汉字的相关性,例如对中文简体网站,找出对应的繁体网站,甚至是日文网站。高相关性更好地提高了Google搜索的结果的精准度,还提高了搜索效率。4 检索方法4.1 查询方式输入“www.google.com”打开Google首页,它会根据国内的用户所使用的浏览器(如IE、Netscape等)自动出现Google的简体中文版界面。有基本查询和高级搜索两种。(1)基本查询Google简洁、鲜明的界面呈现在用户面前的不到十行,除了映入眼帘的“Google”虹彩颜色商标,中间便是要求输入关键字的对话框,其右边是两小键:“高级搜索”和“使用偏好”,其中使用偏好可以选择目前26种不同的语言,第四行是“Google搜寻”和“手气不错”。再下面为Google大全,搜索建议等。Google具有自己独特的语法结构,它不支持“AND”、“OR”和“*”等符号的使用,它自动带有“AND”的功能,当需要使用类似功能时,只需在两个关键词之间加空格即可,如“武汉广州”,由于不支持“OR”查找,用户如需获取两种不同的信息,则需分开检索。Google不支持“词干法”和“通配符”等,要求所输入的关键词完整,准确,一字不差,才能得到最准确的资料。要获得最实用的资料,并逐步缩小检索范围,则需要增加关键词的数量,或者在想删除的内容前加减号“-”(在减号前需留一空格)。(2)高级搜索对于某些专用语的查询,可以点击“高级搜索”,例如为查找名言警句等专有名词时,要在键入的专用词语上加上双引号。此外,Google支持诸如“-”、“”、“+”、“=”、“,”、“‘”等标点符号作为短语连接符,并将之作为专用语的搜索处理。Google忽略“http”和“com”等字符,以及数字和单字,因为这类字词过于频繁出现于大部分网页,既无助于查询,还大大降低了搜索速度。因此需用“+”将这些字词强加于搜索项(“+”前必须留一空格)。如查“EpisodeI”或“OS/2”,需输入“Episode+I”及“OS/+2”。Google支持如冒号(:)等的某些特殊操作符,并具有相应的特殊功能,例如查询:“link:<网址>”,就可得到所有连接到该网址的网页(该方法不能与关键词查询联合使用)。4.2 查询结果用户提交查询后,系统根据用户的检索词和查询选项返回查询结果。Google可以自定义每页显示的结果数量,选择10,30,或100,Google默认值为10。每一项基本上显示出标题、网页(站)简介、url、长度、附带的全新功能等相关信息,此外,还会根据具体情况显示最新更新日期,类别等信息。Google会根据其网页级别,对结果网页排列出优先次序。如果在输入关键词后选择“手气不错TM”按钮,Google将带你到它所推荐的网页,无需察看其它结果,省时方便。假如单击“网页快照”,所出的搜索项均用不同颜色标明,另外还有标题信息说明其存档时间日期,并提醒用户这只是存档资料。如果点击“类似网页”连接时,Google会帮你找寻与这一网页性质相类似的网页(同一级别的网页)。而若搜索结果是Google所推荐的网站时,在搜索结果末尾会有RN标志。4.3 信息反馈用户如有意见或建议可通过电子邮件与Google联系。网站如有任何要求或告知,也可以根据Google提供的路径联系。5 Google的不足之处至目前为止,在满足用户的搜索需求上,Google依然存在一些令人遗憾的地方。1)其数据的更新速度无法进一步提高。由于数据量的庞大,使Google搜索引擎的数据更新无法早于30天,在一定程度上影响了用户对信息的时效需求,Google目前还无法突破这一瓶颈。2)无法搜索动态生成的网页。因为大多数负责搜索网页的蜘蛛软件都不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸进去出不来,Google虽然在这方面的研究虽然取得一些突破,但离真正的实用还有一段路要走。6 结束语从总体上说,Google无疑是一款优秀的搜索引擎,其本身技术的先进和服务的优良在众多有关搜索引擎的评测中都获得过良好的评价。如果Google加强对自身数据库更新的速度,并能加快实现对多媒体内容的处理,为用户提供更全面、更丰富、更准确的信息,那么,相信在不久的将来,其立志为用户提供最优秀的搜索引擎服务的理想一定能实现;其对自身不断完善和进步的追求,也一定会为广大用户带来更大的福音,并且引发一场真正的搜索引擎界的革命。


 pascal 发表于2006-02-26 10:47 PM  IP: 61.145.238.*http://blog.donews.com/windshow/archive/2005/11/30/643067.aspx

专注于搜索引擎技术(Lucene,Nutch)