池州到厦门飞机:企业搜索:Google、Baidu不是我的对手

来源:百度文库 编辑:偶看新闻 时间:2024/04/29 15:15:16
我们知道,在大众化的搜索工具方面,我们可以通过填入关键词、布尔值等方式,去搜索网络上的内容。但这个过程中,不能查找我们本机的数据信息。为了解决这个问题,我们可以使用类似Google desktop桌面搜索工具,但这样的工具又不能搜索企业网络内的数据信息。

  以上就是个人搜索范畴,而实际工作中,我们还需要企业级搜索,那就是在专有的企业网络中,准确、安全地搜索企业数据,特别是各种非结构化数据信息。

  针对企业搜索,IDC给出了这样的解释,"企业级搜索是一种组织的需求,属于搜索引擎的高级应用。企业用户对信息的需求不仅仅限于简单的查询结果,而是结合搜索、数据库查询、语义和句法分析、分类和聚类、相关性分析等技术,整合现有的信息资源,提炼出具有商业价值或社会价值的数据支持。"

  准确搜索的前提:理解非结构化数据

  要整合企业网络内部的信息资源,首先要面对的就是:占企业所有数据中80%的各种各样非结构化数据信息,例如电话交谈记录、语音留言、电子邮件、Word 文档、纸质文档、图像、网页、视频以及数以百计其他形式的内容。(结构化数据指:与数据库相关的数据,例如Oracle、Lotus Notes、ODBC 兼容类型数据)

  对于这些非结构化的数据信息,我们缺乏能够理解并有效利用这些内容的技术,这一内容丰富而又充满战略意义的资源常常无法发挥其作用。在这种情况下,我们通常会通过人力手工的方式,去分类、归档,而这种方式必然是低效的。

  要解决这些问题,就需要一种这样的信息处理平台:不但能够处理所有类型的信息,而且能与现行成熟的结构化数据库处理方式相统一。目前,英国的Autonomy公司就采用了这种技术平台,并为企业搜索用户提供了一种独特的解决方案。通过独特的技术组合,Autonomy 让计算机能够自动并且实时地从语境上理解所有数字内容的含义,从而取代了以往处理、分析信息时耗时耗力的手动操作。搜索方法:模式识别计算技术

  当前,有包括关键词、布尔值、参数在内的各种传统搜索方法。而Autonomy采用了建立在模式识别计算技术(非线性自适应数字讯号处理)以及语境语言分析基础上的创新语义识别搜索功能。这种搜索方式避免了关键词搜索方式容易产生的不准确信息,在信息量巨大的搜索中显得更加有效。同时,这种搜索方式不依赖语言、语种或语意,它完全把语言和文字当成一种数学符号来处理,这样可以很快把系统移植到不同的语言中去。

  模式识别计算技术主要基于两个基本理论:贝叶斯概率论和香农信息论。

  如果一枚硬币被连续抛100次,每次都是正面朝上,那么,抛第101次时,正面朝上的概率是多少?传统统计学观点的推论是:50%。而贝叶斯概率论则认为:100次连续正面朝上,证明该硬币不均衡或两面均为正面,所以抛第101次时正面朝上的概率会大大高于50%。 可见,贝叶斯的理论更加接近人的大脑思维逻辑。

  香农信息论则认为,出现频率越小的信息单元,代表的信息量越大。这也可以解释这样的现象:在一个嘈杂的房子中,我们尽管不能完全听清楚对方所有的话,但我们还是能听懂对方说话的意思。也就是说,每个信息载体会包含大量重复的冗余信息,在对这些信息的处理过程中,冗余信息的权重要低得多,甚至可以忽略。而在关键词搜索中,则相反,一个单词出现的频率越高,则该词的重要程度越高。

  正是基于这两个基本理论,Autonomy在海量信息处理中取得了巨大成功。
企业搜索的关键:安全性

  在搜索市场,有Google、Baidu、Yahoo等重点厂商,而在企业搜索市场,Autonomy却远超过了Google等。

  据Autonomy公司中国区销售总监石建强介绍,"现在在国外企业搜索市场,我们几乎见不到google影子了。"

  为何在企业搜索市场,Google、Baidu不敌Autonomy?
  其原因除了前面提到的搜索技术外,更重要的是安全性问题。

  在企业搜索的应用中,原则是我们能够搜索到企业内部网络中所有电脑中的数据,然而这个过程中,安全性显得格外重要。例如,不允许公司的前台接线员搜索到CEO的邮件,也不会容忍保洁工看到单位某些内部关键文档。

  此前,曾发生过用户使用某种桌面搜索工具,在使用过程中,需要经过长时间的文档索引整理及备份,然而在这个过程中,该用户电脑的数据,却通过网络,被桌面搜索厂商传到了美国加州的机房。

  正是因为这些问题,Autonomy等专注企业搜索的厂商,对安全性非常重视,例如,员工权限的严格设置等。石建强介绍到,Autonomy有很好的权限控制的机制,例如,有一种叫硬涉及的权限的控制机制,搜索的时候我同时保证信息的权限和安全性,Autonomy对信息抓取的过程中会把信息的权限一同采集过来,然后搜索过程中放到权限平台中去匹配你的信息,这个对效率没有任何影响,目前在国内大型企业都广泛采用,比如说像格调。