全文搜寻引擎
分类
按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。中文等东方文字则需要切分字词,以达到按词索引的目的,关于这方面的问题,是当前全文检索技术尤其是中文全文检索技术中的难点。
功能和结构
功能
全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软体系统。一般来说,全文检索需要具备建立索引和提供查询的基本功能,此外现代的全文检索系统还需要具有方便的用户接口、面向WWW的开发接口、二次套用开发接口等等。功能上,全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、最佳化索引结构等等功能,外围则由各种不同套用具有的功能组成。
结构
採用的技术
技术特点
搜寻引擎面临大量的用户检索需求(几十~几千点击/秒),要求搜寻引擎在检索程式的设计上要高效,儘可能的将大运算量的工作在索引建立时完成,使检索时的运算压力能够承受,一般的资料库查询技术无法实现全文搜寻的时间要求。
倒排技术
目前全文搜寻引擎通常使用倒排索引技术。倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜寻下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。
有两种不同的反向索引形式:
本文由'是你的沈靖呀'发布,不代表演示站立场,转载/删除联系作者,如需删除请-> 关于侵权处理说明。