×

打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

×

打开微信“扫一扫”,关注我们官方微信^_^

梦创义官方微信

首页 > 新闻 > 网站优化 > 搜索引擎倒排列表压缩算法解读

搜索引擎倒排列表压缩算法解读

2015-07-161022分享

搜索引擎倒排列表压缩算法

单词对应的倒排列表一般记载3类信息:文档编号、词频信息及单词位置序列信息。因为文档编号及单词位置序列是依次递增的,所以通常的做法是存储其差值,而非原始数据。经过差值转换,文档编号和单词位置信息往往会被转换成大量的小整数,而词频信息大部分是小整数,因为一个单词在正文中出现的频率通常都不高。压缩算法的处理对象就是这3类信息,从以上描述可以看出,倒排列表数据有其特点,即数字分布严重不均衡,小数值占了相当大的比例。

8882-110Q301302070.jpg

评价索引压缩算法的指标

    目前有很多种倒排列表压缩算法可供选择,但是评判算法的优劣需要定量指标。一般来说,评价倒排列表压缩算法会考虑3方面的指标:压缩率、压缩速度和解压速度。

    所谓压缩率,就是数据压缩前大小和压缩后大小的比例关系.很明显.压缩率越高.就越节省磁盘空间,同时也节省了倒排列表从磁盘读入到内存的时间。

    压缩速度是指压缩一定量的数据所花费的时间,相对而言,这个指标不如其他两个指标重要.因为压缩往往是在建立索引过程中进行的,而建立索引是一个后台运行过程,不需要即时响应用户查询,即使速度慢些也没有太大关系。另外,建立索引的次数相对而言也不算多,所以从几个方面考虑,压缩速度不是一个重要指标。

    解压速度在3个指标中是最重要的,其含义是将压缩数据再次恢复为原始数据所花的时间。因为搜索引擎在响应用户查询时,从磁盘读入的是压缩后的数据,需要实时解压以快速响应用户,所以解压速度直接关系到系统的用户体验,其重要性不言而喻。


本文由梦创义网站建设(www.mcykj.com)收集于网络或网友投稿,对于内容系文章作者个人观点,不代表本站观点.我们每日更新最新网站建设教程,网站制作教程,网站建设方案报价等,如果你想了解更多建站知识,请收藏并持续关注我们网站.

本文地址:http://www.mcykj.com/show-77-256-1.html转载请注明出处!

  • 基于用户创新

    界面设计日新月异,梦创义坚持基于用户需求的界面创新设计……

  • 服务设计思维

    互联网的格局发生的改变,在我们进行设计服务时更是考虑不同用户、不同……

  • 洞察用户心理

    洞察用户有意识和无意识的行为以及心理特征通过构造一系列的服务来促进……

  • 查看更多 >>

最新新闻Latest News

网站建设案例,厦门网站制作简介
我们在接触到的厦门网站制作,大型网站建设中常常被几个概念名词:模板……
山东网站建设,请向这里看齐
我们从架构的方面去看问题,实现语言方面并不是问题,语言的优势在于实……
长沙网站制作,多年经验之谈
从事长沙网站制作行业已经12年了,获得了许多网站建设心得。经历了很多……
辽宁省建设厅网站,只需这五步
随着互联网时代的线上线下模式的疯狂来袭,各行业争相建立自己的网络营……
承德网站建设,方案的具体内容
我们在接触到的承德网站建设中常常被几个概念名词:模板网站建设,定制……
  

ABOUT US

北京梦创义科技有限公司成立于2012年
创始人以及初创团队成员均来自各大互联网公司
目前公司拥有员工近百人  平均3年以上从业经验
核心团队成员均有10年以上互联网从业经验

Contact information

手机:13910811300
电话:010-52661970
传真:010-82694569

网址:www.mcykj.com
邮箱:13910811300@126.com
朝阳一部:朝阳区紫芳路九号院广顺园2号楼2605A
海淀二部:回龙观黄平路19号院泰华龙旗广场E座1212室(距西三旗桥2公里,8号线育新站海淀昌平交界)

北京梦创义网站建设logo

Copyright 2008 ASAweb company. All rights reserved.