当前位置: 首页 > news >正文

seo站定制网站

seo站,定制网站,网站建设的关键技术,郑州医疗网站建设For压缩算法 这是倒排表的一种压缩算法。 还是那个问题,如果"小米" 这个词项,在多文档里都有,则就会导致倒排表很大,这时候就会设计到了压缩算法,这里说的是,倒排表。 那末我们来看看 for压缩…

For压缩算法

这是倒排表的一种压缩算法。

还是那个问题,如果"小米" 这个词项,在多文档里都有,则就会导致倒排表很大,这时候就会设计到了压缩算法,这里说的是,倒排表。

那末我们来看看 for压缩算法是怎么压缩数据呢?其实你可以理解为它是将posting list(无论数字多大都是用int去存的) 转换为一个差值list   (deltas list)去存的,也就是我们之前存的不是文件id吗,这回我们去存和前一个的差值,这样是不是存的这个数就会变小,那这样我们需要的位数是不是就会变小,靠这个来压缩我们的函数

不如说上边这个 我们得到一个差值集合之后呢

发现就可以用8位去存储这些数,这样是不是跟用int去存储就变小了

但是呢,我们又发现 比如 2 这个 数字用8位去存储是不是又浪费了

我们可以在保证顺序的时候去分 在2那分成一半一半把

细心的同学又发现了,为什么不把单独的数 拎出来那么分呢?2分5字节这不还浪费吗。

但是除了要保证高效的压缩方法,还要保证快速的解码啊,我们最终还得恢复成最原来的那个倒排表。我们每块数组用了几个数组,也是要记录在磁盘上的,如果我们一个一个差这会导致这个记录又浪费了空间。这个记录呢占用1个字节

那具体这个数组拆分到什么程度,如果这个数组足够稠密的时候,就不用拆了,就是说这一块的数字特别都比较接近。这个也是动态计算出来的。

RBM压缩算法

如果数值不密集,也就是说你一个很大一个很小,这时候我们就用RBM压缩算法。

我们这时候就不用减法了,我们用除法

 

因为我们int类型是32位。我们把32位这么看,一个高16位(商),一个低16位(余数)

所以我们先把每个数除以65536也就是2^16 得到一个除数和一个余数。我们就把一个大数换成了两个小数。

那么这两个数是怎么存储起来的。其实是用Container存的

我们把那个商作为一个key 用short方法去存储

然后余数存在对应key 所对应的容器之中。

如图你就知道了

Container 包括三种container

arraycontainer  我们的上述例子就是用的这个容器

Bitmapcontainer  这个占用的空间永远位8kb

Runcontainer

这三种容器可以自己去学习

http://www.jinmujx.cn/news/77671.html

相关文章:

  • 什么是网站的用户体验网站链接查询
  • 锦州网站制作怎么做app推广和宣传
  • 广告文化网站建设百度推广客户端app下载
  • 糖尿病吃什么药降糖效果好苏州网站优化排名推广
  • 湛江疫情最新情况成都企业网站seo技术
  • 织梦电影网站模板下载网站在线优化检测
  • 网站图片代码怎么做的写软文推广
  • 赣州做网站推广aso优化注意什么
  • 怎么做可以看外国视频网站百度推广电话客服
  • 建设局网站自查自纠百度竞价推广后台
  • 网站的二级导航怎么做班级优化大师头像
  • 常规做网站要在工信部认证吗怎样进行seo
  • WordPress长文章索引插件网店搜索引擎优化的方法
  • 做动态网站需要学什么软件湖北seo服务
  • wix如何做网站百度推广优化排名怎么收费
  • wordpress主题怎么该轮播谷歌seo招聘
  • 建设工程项目查询网站保定网站推广公司
  • python nginx做网站上海关键词自动排名
  • wordpress 获取分类目录关键词优化seo外包
  • 顺德企业网站制作东莞百度推广优化公司
  • 青岛商业网站建设头条今日头条新闻头条
  • wordpress 煎蛋网插件seo外包服务专家
  • 网络推广公司主要做什么网站推广优化排名公司
  • 企业年报信息公示流程排名seo公司
  • 长春网络公司招聘流程优化四个方法
  • 江苏省省建设集团网站广州网站运营专业乐云seo
  • wordpress网站多层循环调用文章销售渠道及方式
  • 自学广告设计该怎么入手东莞市网络seo推广服务机构
  • 自学网站建设要多久百度网盘app官网
  • 网站建设新闻动态百度网首页