客官请稍等!我们正努力加载中...

西安做网站公司|西安网站设计制作|西安网站建设|古月建站
当前位置:古月建站 > 网站资讯 > 网站优化 >

索引创建过程中的加权方法

发表日期:2019-06-24文章编辑:admin浏览次数: 标签: 西安网站建设西安网站设计西安网站制作    

  搜索引擎会给予每一个页面一定的权重值,这个值也会随着页面的更新和时间地流逝而改变。今天,SEO百科网带来的是《TF-IDF算法-索引创建过程中的加权方法-什么是搜索引擎》。希望对大家有所帮助。
  
  一、索引创建中的权值
  
  搜索引擎蜘蛛的爬行与抓取,页面的收录与索引,是一个页面能够在用户搜索关键词时能够获得展现的几个基本步骤,其中索引创建中包含着对页面内容本身的加权因素。
  
  ① 索引项权值概念
  
  索引项的权值,在一定程度上反应了文档中词的相对重要性,这个值通常用于索引排序过程中计算分值,也就是影响搜索引擎排序的重要因素之一。
  
  ② 索引项权值怎么得来的?
  
  索引项权值,是由检索模式中的加权组件利用文档统计结果来计算得出的。
  
  ③ 索引项加权方法
  
  传统的检索模式中最常见的加权方法:TF-IDF算法。
  
  二、TF-IDF算法
  
  ① TF-IDF算法定义
  
  TF-IDF算法,基于索引项出现在一个文档中的次数或频率,以及索引项在整个文档集合中出现的频率,两者的组合(或者说两者的乘积)。
  
  ② TF-IDF算法中词的解析
  
  1)TF
  
  次数和频率称之为词频,英文简称为tf。
  
  2)IDF
  
  索引项在整个文档集合中出现的频率,称之为范文档频率,英文简称为idf。
  
  ③ TF-IDF算法的简单说明
  
  TFIDF的核心思想,是指某个词或某个短语在一篇文档中出现的频率高,并且在索引库的其他文档中出现较少,就认为这个词或短句有很好的类别区分能力,可以用来进行分类。
  
  简单来讲,某个词或某个短语就是索引词,对于这篇文章而言,该词项将被赋予较高的权值。
  
  三、理解并使用TF-IDF算法
  
  对于SEOer来讲,了解上面的知识已经足够了,没必要非得知道是用哪个函数,哪个公式算出来的结果。
  
  其实,通过TF-IDF算法的学习,我们可以更好理解一些常识性的SEO知识。
  
  ① 品牌词容易优化
  
  品牌词一般是自己创造的,满足TF值大,同时IDF值大,页面加权高,自然排名很容易。
  
  ② 行业核心词难优化
  
  无数网站都在优化这同一个词,然而首页的位置却是有限的,大家都满足TF大,但同样IDF越小,证明这个词越难优化。
  
  这也就是平时在判断关键词优化难度时,为什么将百度搜索的相关结果数作为优化难度之一的原因。
  
  ③ 多挖掘没有百度指数的关键词-降低优化难度
  
  行业中有百度指数的词,大家都在做优化与排名,这样的词不光是竞争压力大,可能还带不来多少点击。因为百度指数可能是100,真实用户也许只有2个,另外的98个都是企业的竞争者们。
  
  我们应该挖掘一些没有百度指数的词,但是需要这次保持一定的搜索量,这样可以保证降低优化难度的同时,带来更多真实流量。
  
  ④ TF并不是万能!过度堆积害处大!
  
  根据TF-IDF算法,很多人会想,增加关键词密度或频率,以增加TF值,从而获得更好的排名。然而,这种做法可以适当做,但超过一定度的话,没什么好处,反而可能会因为过度堆积被搜索引擎降权!
  
  所谓的2%~8%的关键词密度只是个大概范围,很多排名好的页面很多都在2%一下,当然也有在8%以上的,只要密度不是过小,不必过度在乎这个。
  
  举个例子,已经是5%的密度了,非要故意堆积到8%,甚至百分之20%,就会变得非常没有意义。这是对TF高的一种误解。
  
  也就是我们能够根据TF-IDF算法中得到的启发是不应该让关键词的密度或频率(TF)过低,然而对于IDF来说,我们只能通过寻找IDF值高的关键词来优化,如果我们优化的关键词的IDF值本来就很低,我们也不能对其改变这个现状,IDF值越低,证明这个词在一定程度上就越难优化。
  
  所以,在网站优化过程中,除了要做好页面外,还需要关注内链与外链优化。
  
  四、TF-IDF算法公式
  
  ① TF公式
  
  TF(i,j):关键词j在文档i中的出现频率。
  
  n(i,j):关键词j在文档i中出现的次数。
  
  举例来讲:
  
  一篇文章总共100个词,其中“SEO培训”一共出现了10词,那么TF就是10/100,结果就是0.1。
  
  然而,由于文章中会出现大量的“的”、“得”、“吗”、“地”,不能正常反应文章的词,所以,就得用IDF来做一个限制了。
  
  ② IDF公式
  
  IDF(i):词语i的反文档频率
  
  |D|:语料库中的文件总数
  
  |j:t(i)属于d(j)|出现词语i的文档总数
  
  +1是为了防止分母变0。
  
  IDF就可以防止常用词的干扰了。
  
  还是刚才的例子:
  
  一篇文章总共100个词,其中“SEO培训”一共出现了10词,那么TF就是10/100,结果就是0.1。
  
  另外“我们”一共出现了10词,其TF结果也是0.1。
  
  假设语料库总共有1000篇文章,其中“SEO培训”文章有10篇,“我们”文章有1000篇。
  
  “SEO培训”的IDF=log(1000/10)= 2
  
  “我们”的IDF=log(1000/1000)= 0
  
  ③ TF-IDF公式
  
  TF-IDF = TF*IDF
  
  “SEO培训”的TF*IDF=0.1*0=0
  
  “我们”的TF*IDF=0.1*2=0.2
  
  那么很显然,对于这篇文章而言,“SEO培训”比“我们”更加重要。
更多相关信息:    
在百度搜索索引创建过程中的加权方法的信息    在360搜索索引创建过程中的加权方法的信息
在搜搜搜索引创建过程中的加权方法的信息    在搜狗搜索索引创建过程中的加权方法的信息
在必应搜索索引创建过程中的加权方法的信息    在雅虎搜索索引创建过程中的加权方法的信息
相关新闻

网站权重概念是什么?

网站权重的概念是每个从事SEO的人都会接触到概念,那么,怎么才能更好的理解网站权重呢?...

日期:2020-04-01 浏览次数:190

提高网站权重的十个方法

提高网站权重的十个方法 ①如何查看网站的权重: 借助5118、站长等工具网站进行查询,但展...

日期:2019-12-04 浏览次数:286

如何让网站一个月内从权重0到8

做网站的都知道一点,网站在运营时网站优化必不可少,因为他决定了你的网站流量来源,而...

日期:2019-12-04 浏览次数:378

百度排名、百度权重、百度指数词之间有何联系

什么是百度排名? 什么是百度权重? 什么是百度指数词? 以上三句话相信对于刚刚步入seo的新手...

日期:2019-12-04 浏览次数:200

网站权重怎么提升

做网站的朋友们都知道,网站权重对网站流量名次都很重要。因为高权重的网站会更受搜索欢...

日期:2019-12-04 浏览次数:231

高权重网站是怎样炼成的?

做网站的朋友们都知道,网站权重对网站流量名次都很重要。因为高权重的网站会更受搜索欢...

日期:2019-12-04 浏览次数:131