解說TF-IDF优化算法在SEO提升中的运用

2021-04-08 22:49


解說TF-IDF优化算法在SEO提升中的运用


短视頻,自新闻媒体,达人种草1站服务

TF-idf优化算法实际上是1种客户资讯查找与资讯探勘的常见加权技术性,经常被SEOER们运用到,而许多人也许不太了解,实际上最直观的掌握便是 网站重要词密度 。

立即切入主题,TF-idf优化算法究竟是怎样测算的:

公式:

TF:词频

IDF:逆文字频率指数值

TF-IDF=TF*IDF

大家举例表明,TF词频的意思,是指1个词出現在网页页面中的次数,假如1篇文章内容的总词语数是200,而 网站提升 这个词出現了4次,那末这个词频TF=4/200,也便是0.02。

而IDF也便是很文档频率,指这个词在是多少网页页面出現过计数为N,文档总数计数为M,那末IDF=lg(M/N)。假定 网站提升 在2000个网页页面出現,总文档数为1亿,那末文档频率IDF=lg(0/2000)=4.69897,那末测算最终的TF-IDF=0.02*4.69897=0.0939794。

这只是1个分辨1个网页页面的有关度的难题,而在SEO网站提升中,其实不只是分辨TF-IDF的值加分,大家必须1个鉴别度高的词来为网页页面加分。比如:检索模块收录1万亿个网页页面,应当说每一个网页页面都会有 的、是、中、地、得 这些词,这些高频词也叫噪声词或终止词,检索模块会除去这些词,因此这些词的加分权重实际上应当是0。测算公式:TF-IDF=log(1万亿/1万亿)=log1=0。

实际上在检索模块查找中,测算权重的情况下,会依据每一个词分词来测算,比如: SEO网站提升的技能 这个词。

假定:SEO网页页面查找多位2000万,网站提升的查找数为1000万,技能的查找数为50000万

检索模块数据库索引总数假定为100亿。

SEO在ruihess这个网站中网页页面(网页页面总词数400)出現8次,网站提升出現10次,技能出現16次。

那末各有的词频

TF(SEO)=8/400=0.02,

TF(网站提升)=10/400=0.025

TF(技能)=20/400=0.04

TF(的)=上面已近提到,的属于高频终止词,权重为0。

那末检索 SEO网站提升的技能 这个网页页面的有关度为:TF(总)=0.02+0.025+0.05=0.095。

而IDF(SEO)=LOG(000/)=2.69897

IDF(网站提升)= LOG(000/)=3

IDF(技能)=log(000/0)=1.69897

这么算下来以后,每一个词为检索 SEO网站提升的技能 为网页页面的权重和有关度奉献的值各自为:

Tf-idf(seo)=0.02*2.69897=0.0539794

Tf-dif(网站提升)=0.025*3=0.075

Tf-idf(技能)=0.04*1.69897=0.0679588

由此能够看出,尽管技能出現的频率更高,但鉴别度沒有SEO和网站提升高,因此为网页页面的权重奉献度其实不是太大。

1个词的预测分析工作能力也便是鉴别度越高,那末这个词的权重越大,反之则越小,看到 网站提升 将会你就早已基础掌握这个网页页面要讲甚么,可是看到技能,你将会还并不是太搞清楚网页页面的主题。

自然这适用检索模块的优化算法的1个点,大家还要融合标识来完成权重的提高,比如H标识,而主重要词附近的词也会加分,这里附近是指在1个标识内的比如:SEO网站提升的技能关键是1些检索模块提升思路的详细介绍

Design by ruihess




扫描二维码分享到微信

在线咨询
联系电话

020-66889888