最新消息:无痕SEO优化博客为嘉兴双鑫网络技术有限公司子站!本公司承接嘉兴网站优化,嘉兴seo优化诊断,嘉兴关键词排名各类SEO外包业务详询咨询QQ:2027298108。

基于网页独立词的行业网站分类方法

SEO高级教程 无痕SEO 508浏览

原理:根据已知网站样本库建立独立词特征库,独立词特征库包括用于判定网站类别的多个独立词和对应的多个独立词的加权值,提取未知网站首页中的独立词,将从未知网站中提取出来的独立词与独立词特征库进行匹配,进行加权计算,并根据加权计算得分与与预设阈值来生成判定结果。

原理图:

原理图

 

接下来对判定的结果进行人工审核,根据审核结果调整优化所属的独立词特征库。

特征在于:

对所述已知网站样本库中多个网站的首页进行分析,从独立的html标签,tdk标签中提取多个关键词。

排除对网站判定无关的干扰词,得到多个所述独立词;

统计独立词的词频,并根据词频排序;

设置多个独立词的加权值,得到独立词特征库;

对多个独立词判定进行人工审核,提取正向独立词以及反向独立词,并进行人工加权打分;

对所述的多个独立词进行SVM样本训练,形成SVM特征库;

将未知网站的独立词和独立词特征库进行匹配,计算加权得分;

将未知网站提取的独立词作为SVM的计算集进行输入,根据SVM特征库得出SVM分类结果;

根据分类结果对所述加权得分进行修正,并根据修正后的加权得分和所述预设阈值来生成判定结果。

 

转载请注明:【嘉兴SEO】-嘉兴网站优化-无痕SEO技术分享博客 » 基于网页独立词的行业网站分类方法