249045439
网站制作

手机网站制作网页正文内容抽取办法

发表日期:2023-09-24   作者来源:www.ailewen.com   浏览:0   标签:    

网页正文内容抽取办法, 该算法思路是先需要对Web页面进行分块处置, 处置结果同样借助DOM树原理进行分析, 然后集合阈值计算和正则表达式, 对于二手网页正文准确率较高。 非基于DOM的Web页面提取技术比较著名就是Microsoft亚洲研究院提出的VIPS基于视觉的网页分块算法。该算法从用户的视觉感官体验出发, 依据Web页面的背景色、前景色、元素之间的间距来对Web页面进行视觉划分, 打造相应的分割条和网页分块集, 基于此基础再进行文本信息的抽取, 算法规则十分复杂。现在不少Web页面的视觉特征也非常复杂, VIPS算法针对此类页面时准确率和效率较差。因此, 高乐等人提出一种改进的VIPS算法, 算法针对table标签的处置进行优化处置, 并通过实验证明了改进算法正确率得到了提高。 除此之外, 还有一些不基于DOM树对网页文本提取的办法, 比如《基于权值优化的网页正文内容提取算法》的通过统计剖析Web页面正文内容特征, 得到页面中每个文本内容块属性特点, 并用粒子群优化算法对特点权值及阈值进行了确定及优化。

如没特殊注明,文章均为登烈建站 原创,转载请注明来自http://www.nousuan.com/news/zhizuo/2/3603.html