网页正文内容抽取

此代码是对论文《基于行块分布函数的通用网页正文抽取》的Python实现方式。论文的出发点是针对搜索引擎正文提取的解决方案,移除了所有的标签元素,因此我在此保留了标签元素,改进用户阅读体验。 特点: 保留正文标签 资源(图片、超链接等)路径为绝对路径(即使原文是相对路径)避免找不到资源 下载: git clone ...

more ...