x-cmd pkg | trafilatura - 网络爬虫和搜索引擎优化工具
发布时间:2024年01月03日
简介
trafilatura 是一个用于从网页上提取文本的命令行工具和 python 包:
- 提供网络爬虫、下载、抓取以及提取主要文本、元数据和评论等功能
- 可帮助网站导航和从站点地图和提要中提取链接
- 无需数据库,输出即可转换为各种常用格式(txt,csv,json,xml,xmltei)
- 可用于搜索引擎优化
首次用户
-
使用 x env use trafilatura
即可自动下载并使用
- 在终端运行
eval "$(curl https://get.x-cmd.com)"
即可完成 x 命令安装, 详情参考 x-cmd 官网
-
x-cmd 提供1分钟教程,其中包含了 trafilatura 命令常用功能的 demo 示例,可以帮你快速上手 trafilatura 。
-
使用案例:
x env use trafilatura
trafilatura -u "https://www.x-cmd.com/start"
trafilatura --sitemap "https://www.x-cmd.com" --list | grep 7za > list.txt
trafilatura -i list.txt -o txtfiles
trafilatura --links --xml -u "https://www.bing.com/search?q=gitea"
技术特点
- 稳健高效的提取:
- 除了可以提取主要文本之外,还可以提取元数据(标题、作者、日期、网站名称、类别和标签),结构化信息(段落、标题、列表、引号、代码、换行符、行内文本格式)
- 从原始 HTML 转换为关键部分,去除由重复出现的元素(页眉和页脚、广告、链接/博客等)组成的噪音
- 支持 URL 管理(黑名单、过滤和重复数据删除)
- 支持可选附加组件:
- 对提取内容进行语言检测
- 图形用户界面 (GUI)
- 速度优化
- 更加高效、准确。从官方给出的评估和替代方案的数据来看,该工具的性能明显优于其他开源解决方案。
竞品和相关作品
- goose3:用 Java 编写的文章提取器。
- readabilipy:Python 中的简单 HTML 内容提取器。
- news-please:是一个开源、易于使用的新闻爬虫,可以从几乎所有新闻网站中提取结构化信息。
进一步阅读
X-CMD 官网
文章来源:https://blog.csdn.net/edwinjhlee/article/details/135365025
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:chenni525@qq.com进行投诉反馈,一经查实,立即删除!