Superl-url 一款开源关键词URL采集工具
2019-08-09 15:51:43 Author: mp.weixin.qq.com(查看原文) 阅读量:91 收藏

superl-url是一款开源的,并且功能强大的关键词URL采集工具,可以根据关键词,对搜索引擎内容检索结果的网址内容进行采集。可自动从搜索引擎采集相关网站的真实地址与标题等信息,可保存为文件,自动去除重复URL。同时,也可以自定义忽略多条域名。


优势介绍

1.支持多搜索引擎,很方便添加集成。(已内置了百度,搜狗,360),结构模块化,很方便进行扩展,可以无限添加。

2.开源,跨平台,使用python开发;

3.做了兼容性优化,同时支持python2和python3;

4.支持自动过滤重复内容,支持过滤标题中存在指定关键词的内容,支持过滤域名;

5.保存方式同时支持本地txt和mysql数据库;

6.从搜索引擎采集到的地址,是真实网站地址,不是像百度快照那样的三方地址;

7.多进程同时采集。每个搜索引擎都单独一个进程;

8.可灵活的通过配置文件自定义要保存的结果格式。比如只输出带参数的原始真实URL,或者只输出域名,或者同时输出标题,搜索引擎名称。

9.可自定义每页采集时间间隔,防止被屏蔽;

使用说明

1.安装python2或者python3运行环境;

2.如果提示没有找到库,则需要安装依赖:

如果是python3,则:

pip install ConfigParser

pip install tldextract

如果是Python2,则:

pip install tldextract

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple configparser


文章来源及下载:

https://github.com/super-l/superl-url

你可能喜欢

Snort - 开源网络入侵检测工具

mysql综合利用工具

多功能Python键盘记录工具:Radium


文章来源: https://mp.weixin.qq.com/s?__biz=MzAxMjE3ODU3MQ==&mid=2650456529&idx=4&sn=3884ffef47ccff9fc7962b9f49658dd0&chksm=83bba435b4cc2d233f72932ba4187d74e75032b3947b829b21adeb7c31ce8ffcf58941186764#rd
如有侵权请联系:admin#unsafe.sh