证件照排版 | 在线计算器 | 在线算命 | 纸张生成器 | 大乐透机选器 | 双色球机选器 | 股票买卖计算 | 奖状生成器 | 今年过去多少天 | 天数相差计算 | 番茄时钟 | AI提示词 | 2048游戏 | 华容道游戏 | 退休年龄计算

heritrix

Heritrix是一个开源的网络爬虫,主要用于在互联网上抓取和归档网页内容。它是由Internet Archive(互联网档案馆)开发的,旨在帮助机构和个人建立自己的网络内容归档。

Heritrix的设计目标是支持大规模的、可持续的网页抓取,并且具有高度的可配置性和灵活性。它使用模块化的架构和可扩展的插件系统,可以根据用户的需求进行定制和扩展。

Heritrix被广泛应用于数字图书馆、档案馆、新闻机构等领域,用于创建和维护大规模的网络内容归档,以便长期保存和检索互联网上的信息资源。

不过对于国内网站来说不会带来什么流量,可以选择robots.txt协议禁止。

User-agent: heritrix

Disallow: /

如果还是禁止不了,可以选择nginx规则禁止访问,如下:

if ($http_user_agent ~* "heritrix") {

 return 403;

}

补充纠错
上一蜘蛛: YouBot
下一蜘蛛: EtaoSpider