scraping

监控
scraping

监控

我在 Ubuntu 12.04 精确服务器上运行用于网页抓取项目的 Python 脚本和 Scrapy 框架。这些脚本全天运行。 该项目处于开发/测试阶段。所以我不知道该项目的系统要求是什么。 我以 512MB RAM 和 30GB 硬盘启动它。由于硬盘空间不足,系统崩溃了。因此我必须再次设置服务器,并以 512MB RAM 和 100GB 硬盘重新启动我的项目。 由于 RAM/SWAP 容量较小,系统再次崩溃。 有没有办法检查 RAM 和硬盘? 因此,在server crash它终止所有程序并向我发送...

Admin

使用并行化的 wget/curl 命令进行抓取
scraping

使用并行化的 wget/curl 命令进行抓取

我创建了一个脚本,它尝试对 URL 的哈希值(数字)进行所有可能的组合,这些 URL 代表指向某些社交媒体文件(视频或音频)的链接,例如https://www.youtube.com/watch?v={hash}或者https://ok.ru/video/{数字}或等等。该脚本并行运行数千个 wget 命令来确定 URL 是否有效(代表现有媒体),如果为真,则将其写入日志。 目的:创建一个包含所有有效链接的大型哈希图(哈希 -> 标题),并离线使用它进行完整搜索。为什么?因为我确信几乎所有社交网络的搜索机制都不完整:某些东西被复杂的算法跳过(取决于位置...

Admin

Prometheus 上的 SNMP 抓取返回 HTTP 状态 500 内部服务器错误
scraping

Prometheus 上的 SNMP 抓取返回 HTTP 状态 500 内部服务器错误

我在 Ubuntu Server 上安装了 Prometheus 和 SNMP 导出器,然后配置使用 /etc/prometheus/prometheus.yml - job_name: 'Mikrotik' static_configs: - targets: - 10.10.106.210 # Mikrotik device. metrics_path: /snmp params: module: [mikrotik] relabel_configs: - source_labels: [__address__] t...

Admin

如何配置正向代理来保留访问过的网站的历史镜像?
scraping

如何配置正向代理来保留访问过的网站的历史镜像?

我正在抓取有关公务员日历的信息。这些都是公开的纯文本信息。我想保留我正在抓取的原始 HTML 文件的副本,以备历史之用,也以防出现错误而需要重新运行抓取工具。 对于 Squid 或 Apache Traffic Server 等正向代理来说,这听起来是个不错的用法。但是,我在他们的文档中找不到同时实现以下两种功能的方法: 保留缓存页面的永久历史记录 访问缓存页面的旧版本(类似 Wayback Machine) wget有人知道这是否可行吗?我可以使用或镜像页面httrack,但前向缓存是更好的解决方案,因为缓存过程由抓取工具本身驱动。 谢谢! ...

Admin

使用 Tunnelbroker 来平衡 Node.JS 网络爬虫的负载
scraping

使用 Tunnelbroker 来平衡 Node.JS 网络爬虫的负载

我想知道我是否可以分配托管 Node.JS 应用程序 (puppeteer) 的 Linux VPS,使用来自隧道经纪人实现 IP 轮换和负载平衡我的抓取请求并最大限度地减少应用程序被网站阻止的机会。 ...

Admin

URL 参数 '?i=1' 如何检测浏览器?
scraping

URL 参数 '?i=1' 如何检测浏览器?

自由主机声称 '?i=1' url GET 参数可以保护他们的服务器。我想知道如何保护。在提问之前我确实使用过谷歌,但所有结果都是关于它们是为了安全以及如何删除它们(如果您有 ssh 访问权限)。我想知道原理,也许可以尝试为我自己的(在 vps 上)网站实现一个。我猜答案在于浏览器的行为。 ...

Admin

如何识别谁在抓取我的网站?
scraping

如何识别谁在抓取我的网站?

我有一个电子商务网站,托管在 AWS 上。 我知道有一些工具可以阻止/阻止抓取机器人。但是,是否有可能检测出谁在抓取我的网站?我的意思是,我是否能够检测到请求来自机器人,然后找到机器人的 IP 并使用它来识别正在抓取我网站的服务器? ...

Admin

网站被另一个域名镜像
scraping

网站被另一个域名镜像

所以我的网站被另一个域名镜像,我尝试了很多方法来阻止来自该特定域名的访问但没有希望,我正在使用 cloudflare CDN,并且镜像我网站的网站也使用它,我试图获取原点的远程地址但它一直在随机更改 IP(这种方法我在这里找到了,基本上是获取远程地址并使用 htaccess 角色阻止它)。尝试了 http refer 方法,但它也不起作用。 有没有什么方法可以帮助呢? ...

Admin

在 Haproxy 中阻止网站抓取工具
scraping

在 Haproxy 中阻止网站抓取工具

我正在使用 Haproxy。我想阻止爬虫程序访问我的网站。在 haproxy.cfg 中,我创建了一条规则。 acl blockedagent hdr_sub(user-agent) -i -f /etc/haproxy/badbots.lst http-request deny if blockedagent 该文件/etc/haproxy/badbots.lst包含我想要阻止的用户代理, ^Lynx ^PHP ^Wget ^Nutch ^Java ^curl ^PEAR ^SEOstats ^Python\-urllib ^python\...

Admin

如何在 Linux 中启用 wget 的 JavaScript 来抓取网站?
scraping

如何在 Linux 中启用 wget 的 JavaScript 来抓取网站?

我像这样使用 wget 来保存网站: 在某些情况下 wget --page-requisites --no-parent --mirror http://example.com/index.html -P /home/才不是工作,错误是: 此网站需要 Javascript 才能运行,请在您的浏览器中启用 Javascript 或使用支持 Javascript 的浏览器 现在我该如何为该站点启用 Javascript 支持或者以其他方式支持这些站点。 ...

Admin

HTTrack 存储无扩展名的页面,并附加 .html
scraping

HTTrack 存储无扩展名的页面,并附加 .html

我想将我的旧网站镜像到本地文件。我以前曾使用 httrack 来实现这个功能,但这次我遇到了一个问题,我以前以为我已经解决了这个问题,但现在似乎无法解决。 我的网站有很多无扩展名的页面,httrack 会将其下载为文件并附加 .html。然后它会更新其他页面中的所有链接以引用此更改后的路径。问题是 - 这是一条新路径,与旧结构不匹配。我希望它创建一个与无扩展名文件匹配的文件夹,然后将 index.html 文件放入该文件夹中。 httrack 可以做到这一点吗,还是我需要寻找其他工具? ...

Admin

如何从网页中捕获不同结构的表格
scraping

如何从网页中捕获不同结构的表格

我有数千个网页(需要使用用户名和密码登录),例如https://XXX.incometax.XXX/Preview/ViewDetail?TIN_INFO_NO=11935#每个 url 只有最后四位数字(本例中为 11935)会发生变化。每个 url 都会在不同类型的表格中检索纳税人的税务信息。表格根据系统中为每个纳税人输入的信息提供,例如,某些纳税人信息表显示使用 NID 创建电子纳税人识别号 (eTIN) 的人的国民身份证 (NID) 号码,而某些纳税人信息表显示护照号码(对于使用护照号码创建 eTIN 的人)。所以,最重要的是,不同纳税人的信息表是不...

Admin

怀疑我的某个网站用户进行了恶意活动;有什么办法可以确定吗?
scraping

怀疑我的某个网站用户进行了恶意活动;有什么办法可以确定吗?

在大约 2 小时内,我的网站上的一名登录用户访问了大约 1,600 个页面,其方式看起来与机器人非常相似。我之所以感到担忧,是因为用户必须购买网站访问权限才能完全访问我们受保护的内容;因此我有理由相信此人正在抓取我们的内容。 我知道我应该首先采取缓解措施来防止此类行为发生。我现在正在努力。 根据 Apache 访问和错误日​​志,我有相当强的间接证据表明用户正在使用某种爬虫或机器人。我想知道是否有任何方法可以获得直接证据,即基于爬虫模式,我能否 100% 地说这是一个脚本? 以下是访问日志的示例: ###.###.###.### - - [06/Ap...

Admin