web-crawler

Google 已将未链接的页面编入索引

Google 索引了我网站上的一个页面，该页面从未链接到任何其他页面。没有人链接到该页面，并且目录内容无法浏览。这怎么可能发生？我以为爬虫无法收录未链接的页面。 ...

Admin 2024-12-9

web-crawler

为什么 Cyotek WebCopy 和 HTTrack 等网站复制工具无法找到 Google 等搜索引擎可以找到的文件？

我想将目标网站保密，但以下是一些详细信息：这是一个个人（单一作者）公开文档/作品集/博客类型的网站它似乎使用 Apache 托管据我所知，内容是静态的当在某些相对路径上使用浏览器时，它会使用浏览器的文件“索引”视图为它们提供服务它似乎没有 robot.txt 它有一个根 index.html 这不是一些“秘密”信息（它在公共网络上，并且那里没有登录/帐户）那里有“公共”图像和 html 文件，它们最终没有从 index.html 链接。主题工具 Cyotek WebCopy 和 HTTrack 无法找到这些文件，但 Google 可以：sit...

Admin 2024-10-31

web-crawler

如何从已关闭的服务器恢复电子邮件

我在 Altern.org 上有一个旧电子邮件帐户。不幸的是，服务器已关闭，我未能成功联系管理员来检索我的电子邮件。是否有任何存档服务器（如网站存档）恢复我的旧电子邮件。 ...

Admin 2024-10-7

web-crawler

WinHTTrack 网站复制器，用于复制带有登录名（密码保护）的网站

我有一个受登录保护的网站，我知道其登录用户名和密码。我需要使用 WinHTTrack 来克隆该网站。我在网上看到了很多教程，但没有一个对我有用，当我按照说明操作时，什么也没发生，浏览器的链接永远不会发送到 WinHTTrack 他们要求临时设置代理地址和端口，但这对我来说不起作用。我参考的一些教程： http://httrack.kauler.com/help/CatchURL_tutorial https://www.techwalla.com/articles/how-to-configure-httrack-for-a-website-with-...

Admin 2024-9-16

web-crawler

在 Windows 10 中配置 Tor 以散列新密码时遇到问题

我尝试过并阅读了互联网上关于为 Tor 散列新密码的各种文章。我的 Tor 安装在本地磁盘 D 中，我在命令提示符中使用了以下命令 D:\softwares\tor\Tor Browser\Browser>firefox --hash-password <my password> | more D:\softwares\tor\Tor Browser\Browser>firefox --hash-password <my password> > tor-password.txt 获取哈希密码的输出，但没有哈希密码的...

Admin 2024-8-23

web-crawler

索引已阻止 Google 的整个网站？

我尝试在 Google 上输入 site:site.com [搜索词]，但 site.com 通过其 robots.txt 阻止 Google 将其编入索引。我该如何解决这个问题？我能否自行下载并编入整个网站索引，然后搜索我自己的私人索引？ ...

Admin 2024-8-7

web-crawler

网页抓取/爬取所有文件（可公开获取）的列表，而不是从主页开始逐个查找每个文件 5 个时钟

问题概述我正在尝试从以下地址创建所有文件（100 个）的列表（并可能下载）：https://eba.europa.eu/regulation-and-policy 我每周都会在工作中使用它来识别网站上的变化或新项目。为每个文件手动执行此操作的 5 次点击如下： https://eba.europa.eu/ https://eba.europa.eu/regulation-and-policy https://eba.europa.eu/regulation-and-policy/accounting-and-auditing https://eba.e...

Admin 2024-8-6

web-crawler

在 Linux 虚拟机上进行网页抓取时请求缓慢

我必须发出大量请求才能抓取网站数据。仅我的计算机发出所有这些请求需要花费太多时间，因此我改为在 7 台虚拟机上运行 Python 脚本。在我的 Windows PC 上，每个请求大约需要 0.25 秒，但在虚拟机 (linux) 上，它们通常需要 0.15 秒，但大约 4 个请求中有 1 个似乎卡住了，需要 3-5 秒。这大大减慢了抓取速度...为什么会这样？！我怎样才能让它像在我的小型电脑上一样好用？感谢您的帮助 ...

Admin 2024-7-27

web-crawler

Solr 中的 Apache Nutch 索引错误

Indexing 1000/1000 documents Deleting 0 documents Indexing 1000/1000 documents Deleting 0 documents Indexing job did not succeed, job status:FAILED, reason: NA Indexer: java.lang.RuntimeException: Indexing job did not succeed, job status:FAILED, reason: NA at org.apache.nutch.i...

Admin 2024-7-21

web-crawler

wget 中的“黑名单”到底是什么意思？

我正在运行以下命令 wget -d -e robots=off --recursive -l 10 -w 6.8 -t 3 -nc --random-wait -T 10 -R "*.js, *.css, *.jsp, *.mp3, *.mp4, *.swf, *.apk, *.pdf, *.css, *.doc, *.docx, *.xls, *.xlsx, *.jpg, *.jpeg, *.gif, *.JPG, *.JPEG, *.png, *.PNG" --server-response http://www.wuli.ac.cn/CN/volum...

Admin 2024-7-1

web-crawler

没有名为“scrapy.conf”的模块

我正在尝试从以下位置执行 Twitter 抓取代码：https://github.com/jonbakerfish/TweetScraper 当我在命令提示符中运行命令scrapy list以确保抓取工具设置正确时，出现以下错误： from scrapy.conf import settings ModuleNotFoundError: No module named 'scrapy.conf'". 我尝试过重新安装 scrapy 和许多其他方法，但似乎都无济于事。有人能帮帮我吗？ ...

Admin 2024-6-20

web-crawler

如何在跟踪电子邮件内容或链接时过滤掉“爬虫”/图像代理并仅获取用户的真实点击

目前我正在开发一项功能，利用该功能我应该能够跟踪电子邮件及其中的链接。因此，当用户点击图像中的链接时，我会在数据库中输入一些条目，以便我可以分析用户在电子邮件中的行为当用户点击电子邮件时，我会获得详细信息（链接、ip、链接所在位置、用户代理）。问题：用户点击链接几秒钟后，我从一次点击中获得大约 2 个条目 - 一个条目是带有用户 ip 的真实点击，第二个条目是 google-ip - 我猜这是 google 爬虫或图像代理服务器。我想，当 Google 有这样的“机制”时，其他人也会有。hotmail、yahoo、gmx 等，谁知道还有多少其他人...

Admin 2024-6-19

web-crawler

wget 因黑名单而决定不加载

我正在尝试复制一个网站的完整内容；例如， http://vfilesarchive.bgmod.com/files/ 我在跑 wget -r -level=inf -R "index.html*" --debug http://vfilesarchive.bgmod.com/files/ 例如 Deciding whether to enqueue "http://vfilesarchive.bgmod.com/files/Half-Life%D0%92%D0%86/". Already on the black list. Decided N...

Admin 2024-6-19

web-crawler

如果我们不知道某个 URL 属于哪个文件夹，那么我们如何知道哪些 URL 可以被抓取，就像 robots.txt 所说的那样？

我准备编写一个网络爬虫，但在此之前我想知道可以爬取什么。如果我错了请告诉我，但是在 robots.txt 中网站指示的是文件夹而不是可以和不能抓取的 URL，那么我们如何知道 URL 属于哪个文件夹？ ...

Admin 2024-6-19

web-crawler

有任何 Chrome 扩展程序或插件可以自动保存浏览过的网页吗？

我正在寻找一个软件或浏览器扩展（最好使用 Chrome），它可以自动将我查看过的所有网页保存在本地。据我所知，Firefox 中有一款名为 ScrapBook 的程序，但是 60 版之后不再支持 FireFox。 ...

Admin 2024-6-19