web-crawler

Google 已将未链接的页面编入索引
web-crawler

Google 已将未链接的页面编入索引

Google 索引了我网站上的一个页面,该页面从未链接到任何其他页面。没有人链接到该页面,并且目录内容无法浏览。这怎么可能发生?我以为爬虫无法收录未链接的页面。 ...

Admin

为什么 Cyotek WebCopy 和 HTTrack 等网站复制工具无法找到 Google 等搜索引擎可以找到的文件?
web-crawler

为什么 Cyotek WebCopy 和 HTTrack 等网站复制工具无法找到 Google 等搜索引擎可以找到的文件?

我想将目标网站保密,但以下是一些详细信息: 这是一个个人(单一作者)公开文档/作品集/博客类型的网站 它似乎使用 Apache 托管 据我所知,内容是静态的 当在某些相对路径上使用浏览器时,它会使用浏览器的文件“索引”视图为它们提供服务 它似乎没有 robot.txt 它有一个根 index.html 这不是一些“秘密”信息(它在公共网络上,并且那里没有登录/帐户) 那里有“公共”图像和 html 文件,它们最终没有从 index.html 链接。主题工具 Cyotek WebCopy 和 HTTrack 无法找到这些文件,但 Google 可以:sit...

Admin

如何从已关闭的服务器恢复电子邮件
web-crawler

如何从已关闭的服务器恢复电子邮件

我在 Altern.org 上有一个旧电子邮件帐户。不幸的是,服务器已关闭,我未能成功联系管理员来检索我的电子邮件。是否有任何存档服务器(如网站存档)恢复我的旧电子邮件。 ...

Admin

WinHTTrack 网站复制器,用于复制带有登录名(密码保护)的网站
web-crawler

WinHTTrack 网站复制器,用于复制带有登录名(密码保护)的网站

我有一个受登录保护的网站,我知道其登录用户名和密码。我需要使用 WinHTTrack 来克隆该网站。 我在网上看到了很多教程,但没有一个对我有用,当我按照说明操作时,什么也没发生,浏览器的链接永远不会发送到 WinHTTrack 他们要求临时设置代理地址和端口,但这对我来说不起作用。 我参考的一些教程: http://httrack.kauler.com/help/CatchURL_tutorial https://www.techwalla.com/articles/how-to-configure-httrack-for-a-website-with-...

Admin

在 Windows 10 中配置 Tor 以散列新密码时遇到问题
web-crawler

在 Windows 10 中配置 Tor 以散列新密码时遇到问题

我尝试过并阅读了互联网上关于为 Tor 散列新密码的各种文章。我的 Tor 安装在本地磁盘 D 中,我在命令提示符中使用了以下命令 D:\softwares\tor\Tor Browser\Browser>firefox --hash-password <my password> | more D:\softwares\tor\Tor Browser\Browser>firefox --hash-password <my password> > tor-password.txt 获取哈希密码的输出,但没有哈希密码的...

Admin

索引已阻止 Google 的整个网站?
web-crawler

索引已阻止 Google 的整个网站?

我尝试在 Google 上输入 site:site.com [搜索词],但 site.com 通过其 robots.txt 阻止 Google 将其编入索引。我该如何解决这个问题?我能否自行下载并编入整个网站索引,然后搜索我自己的私人索引? ...

Admin

网页抓取/爬取所有文件(可公开获取)的列表,而不是从主页开始逐个查找每个文件 5 个时钟
web-crawler

网页抓取/爬取所有文件(可公开获取)的列表,而不是从主页开始逐个查找每个文件 5 个时钟

问题概述 我正在尝试从以下地址创建所有文件(100 个)的列表(并可能下载):https://eba.europa.eu/regulation-and-policy 我每周都会在工作中使用它来识别网站上的变化或新项目。 为每个文件手动执行此操作的 5 次点击如下: https://eba.europa.eu/ https://eba.europa.eu/regulation-and-policy https://eba.europa.eu/regulation-and-policy/accounting-and-auditing https://eba.e...

Admin

在 Linux 虚拟机上进行网页抓取时请求缓慢
web-crawler

在 Linux 虚拟机上进行网页抓取时请求缓慢

我必须发出大量请求才能抓取网站数据。仅我的计算机发出所有这些请求需要花费太多时间,因此我改为在 7 台虚拟机上运行 Python 脚本。在我的 Windows PC 上,每个请求大约需要 0.25 秒,但在虚拟机 (linux) 上,它们通常需要 0.15 秒,但大约 4 个请求中有 1 个似乎卡住了,需要 3-5 秒。这大大减慢了抓取速度...为什么会这样?!我怎样才能让它像在我的小型电脑上一样好用?感谢您的帮助 ...

Admin

Solr 中的 Apache Nutch 索引错误
web-crawler

Solr 中的 Apache Nutch 索引错误

Indexing 1000/1000 documents Deleting 0 documents Indexing 1000/1000 documents Deleting 0 documents Indexing job did not succeed, job status:FAILED, reason: NA Indexer: java.lang.RuntimeException: Indexing job did not succeed, job status:FAILED, reason: NA at org.apache.nutch.i...

Admin

wget 中的“黑名单”到底是什么意思?
web-crawler

wget 中的“黑名单”到底是什么意思?

我正在运行以下命令 wget -d -e robots=off --recursive -l 10 -w 6.8 -t 3 -nc --random-wait -T 10 -R "*.js, *.css, *.jsp, *.mp3, *.mp4, *.swf, *.apk, *.pdf, *.css, *.doc, *.docx, *.xls, *.xlsx, *.jpg, *.jpeg, *.gif, *.JPG, *.JPEG, *.png, *.PNG" --server-response http://www.wuli.ac.cn/CN/volum...

Admin

没有名为“scrapy.conf”的模块
web-crawler

没有名为“scrapy.conf”的模块

我正在尝试从以下位置执行 Twitter 抓取代码:https://github.com/jonbakerfish/TweetScraper 当我在命令提示符中运行命令scrapy list以确保抓取工具设置正确时,出现以下错误: from scrapy.conf import settings ModuleNotFoundError: No module named 'scrapy.conf'". 我尝试过重新安装 scrapy 和许多其他方法,但似乎都无济于事。有人能帮帮我吗? ...

Admin

如何在跟踪电子邮件内容或链接时过滤掉“爬虫”/图像代理并仅获取用户的真实点击
web-crawler

如何在跟踪电子邮件内容或链接时过滤掉“爬虫”/图像代理并仅获取用户的真实点击

目前我正在开发一项功能,利用该功能我应该能够跟踪电子邮件及其中的链接。因此,当用户点击图像中的链接时,我会在数据库中输入一些条目,以便我可以分析用户在电子邮件中的行为 当用户点击电子邮件时,我会获得详细信息(链接、ip、链接所在位置、用户代理)。 问题:用户点击链接几秒钟后,我从一次点击中获得大约 2 个条目 - 一个条目是带有用户 ip 的真实点击,第二个条目是 google-ip - 我猜这是 google 爬虫或图像代理服务器。 我想,当 Google 有这样的“机制”时,其他人也会有。hotmail、yahoo、gmx 等,谁知道还有多少其他人...

Admin

wget 因黑名单而决定不加载
web-crawler

wget 因黑名单而决定不加载

我正在尝试复制一个网站的完整内容;例如, http://vfilesarchive.bgmod.com/files/ 我在跑 wget -r -level=inf -R "index.html*" --debug http://vfilesarchive.bgmod.com/files/ 例如 Deciding whether to enqueue "http://vfilesarchive.bgmod.com/files/Half-Life%D0%92%D0%86/". Already on the black list. Decided N...

Admin