screen-scraping

将域名网址添加到 wget 结果页面
screen-scraping

将域名网址添加到 wget 结果页面

我正在尝试将网站列表制作成静态网站,我正在使用这个 wget 命令 wget --quiet -E -H -k -nd -K -p -e robots=off #{url} 结果基本是我想要的,但是 index.html 上的所有 url 都是相对的 href="some_css.css",我想向所有 url 添加一个特定的域, href="https://somedomain.com/some_css.css"wget 是否支持或者有什么方法可以做到这一点? ...

Admin

网页抓取/爬取所有文件(可公开获取)的列表,而不是从主页开始逐个查找每个文件 5 个时钟
screen-scraping

网页抓取/爬取所有文件(可公开获取)的列表,而不是从主页开始逐个查找每个文件 5 个时钟

问题概述 我正在尝试从以下地址创建所有文件(100 个)的列表(并可能下载):https://eba.europa.eu/regulation-and-policy 我每周都会在工作中使用它来识别网站上的变化或新项目。 为每个文件手动执行此操作的 5 次点击如下: https://eba.europa.eu/ https://eba.europa.eu/regulation-and-policy https://eba.europa.eu/regulation-and-policy/accounting-and-auditing https://eba.e...

Admin

从多个网页下载视频
screen-scraping

从多个网页下载视频

我正在尝试从网页列表下载视频。 每页有 1 个视频。该页面使用 JavaScript 呈现,禁用 JS 后页面一片空白。 我试过了youtube-dl但我认为这不起作用因为它不解析 JS。 可以使用以下方式下载单个视频视频下载助手,但是我有几百页需要处理,所以我想自动完成这个操作。 我正在看Kantu 浏览器自动化,但我不确定是否可以使用它来识别视频文件并下载它。 查看 Chrome 中的页面源代码和网络检查器,它不是一个简单的 html5 视频,而是一系列分割的 mp4 文件,每个文件都使用其 url 中的键值对进行访问以进行授权。 有人对如何...

Admin

如何将 HTML 标题粘贴到 Excel 中
screen-scraping

如何将 HTML 标题粘贴到 Excel 中

在之前的回答中(vba - html 表格到 excel 工作表) 关于将 HTML 表格内容解析/粘贴到 Excel 工作表中,wbeard2 分享了这段非常有用且具有说明性的代码。他/她指出,它将表格数据植入 Excel,但不会植入标题。我想知道如何修改此代码以将分栏标题也包含在 Excel 工作表中。我想有一种循环遍历标题元素的方法,类似于循环遍历所有 和 行中的单元格的方法,但不确定是否有等效的标题循环元素——也许是 ?任何有关此的建议/指导都值得赞赏。 以下是上面引用的答案中的示例代码: Private Sub Test() Dim ie A...

Admin

我在一些网站上看到的是动画 PNG 文件,而不是 GIF。我该如何保存/下载它们?
screen-scraping

我在一些网站上看到的是动画 PNG 文件,而不是 GIF。我该如何保存/下载它们?

我知道如何保存 GIF,非常简单。只需右键单击并保存即可。瞧!但是对于这些新的动画 PNG,我一点也不糊涂。如果不使用某种屏幕抓取工具来抓取整个桌面,我甚至不确定这是否可行。只需右键单击并保存,结果会得到一个看起来只有一帧的 PNG。也许我没有使用正确的软件来查看动画 PNG???我还尝试了所有我能想到的“抓取”程序(Internet Download Manager、Video DownloadHelper、VSO Downloader 等),但它们都没有检测到它。 ...

Admin

如何从“使用 cloudflare 的网站”抓取电子邮件?这将提供
screen-scraping

如何从“使用 cloudflare 的网站”抓取电子邮件?这将提供

我正在尝试抓取网站及其所有内容。 我尝试抓取的网站使用 cloudflare,因此如果网站中有电子邮件地址,它会被混淆,[email protected]如果我尝试使用php simple_html_dom 如果我在任何网络浏览器中打开该页面,我就能看到实际的电子邮件地址。 那么我怎样才能抓取真实的电子邮件地址? 我怎样才能让 cloudflare 认为我是从浏览器访问网站而不是从机器人访问? ...

Admin

网页转为分页、文本 PDF
screen-scraping

网页转为分页、文本 PDF

我一直在寻找一种简单的方法将网站转换为带有可选择文本的分页 PDF。 我尝试过许多浏览器扩展,但它们只允许 PNG、整页截图和使用系统对话框打印会破坏样式和布局。 我目前最接近成功的是网页快照但问题是应用程序自己获取内容,这意味着它无法访问某些页面(例如:用户个人资料的登录视图)。 ...

Admin

如何自动从不同网站复制文本
screen-scraping

如何自动从不同网站复制文本

我想知道如何自动从不同的网站复制文本。我正在建立一个属于某些协会的公司数据库。该网站有一个公司列表,其中包含每个公司的描述,我正在手动复制这些描述。有没有办法创建一个宏并自动执行此操作,因为它一遍又一遍地重复相同的过程。 或者有人知道我可以用哪种语言开发类似的东西吗?谢谢, ...

Admin

如何为基于 Amazon S3 的网站实施反抓取机制?
screen-scraping

如何为基于 Amazon S3 的网站实施反抓取机制?

我在 amazon S3 上托管了一些经常更新的静态网页。我想实施一些反抓取机制,比如禁止发出过多请求或发出看起来像机器人的请求的 IP 等。我知道没有什么是万无一失的,但我只是想给他们一些阻力并让他们的工作变得困难。我知道有一种方法可以在存储桶策略中将 IP 地址列入黑名单,但有没有动态的方法来实现这一点,比如...如果特定 IP 每分钟发出....特定数量的请求....那么,在特定时间内禁止它。或者类似的东西。 ...

Admin

如何判断多个网站是否包含某个关键字
screen-scraping

如何判断多个网站是否包含某个关键字

我有一个包含 9k 个网址和几个关键词的列表。 我想知道网页是否包含该词。理想情况下,使用一些搜索运算符进行自动谷歌搜索效果会很好,例如,如果您搜索 "keyword" site:"https://www.example.com" 结果会令人满意(因为它将返回“未找到”或者一堆找到关键词的 url),但由于我有很多网页,因此自动搜索所有 9k 个网页违反了他们的条款和条件。 实现这一目标的常规方法是什么? 我并不是在寻找一种欺骗谷歌的方法,只是为了查找与谷歌完全无关的任何其他可能性。 ...

Admin

google 的信息摘要框(里面的图片)叫什么名字?是否有 api 可以从 google 搜索访问它?
screen-scraping

google 的信息摘要框(里面的图片)叫什么名字?是否有 api 可以从 google 搜索访问它?

我想要访问的示例: 我只是想知道我是否可以编写一些东西,使用搜索字符串查询谷歌,如果摘要框返回,则仅获取该摘要框,否则获取前几个链接。我认为这被称为“屏幕抓取” 希望我遵守规则,虽然没有使用过这个网站或 API,但我认为设定目标并实现目标是一种很好的学习方法。 ...

Admin

Web 抓取宏错误
screen-scraping

Web 抓取宏错误

我正在尝试抓取作为关键作品搜索结果的多个页面。我编写了此代码,但运行时出现错误。错误: Application \-defined or object-defined error. 当我单击“调试”时,它会指向以下行: With ActiveSheet.QueryTables.Add(Connection:=mystr, Destination:=Range("$A$1")) 代码: Sub adds() For x = 1 To 3 Worksheets("sheet1").Select Worksheets("sheet1").Ac...

Admin

具有特定模式的 Httrack 过滤链接
screen-scraping

具有特定模式的 Httrack 过滤链接

我正在尝试使用 httrack 从 archive.org 下载整个网络档案。想法是只下载档案链接(尽可能多),但只下载真正来自档案而不是当前网站的链接。换句话说,我只想下载包含此模式的链接: /web/[archive_timestamp]/[website]/* 以下是一个例子 以下是档案链接:http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ 为了下载我需要的链接,我使用以下命令: httrack http://web.archive.org/web/200112...

Admin

关于网页抓取和数据流的建议
screen-scraping

关于网页抓取和数据流的建议

我有一套太阳能电池板装置,安装它的公司(弗尼斯) 有一个网站,我可以在其中实时传输从太阳能电池板收集的数据(当前功率、今日能量、每月和每年的数据)。 我想在家里显示网站上的数据,但我的智能电视无法在浏览器上全屏显示。我有一台树莓派,所以我想不用智能电视,而是写一个网页抓取工具来抓取数据。我担心,因为页面需要登录,所以登录可能会超时,但我不确定这是否是抓取的问题。 我的问题是,有没有办法持续抓取网站数据,以便实时获取更新的数据,或者有没有其他更好的方法。如果有办法持续抓取数据,我可以自己研究,但我真的很想知道是否有比抓取更好的替代方案。 ...

Admin