screen-scraping

Outlook Web App 2010 的网页抓取工具？

我一直在使用网络展望多年来取得了巨大成功，但最近我们从 2007 版 Outlook Web App (OWA) 切换到了 2010 版。有人知道适用于新版本的抓取工具吗？ ...

Admin 2024-12-13

screen-scraping

我创建了一个 VBA 脚本来从网站上的类元素值返回一个值，但是这在这个特定元素中不起作用。我相信这可能是因为网站要求在返回结果之前先“加载”页面。目前有没有什么方法可以不打开浏览器就返回网站搜索值？提前致谢。 Sub WebRequestExample() Dim url As String Dim xmlHttp As Object Dim html As Object Dim responseText As String Dim elements As Object Dim elementSpan As...

Admin 2024-12-8

screen-scraping

如何使用 Win HTTtrack 抓取网站保护区

我需要从需要登录才能查看所需数据的网站抓取信息。我尝试使用 puppeteer，但我注意到它无法登录，因此我进行了搜索，现在我正在使用 WinHTTrack 下载整个网站。我的主要问题是，如何使用此工具访问限制区域，以便能够下载所有需要的信息？对于其他网站，我正在使用 Web Scraper Chrome 扩展程序，但似乎无法在这个没有 https TLS 连接运行的旧网站上工作。感谢你的建议。 ...

Admin 2024-11-22

screen-scraping

如何才能将网页上的两个或三个“并行”XPath 提取为可以导入电子表格的格式？

如何才能将网页上的两个或三个“并行”XPath 提取为可以导入电子表格的格式？以下是一个例子：https://www.amazon.co.uk/s?rh=n%3A20606777031&language=en_GB&brr=1&pf_rd_i=3012216031&pf_rd_m=A3P5ROKL5A1OLE&pf_rd_p=7accc6fa-9287-4d54-804e-88e159c5cb45&pf_rd_r=P0TZ793D83HJK8616YKC&pf_rd_s=merchandised-se...

Admin 2024-11-13

screen-scraping

访问不可直接访问的 Web 目录中的项目

例如，我想下载美国各州树木的图片。我在以下位置找到了阿拉巴马州的长叶松： https://statesymbolsusa.org/sites/statesymbolsusa.org/files/primary-images/longleafpine.jpg 更一般地说，所有这些美国州树图像都位于： https://statesymbolsusa.org/sites/statesymbolsusa.org/files/primary-images/ 现在，如果我可以直接访问这个网络目录，我可以使用 DownloadThemAll 下载所有这些图像。但我无法直接...

Admin 2024-10-16

screen-scraping

Excel 网络查询 - 如何将获取的数据添加到运行列表中而不是仅仅更新最新数字？

我有一个从网站提取数据的 Web 查询。该网站每天都会发布索引的更新值。我可以将该值提取到电子表格中。但我想制作一个值的连续列表，其中包含日期列和包含该日期值的第二列。我该怎么做？现在，查询只会在更新时覆盖以前的数据。 ...

Admin 2024-10-10

screen-scraping

VBA - IBAN 验证不起作用

我在 Excel 中有一个 IBAN 列表，并希望通过从此网站通过 VBA 抓取数据来验证它们：https://www.iban.com/iban-checker。在 A 列（单元格 A2:A3000）中，我有 IBAN，在 BI 列中，我想根据 IBAN Checker 网站查看它们是否有效。提取/验证另一列中的 BIC 代码可能也是值得的。因此，很高兴听到您对此的看法。我现在有以下用于 IBAN 验证的 VBA 代码，但不幸的是它不起作用：伊班语() Application.ScreenUpdating = False Dim XMLPage A...

Admin 2024-9-10

screen-scraping

为什么网页无法将数据提供给 Excel

我想从网站获取这种漂亮的表格数据（https://app.zerion.io/0x6ef9dca82362509cd878051d1fdc6db12dda2989/overview). （特别地，带有xpath的表格是/html/body/div[1]/div[3]/div/div[3]/div/div/div/div[4]/div[1]/div[2]/div/div）在 Excel 365 中，我向该地址进行网络查询（从网络获取数据），但 Excel 只会给出一个大大的“NA”，结果为空。（使用importhtml函数的 Google Sheets 中也...

Admin 2024-9-4

screen-scraping

将域名网址添加到 wget 结果页面

我正在尝试将网站列表制作成静态网站，我正在使用这个 wget 命令 wget --quiet -E -H -k -nd -K -p -e robots=off #{url} 结果基本是我想要的，但是 index.html 上的所有 url 都是相对的 href="some_css.css"，我想向所有 url 添加一个特定的域， href="https://somedomain.com/some_css.css"wget 是否支持或者有什么方法可以做到这一点？ ...

Admin 2024-8-12

screen-scraping

网页抓取/爬取所有文件（可公开获取）的列表，而不是从主页开始逐个查找每个文件 5 个时钟

问题概述我正在尝试从以下地址创建所有文件（100 个）的列表（并可能下载）：https://eba.europa.eu/regulation-and-policy 我每周都会在工作中使用它来识别网站上的变化或新项目。为每个文件手动执行此操作的 5 次点击如下： https://eba.europa.eu/ https://eba.europa.eu/regulation-and-policy https://eba.europa.eu/regulation-and-policy/accounting-and-auditing https://eba.e...

Admin 2024-8-6

screen-scraping

从多个网页下载视频

我正在尝试从网页列表下载视频。每页有 1 个视频。该页面使用 JavaScript 呈现，禁用 JS 后页面一片空白。我试过了youtube-dl但我认为这不起作用因为它不解析 JS。可以使用以下方式下载单个视频视频下载助手，但是我有几百页需要处理，所以我想自动完成这个操作。我正在看Kantu 浏览器自动化，但我不确定是否可以使用它来识别视频文件并下载它。查看 Chrome 中的页面源代码和网络检查器，它不是一个简单的 html5 视频，而是一系列分割的 mp4 文件，每个文件都使用其 url 中的键值对进行访问以进行授权。有人对如何...

Admin 2024-6-19

screen-scraping

如何将 HTML 标题粘贴到 Excel 中

在之前的回答中（vba - html 表格到 excel 工作表) 关于将 HTML 表格内容解析/粘贴到 Excel 工作表中，wbeard2 分享了这段非常有用且具有说明性的代码。他/她指出，它将表格数据植入 Excel，但不会植入标题。我想知道如何修改此代码以将分栏标题也包含在 Excel 工作表中。我想有一种循环遍历标题元素的方法，类似于循环遍历所有和行中的单元格的方法，但不确定是否有等效的标题循环元素——也许是？任何有关此的建议/指导都值得赞赏。以下是上面引用的答案中的示例代码： Private Sub Test() Dim ie A...

Admin 2024-6-19

screen-scraping

网站能否根据除了遍历速度之外的其他因素区分网络抓取工具和合法用户？

如果我降低网络抓取工具的速度以匹配人类的速度，第三方是否能够区分它们？网站还使用哪些其他标准来区分用户和抓取工具 ...

Admin 2024-6-19

screen-scraping

我在一些网站上看到的是动画 PNG 文件，而不是 GIF。我该如何保存/下载它们？

我知道如何保存 GIF，非常简单。只需右键单击并保存即可。瞧！但是对于这些新的动画 PNG，我一点也不糊涂。如果不使用某种屏幕抓取工具来抓取整个桌面，我甚至不确定这是否可行。只需右键单击并保存，结果会得到一个看起来只有一帧的 PNG。也许我没有使用正确的软件来查看动画 PNG？？？我还尝试了所有我能想到的“抓取”程序（Internet Download Manager、Video DownloadHelper、VSO Downloader 等），但它们都没有检测到它。 ...

Admin 2024-6-18

screen-scraping

如何从“使用 cloudflare 的网站”抓取电子邮件？这将提供

我正在尝试抓取网站及其所有内容。我尝试抓取的网站使用 cloudflare，因此如果网站中有电子邮件地址，它会被混淆，[email protected]如果我尝试使用php simple_html_dom 如果我在任何网络浏览器中打开该页面，我就能看到实际的电子邮件地址。那么我怎样才能抓取真实的电子邮件地址？我怎样才能让 cloudflare 认为我是从浏览器访问网站而不是从机器人访问？ ...

Admin 2024-6-18