screen-scraping

如何才能将网页上的两个或三个“并行”XPath 提取为可以导入电子表格的格式?
screen-scraping

如何才能将网页上的两个或三个“并行”XPath 提取为可以导入电子表格的格式?

如何才能将网页上的两个或三个“并行”XPath 提取为可以导入电子表格的格式? 以下是一个例子:https://www.amazon.co.uk/s?rh=n%3A20606777031&language=en_GB&brr=1&pf_rd_i=3012216031&pf_rd_m=A3P5ROKL5A1OLE&pf_rd_p=7accc6fa-9287-4d54-804e-88e159c5cb45&pf_rd_r=P0TZ793D83HJK8616YKC&pf_rd_s=merchandised-se...

Admin

访问不可直接访问的 Web 目录中的项目
screen-scraping

访问不可直接访问的 Web 目录中的项目

例如,我想下载美国各州树木的图片。我在以下位置找到了阿拉巴马州的长叶松: https://statesymbolsusa.org/sites/statesymbolsusa.org/files/primary-images/longleafpine.jpg 更一般地说,所有这些美国州树图像都位于: https://statesymbolsusa.org/sites/statesymbolsusa.org/files/primary-images/ 现在,如果我可以直接访问这个网络目录,我可以使用 DownloadThemAll 下载所有这些图像。但我无法直接...

Admin

VBA - IBAN 验证不起作用
screen-scraping

VBA - IBAN 验证不起作用

我在 Excel 中有一个 IBAN 列表,并希望通过从此网站通过 VBA 抓取数据来验证它们:https://www.iban.com/iban-checker。在 A 列(单元格 A2:A3000)中,我有 IBAN,在 BI 列中,我想根据 IBAN Checker 网站查看它们是否有效。 提取/验证另一列中的 BIC 代码可能也是值得的。因此,很高兴听到您对此的看法。 我现在有以下用于 IBAN 验证的 VBA 代码,但不幸的是它不起作用: 伊班语() Application.ScreenUpdating = False Dim XMLPage A...

Admin

为什么网页无法将数据提供给 Excel
screen-scraping

为什么网页无法将数据提供给 Excel

我想从网站获取这种漂亮的表格数据(https://app.zerion.io/0x6ef9dca82362509cd878051d1fdc6db12dda2989/overview). (特别地,带有xpath的表格是/html/body/div[1]/div[3]/div/div[3]/div/div/div/div[4]/div[1]/div[2]/div/div) 在 Excel 365 中,我向该地址进行网络查询(从网络获取数据),但 Excel 只会给出一个大大的“NA”,结果为空。(使用importhtml函数的 Google Sheets 中也...

Admin

将域名网址添加到 wget 结果页面
screen-scraping

将域名网址添加到 wget 结果页面

我正在尝试将网站列表制作成静态网站,我正在使用这个 wget 命令 wget --quiet -E -H -k -nd -K -p -e robots=off #{url} 结果基本是我想要的,但是 index.html 上的所有 url 都是相对的 href="some_css.css",我想向所有 url 添加一个特定的域, href="https://somedomain.com/some_css.css"wget 是否支持或者有什么方法可以做到这一点? ...

Admin

网页抓取/爬取所有文件(可公开获取)的列表,而不是从主页开始逐个查找每个文件 5 个时钟
screen-scraping

网页抓取/爬取所有文件(可公开获取)的列表,而不是从主页开始逐个查找每个文件 5 个时钟

问题概述 我正在尝试从以下地址创建所有文件(100 个)的列表(并可能下载):https://eba.europa.eu/regulation-and-policy 我每周都会在工作中使用它来识别网站上的变化或新项目。 为每个文件手动执行此操作的 5 次点击如下: https://eba.europa.eu/ https://eba.europa.eu/regulation-and-policy https://eba.europa.eu/regulation-and-policy/accounting-and-auditing https://eba.e...

Admin

从多个网页下载视频
screen-scraping

从多个网页下载视频

我正在尝试从网页列表下载视频。 每页有 1 个视频。该页面使用 JavaScript 呈现,禁用 JS 后页面一片空白。 我试过了youtube-dl但我认为这不起作用因为它不解析 JS。 可以使用以下方式下载单个视频视频下载助手,但是我有几百页需要处理,所以我想自动完成这个操作。 我正在看Kantu 浏览器自动化,但我不确定是否可以使用它来识别视频文件并下载它。 查看 Chrome 中的页面源代码和网络检查器,它不是一个简单的 html5 视频,而是一系列分割的 mp4 文件,每个文件都使用其 url 中的键值对进行访问以进行授权。 有人对如何...

Admin

如何将 HTML 标题粘贴到 Excel 中
screen-scraping

如何将 HTML 标题粘贴到 Excel 中

在之前的回答中(vba - html 表格到 excel 工作表) 关于将 HTML 表格内容解析/粘贴到 Excel 工作表中,wbeard2 分享了这段非常有用且具有说明性的代码。他/她指出,它将表格数据植入 Excel,但不会植入标题。我想知道如何修改此代码以将分栏标题也包含在 Excel 工作表中。我想有一种循环遍历标题元素的方法,类似于循环遍历所有 和 行中的单元格的方法,但不确定是否有等效的标题循环元素——也许是 ?任何有关此的建议/指导都值得赞赏。 以下是上面引用的答案中的示例代码: Private Sub Test() Dim ie A...

Admin

我在一些网站上看到的是动画 PNG 文件,而不是 GIF。我该如何保存/下载它们?
screen-scraping

我在一些网站上看到的是动画 PNG 文件,而不是 GIF。我该如何保存/下载它们?

我知道如何保存 GIF,非常简单。只需右键单击并保存即可。瞧!但是对于这些新的动画 PNG,我一点也不糊涂。如果不使用某种屏幕抓取工具来抓取整个桌面,我甚至不确定这是否可行。只需右键单击并保存,结果会得到一个看起来只有一帧的 PNG。也许我没有使用正确的软件来查看动画 PNG???我还尝试了所有我能想到的“抓取”程序(Internet Download Manager、Video DownloadHelper、VSO Downloader 等),但它们都没有检测到它。 ...

Admin

如何从“使用 cloudflare 的网站”抓取电子邮件?这将提供
screen-scraping

如何从“使用 cloudflare 的网站”抓取电子邮件?这将提供

我正在尝试抓取网站及其所有内容。 我尝试抓取的网站使用 cloudflare,因此如果网站中有电子邮件地址,它会被混淆,[email protected]如果我尝试使用php simple_html_dom 如果我在任何网络浏览器中打开该页面,我就能看到实际的电子邮件地址。 那么我怎样才能抓取真实的电子邮件地址? 我怎样才能让 cloudflare 认为我是从浏览器访问网站而不是从机器人访问? ...

Admin

网页转为分页、文本 PDF
screen-scraping

网页转为分页、文本 PDF

我一直在寻找一种简单的方法将网站转换为带有可选择文本的分页 PDF。 我尝试过许多浏览器扩展,但它们只允许 PNG、整页截图和使用系统对话框打印会破坏样式和布局。 我目前最接近成功的是网页快照但问题是应用程序自己获取内容,这意味着它无法访问某些页面(例如:用户个人资料的登录视图)。 ...

Admin

如何自动从不同网站复制文本
screen-scraping

如何自动从不同网站复制文本

我想知道如何自动从不同的网站复制文本。我正在建立一个属于某些协会的公司数据库。该网站有一个公司列表,其中包含每个公司的描述,我正在手动复制这些描述。有没有办法创建一个宏并自动执行此操作,因为它一遍又一遍地重复相同的过程。 或者有人知道我可以用哪种语言开发类似的东西吗?谢谢, ...

Admin

如何为基于 Amazon S3 的网站实施反抓取机制?
screen-scraping

如何为基于 Amazon S3 的网站实施反抓取机制?

我在 amazon S3 上托管了一些经常更新的静态网页。我想实施一些反抓取机制,比如禁止发出过多请求或发出看起来像机器人的请求的 IP 等。我知道没有什么是万无一失的,但我只是想给他们一些阻力并让他们的工作变得困难。我知道有一种方法可以在存储桶策略中将 IP 地址列入黑名单,但有没有动态的方法来实现这一点,比如...如果特定 IP 每分钟发出....特定数量的请求....那么,在特定时间内禁止它。或者类似的东西。 ...

Admin