改变：

Question 1

你真正谈论的是网页抓取，仅使用批处理文件会很困难，特别是当您只查找页面的特定部分时。

如果你想获得整个网页，我建议你获取 Windows 版本的获得或者卷曲。这两者都可以轻松集成到批处理脚本中，并下载网页的 HTML。请注意，使用这些工具而不是 Chrome 的真正原因是它们是命令行工具，而不是像 Chrome 这样的基于 GUI 的浏览器。

一旦您有了 HTML，您可能需要使用真正的脚本语言来解析 HTML 文件并仅提取主要文章文本。

Answer

你真正谈论的是网页抓取，仅使用批处理文件会很困难，特别是当您只查找页面的特定部分时。

如果你想获得整个网页，我建议你获取 Windows 版本的获得或者卷曲。这两者都可以轻松集成到批处理脚本中，并下载网页的 HTML。请注意，使用这些工具而不是 Chrome 的真正原因是它们是命令行工具，而不是像 Chrome 这样的基于 GUI 的浏览器。

一旦您有了 HTML，您可能需要使用真正的脚本语言来解析 HTML 文件并仅提取主要文章文本。

Question 2

首先，下载“wget.exe”并将其放在 .bat 的同一文件夹中（或路径中的任何文件夹中）。

然后使用：

set urlPath=www.wikipedia.com
set urlFile=index.html
set urlPathOuput="C:\users\%username%\Desktop"
set urlFileOutput=WiKiPeDiA.txt
wget %urlPath%/%urlFile%
type %urlFile% > %urlPathOuput%\%urlFileOutput%
del %urlFile%

改变：

www.wikipedia.com到网页文件夹

索引.html到网页文件

C:\users\%用户名%\Desktop到你的电脑上的一个文件夹

维基佩迪A.txt到之前定义的文件夹中要生成的文件

一步步

首先，代码保存了一些变量。然后，获得将网页文件下载到 %cd% 文件夹（此处将下载“www.wikipedia.com/index.html”）。

然后，下载的.html内容将保存在纯文本文件中（这里，将在“C:\users\%username%\Desktop”中创建一个新文件（桌面对于当前用户来说，该文件名为“WiKiPeDiA.txt”。

最后网页文件被删除。

笔记：

如果您想使用标签保存文件的内容，这就是代码。

如果您想要保存浏览器显示的文本，则必须在将其保存到文件之前对其进行分析和过滤。

我从来没有这样做过，但我会这样做：

1. set linenumber=0
2. set characternumber=0
3. find the first "<", after linenumber&characternumber and save it in linenumber2 and the characternumber2.
4. echo everything from linenumber&characternumber to linenumber2&characternumber2.
5. find the first ">" after the previous "<" which was in linenumber2, characternumber2. Save it in linenumber and characternumber.
6. goto step 3

希望它有帮助！

Answer