改变:

改变:

以下是我目前所做的,打开 chrome,转到 URL,然后打开一个新的 .txt 文件。我需要选择页面上的所有文本,将其复制,粘贴到 BigData.txt 文件中,然后将文件保存到桌面。可以吗?

CD C:\Program Files (x86)\Google\Chrome\Application\   
start chrome.exe http://en.wikipedia.org/wiki/Big_data
CD C:\Users\TomD\Desktop
echo >BigData.txt
end;

感谢大家

答案1

你真正谈论的是网页抓取,仅使用批处理文件会很困难,特别是当您只查找页面的特定部分时。

如果你想获得整个网页,我建议你获取 Windows 版本的获得或者卷曲。这两者都可以轻松集成到批处理脚本中,并下载网页的 HTML。请注意,使用这些工具而不是 Chrome 的真正原因是它们是命令行工具,而不是像 Chrome 这样的基于 GUI 的浏览器。

一旦您有了 HTML,您可能需要使用真正的脚本语言来解析 HTML 文件并仅提取主要文章文本。

答案2

首先,下载“wget.exe”并将其放在 .bat 的同一文件夹中(或路径中的任何文件夹中)。

然后使用:

set urlPath=www.wikipedia.com
set urlFile=index.html
set urlPathOuput="C:\users\%username%\Desktop"
set urlFileOutput=WiKiPeDiA.txt
wget %urlPath%/%urlFile%
type %urlFile% > %urlPathOuput%\%urlFileOutput%
del %urlFile%

改变:

www.wikipedia.com到网页文件夹

索引.html到网页文件

C:\users\%用户名%\Desktop到你的电脑上的一个文件夹

维基佩迪A.txt到之前定义的文件夹中要生成的文件

一步步

首先,代码保存了一些变量。然后,获得将网页文件下载到 %cd% 文件夹(此处将下载“www.wikipedia.com/index.html”)。

然后,下载的.html内容将保存在纯文本文件中(这里,将在“C:\users\%username%\Desktop”中创建一个新文件(桌面对于当前用户来说,该文件名为“WiKiPeDiA.txt”。

最后网页文件被删除。

笔记:

如果您想使用标签保存文件的内容,这就是代码。

如果您想要保存浏览器显示的文本,则必须在将其保存到文件之前对其进行分析和过滤。

我从来没有这样做过,但我会这样做:

1. set linenumber=0
2. set characternumber=0
3. find the first "<", after linenumber&characternumber and save it in linenumber2 and the characternumber2.
4. echo everything from linenumber&characternumber to linenumber2&characternumber2.
5. find the first ">" after the previous "<" which was in linenumber2, characternumber2. Save it in linenumber and characternumber.
6. goto step 3

希望它有帮助!

相关内容