我如何才能从网站上抓取单词数据?

我如何才能从网站上抓取单词数据?

我想从特定网站下载所有单词内容。将结果保存在 MS Word、Excel 或记事本中,并检查哪些单词重复次数最多以及重复次数是多少。

答案1

这可能有点棘手 - 因为您必须下载 HTML 才能获取其余内容。幸运的是,问题已经解决。使用 Wget。下载(包括 Windows 二进制文件)这里 和手册这里

我已为您提供“--accept”选项的手动锚点,该选项限制了保存的文件类型。您需要将其与 --mirror 以及一些最大深度选项混合使用。如果您获得的信息少于所需信息,请留意“span hosts”。

我认为这回答了提出的问题 - 如果您需要帮助计算单词(或以编程方式将 word/excel 转换为文本),这可能是一个新问题。

答案2

您可以使用 powershell 下载文件,然后使用 HTML 解析器提取文本。下载网页的 powershell 命令是:

Invoke-WebRequest https://google.com -OutFile C:/Users/JohnDoe/Desktop/google.html

这将在您的桌面上保存一个名为“google.html”的 html 文件(如果您将 JohnDoe 更改为您的 Windows ID)。然后您可以在其上使用 html 解析器。以下是 html 解析器的维基百科比较链接:http://en.wikipedia.org/wiki/Comparison_of_HTML_parsers

相关内容