我想从特定网站下载所有单词内容。将结果保存在 MS Word、Excel 或记事本中,并检查哪些单词重复次数最多以及重复次数是多少。
答案1
答案2
您可以使用 powershell 下载文件,然后使用 HTML 解析器提取文本。下载网页的 powershell 命令是:
Invoke-WebRequest https://google.com -OutFile C:/Users/JohnDoe/Desktop/google.html
这将在您的桌面上保存一个名为“google.html”的 html 文件(如果您将 JohnDoe 更改为您的 Windows ID)。然后您可以在其上使用 html 解析器。以下是 html 解析器的维基百科比较链接:http://en.wikipedia.org/wiki/Comparison_of_HTML_parsers