我有一个包含数百个 URL 的列表,位于一个受密码保护的帐户内,格式如下:
https://somesite.com/somescript.php?nameA
https://somesite.com/somescript.php?nameB
https://somesite.com/somescript.php?nameC
...
对于每个 URL,我想从相应的网页中提取一个字符串值,该值始终位于特定前缀字符串和一个后缀字符串,并使用从每个 URL 中提取的数据创建一个本地 CSV 文件:
nameA,valueA
nameB,valueB
nameC,valueC
...
在 Mac OS X 中是否有任何简单的方法或脚本可以执行此操作?
我已经尝试过 Firefox 的 iMacros 插件,但它似乎不起作用,至少在 Mac OS X 上不起作用。也许 Automator 可以,但我不知道该怎么做……
答案1
这应该相对容易做到宏。如果所有页面都在同一个受密码保护的帐户中,您只需通过浏览器正常登录,然后运行脚本即可。即使它们不使用相同的登录名和密码,也可以自动执行登录过程,尽管这会增加一定程度的复杂性。
iMacros 以 csv 格式返回其结果。如果很难让 iMacros 选择所需的精确 HTML 元素,我通常会选择页面的较大部分,然后使用 Excel 中的 Mid() 函数提取我需要的精确字符串。iMacros 独立完整版有一些 Firefox 插件所没有的有用功能(至少在 GUI 中没有)。您可以免费试用完整程序 30 天。
或者,您可以使用 wget 下载所有页面,然后在本地处理它们。它可以从 URL 列表中检索页面。Wget 还允许登录,尽管我承认我没有尝试过。一旦您将它们保存在本地,您就可以使用 iMacros 甚至运行宏的文本编辑器(如 notepad++)来处理它们。
一个更强大的工具是维基百科.然而这需要一些编程经验。