我有一个巨大的 URL 列表,我想获取所有 URL 的标题。
这可能吗?(实际上不需要手动访问每一个)
我使用的是 Windows 8
答案1
嗯...通常我会在 Linux 上做这个,但是这里有一个小的批处理文件,你可以在 Windows 中使用:(sites.txt
包含你的 URL)
sites.bat
@echo off
if exist titles.txt (del titles.txt)
for /f "tokens=*" %%a in (sites.txt) do (
echo Checking %%a
echo|set /p=%%a ;>> titles.txt
wget --quiet -O - "%%a" 2> nul | sed -n -e "s!.*<title>\(.*\)</title>.*!\1!p" >> titles.txt
)
type titles.txt
结果将显示在titles.txt
(在URL ;
它前面,以便于导入到电子表格中)
您确实需要wget
适用sed
于 Windows 的。
您可以在这里找到它们:
Windows 版 wget
适用于 Windows 的 sed
注意:这使用一个简单的命令来提取标题。当正文中也存在标签(或没有标题)sed
时,这可能会出错。如果是这种情况,您可以找到更复杂的检查title
这里。