获取列表中所有 URL 的标题

获取列表中所有 URL 的标题

我有一个巨大的 URL 列表,我想获取所有 URL 的标题。

这可能吗?(实际上不需要手动访问每一个)

我使用的是 Windows 8

答案1

嗯...通常我会在 Linux 上做这个,但是这里有一个小的批处理文件,你可以在 Windows 中使用:(sites.txt包含你的 URL)

sites.bat

@echo off
if exist titles.txt (del titles.txt)
for /f "tokens=*" %%a in (sites.txt) do (
  echo Checking %%a
  echo|set /p=%%a ;>> titles.txt
  wget --quiet -O - "%%a" 2> nul | sed -n -e "s!.*<title>\(.*\)</title>.*!\1!p" >> titles.txt
)
type titles.txt

结果将显示在titles.txt(在URL ;它前面,以便于导入到电子表格中)

您确实需要wget适用sed于 Windows 的。

您可以在这里找到它们:

Windows 版 wget
适用于 Windows 的 sed

注意:这使用一个简单的命令来提取标题。当正文中也存在标签(或没有标题)sed时,这可能会出错。如果是这种情况,您可以找到更复杂的检查title这里

相关内容