使用 wget 和 sed 从 html 标题中提取字符串

Question

一些问题：

-O /downloads/tmp/cd.txt将输出发送到文件，而不是标准输出。不-O带选项wget仍将下载一个或多个文件。使用-O -发送到标准输出。
您需要过滤掉其他行，因此grep '<title>'或类似的命令应该放在前面sed。
前面的空格<title>将保留。调整sed或使用grep -o。解决方案很少。

wget --trust-server-names 'https://blablabla' -O - \
| grep -o '<title>.*</title>' \
| sed -E 's/<title>(.*) - Company<\/title>/\1/'

此外，您可能想要或不想要wget --quiet …。

Answer 1

一些问题：

-O /downloads/tmp/cd.txt将输出发送到文件，而不是标准输出。不-O带选项wget仍将下载一个或多个文件。使用-O -发送到标准输出。
您需要过滤掉其他行，因此grep '<title>'或类似的命令应该放在前面sed。
前面的空格<title>将保留。调整sed或使用grep -o。解决方案很少。

wget --trust-server-names 'https://blablabla' -O - \
| grep -o '<title>.*</title>' \
| sed -E 's/<title>(.*) - Company<\/title>/\1/'

此外，您可能想要或不想要wget --quiet …。

相关内容