提取 URL 的主机名

提取 URL 的主机名

是否有任何标准化或广泛使用的方法可以从 URL 中提取类似“顶级主机名”的内容?

例如,对于http://images.google.com我喜欢有google.com(即使images.连接到不同的服务器也会http://google.com),而http://www.amazon.co.uk应该给予amazon.co.uk

因此我喜欢获取删除所有子域名的主机名。

答案1

Mozilla 维护着一份二级域名限制的汇编列表。

描述:http://publicsuffix.org/learn/

列表:http://mxr.mozilla.org/mozilla-central/source/netwerk/test/unit/data/test_psl.txt?raw=1

可以解析该列表,并使用派生的规则来检测第二级域名是否是受限制的域名,因此主机名包含第三级域名。

相关内容