站点地图有多少种类型?

站点地图有多少种类型?

我很困惑地发现 Google 网站中有两个不同的站点地图:

http://sites.google.com/site/(name of the site)/system/feeds/sitemap
http://sites.google.com/site/(name of the site)/system/app/pages/sitemap/hierarchy

现在,我准备问一个令人困惑的问题:“什么是站点地图?”我一直认为它们是让爬虫看到网站上的内容的东西,正如前一个示例所证实的那样。后一个示例挑战了我的知识。它们到底是什么?前者只供人类使用,而后者供爬虫使用吗?还有更多不同类型的站点地图吗?

答案1

站点地图可以是 a) 面向人类受众的站点结构的视觉表示 b) 供网络爬虫(谷歌、雅虎)使用的文件,用于告知它们哪些网址可供爬取。它通常与 robots.txt 文件一起提供,后者告知爬虫哪些网址可以编入索引,哪些网址不能。站点地图最常见的格式是 XML,它允许指定 URL 的重要性和更改频率。您可以在以下位置阅读规范http://www.sitemaps.org/protocol.php。不常见但可能的站点地图格式只是纯文本文件,用换行符分隔 URL。它不像 XML 格式那样灵活,因此 XML 格式更适合 SEO 工作。您可以拥有多个 XML 站点地图并将它们链接到站点地图索引中。它通常由大型站点使用,因为站点地图协议将站点地图大小限制为 10 MB。此外,您可以使用 RSS 或 ATOM 源来通知爬虫有关 URL 的信息。这种方法的缺点是您只能通知最新的 URL。

答案2

站点地图一词可以有两个略有不同的含义:

A)人类的站点地图

一个网页,用于向用户概述您的网站。这是您的示例

http://sites.google.com/site/(名称站点)/system/app/pages/sitemap/hierarchy

是的。只需将其粘贴到浏览器的 URL 栏中即可查看。

B)机器的站点地图

这种类型的站点地图是机器可读的(txt 或 xml)组成网站的 URL 列表。这种类型的站点地图允许爬虫查看网站上的内容

您甚至可以拥有多个此类站点地图。这样做的原因与我们通常不将所有源代码放在一个文件中的原因相同。如果您将站点地图拆分为多个文件,则更容易管理。

在你的例子中

http://sites.google.com/site/(name of the site)/system/feeds/sitemap

“feeds” 表示这是一个仅包含 RSS feed 的 URL 的站点地图。

要了解它包含的内容,您必须仔细查看它。一种方法是下载文件,如下所示

wget http://sites.google.com/site/(name of the site)/system/feeds/sitemap

并在您最喜欢的文本编辑器中打开它。

在我的谷歌网站上,这个文件看起来是这样的:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
</urlset>

它几乎是空的。原因可能是我刚刚创建了该网站并且不存在任何 feed 条目。

相关内容