sitemap

下载/更新 XML 站点地图中列出的网页
sitemap

下载/更新 XML 站点地图中列出的网页

我正在搜索一个 FLOSS 工具,它可以下载 XML 站点地图中链接的所有页面(以及嵌入的资源,例如图像)(根据http://www.sitemaps.org/)。 该工具应定期“抓取”站点地图并查找新的和已删除的 URL 以及元素中的更改lastmod。因此,每当添加/删除/更新页面时,该工具都应应用更改。 一些站点地图在sitemapindex→中列出了子站点地图sitemap。该工具应该理解这一点,并加载所有链接的子站点地图并在其中查找 URL。 我知道有一些工具可以让我从站点地图中提取所有 U...

Admin

网站爬虫/蜘蛛获取网站地图
sitemap

网站爬虫/蜘蛛获取网站地图

我需要检索整个网站地图,格式如下: http://example.org/ http://example.org/product/ http://example.org/service/ http://example.org/about/ http://example.org/product/viewproduct/ 我需要它基于链接(没有文件或目录暴力破解),例如: 解析主页->检索所有链接->探索它们->检索链接,... 我还需要能够检测页面是否为“模板”,以便不检索所...

Admin

从站点地图(xml)中提取链接
sitemap

从站点地图(xml)中提取链接

假设我有一个sitemap.xml包含此数据的文件: <url> <loc>http://domain.com/pag1</loc> <lastmod>2012-08-25</lastmod> <changefreq>weekly</changefreq> <priority>0.9</priority> </url> <url> <loc>http://domain.com/pag2</loc> &l...

Admin

如何为受密码保护的网站创建网站地图
sitemap

如何为受密码保护的网站创建网站地图

Microsoft Visio 具有为现有网站创建站点地图的功能。但是,我的网站需要登录,用户必须经过身份验证才能查看内容。 有没有办法将凭据输入 Visio 或向 Visio 提供经过身份验证的会话 ID,以便它可以创建站点地图? ...

Admin

取消 robots.txt 中的子目录限制
sitemap

取消 robots.txt 中的子目录限制

好的,目前我们正在限制目录 /Assets/ 在我们的 robots.txt 中被编入索引。/Assets/ 目录下有一个目录我想被编入索引 (/Assets/product_labels/)。除了将其移动到另一个目录之外,还有其他方法可以允许这个目录吗? ...

Admin

.htaccess - 重定向所有 URL,但有一个例外
sitemap

.htaccess - 重定向所有 URL,但有一个例外

我想将所有 URL 从一个域重定向到另一个域。一些旧 URL 有新的对应 URL,其中包含要重定向到的特定页面。所有其他 URL 都应重定向到新域的主页。 但我不想重新重定向sitemap.xml。所以我做了这样的例外(从这里): RewriteCond %{REQUEST_URI} !^/sitemap.xml?$ 但它不起作用。 这是我的完整代码: RewriteEngine on # exception for the sitemap: RewriteCond %{REQUEST_URI} !^/sitemap.xml?$ # specific ...

Admin

如何在受 shibboleth 保护的网站上公开站点地图文件
sitemap

如何在受 shibboleth 保护的网站上公开站点地图文件

我们使用 shibboleth 来保护 apache 虚拟主机。我们希望为该站点公开提供单个文件(站点地图)。 有没有办法在虚拟主机中编写这个代码? 当前的虚拟主机如下所示: <VirtualHost *:443> ServerName my-staging.sjf.edu DocumentRoot /var/www/sjf/my <Directory "/var/www/sjf/my"> Options -Indexes +FollowSymLinks ...

Admin

如何从 httacess 重定向中排除我的站点地图?
sitemap

如何从 httacess 重定向中排除我的站点地图?

我希望重定向所有 URL,但根目录中的站点地图 xml 文件除外。htaccess 应该允许 https://old-domain/xml.xml 使用 HTTP 200 进行解析,但目前它仍在重定向到新域。我如何从重定向中排除文件 (xml.xml)? RewriteEngine On RewriteCond %{REQUEST_URI} !^/xml\.xml$ RewriteCond %{HTTP_HOST} ^old-domain\.de$ [OR] RewriteCond %{HTTP_HOST} ^www\.old-domain\.de$ Re...

Admin

如何强制 Nginx 覆盖标头?
sitemap

如何强制 Nginx 覆盖标头?

我正在尝试显示我的站点地图。浏览器将我的站点地图索引显示为 xml,但将帖子站点地图视为纯文本。 我尝试用以下配置覆盖内容类型,但没有帮助。 location ~ \.xml$ { proxy_hide_header Content-Type; add_header Content-Type "application/xml"; } 如何强制 nginx 将内容类型设置为“application/xml”? 顺便说一下,站点地图简而言之...... 网站地图索引 <?xml version="1.0" encoding="...

Admin

google 站点地图生成器:仅列出默认主机名
sitemap

google 站点地图生成器:仅列出默认主机名

我成功地在 kimsufi 服务器上安装了 google 站点地图生成器,该服务器在 Debian 上运行,使用 apache2.2。但是当我转到http://example.com:8181,仅列出了默认主机名,因此我无法配置其他托管网站。 我按照以下步骤安装了 Google 站点地图生成器此指令并使用以下命令行: ./install.sh -g www-data. 安装成功后,我使用此命令进入管理页面: usr/local/google-sitemap-generator/bin/sitemap-daemon remote_admin ena...

Admin

从 apache 迁移到 nginx 后在站点地图中
sitemap

从 apache 迁移到 nginx 后在站点地图中

我有一个名为的站点地图http://www.domain.com/sitemap1.php. 它以以下代码开头: <?php echo '<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="http://www.weddingpages.nl/sitemap.xsl"?><urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLoca...

Admin

将站点地图存储在站外
sitemap

将站点地图存储在站外

我们有 Nginx 网络服务器。以及每周左右生成的站点地图…… 我们最近迁移到单个负载均衡器下的多个 Web 服务器,并且在每个 Web 服务器上保留站点地图似乎有点愚蠢。由于我们在 AWS 上,是否有办法将站点地图存储在 S3 上并以某种方式将站点地图重定向到 S3 链接?但要保留带有“www”的完整域名。我不知道如何使用域名来做到这一点,也许可以使用一些 NGINX 规则? 我没有找到很多关于此问题的资源。您如何解决这个问题? ...

Admin

Apache 站点地图生成器可生成超过 150K 个 URL 和每天 2K 个 URL
sitemap

Apache 站点地图生成器可生成超过 150K 个 URL 和每天 2K 个 URL

我有一个大型 WordPress 安装,每天发布超过 15 万条帖子,大约 2K 条帖子,3 个月前我用过Google 站点地图生成器但不幸的是它不适用于CENTOS 6 它确实非常好,因为它只使用大约 2M.B 的 RAM 并生成所有链接 因此我需要在不占用大量服务器内存的情况下生成站点地图 我搜索了 Apache 模块,但没有找到 ...

Admin

多语言谷歌站点地图
sitemap

多语言谷歌站点地图

各位主人, 我们将网站翻译成了英文,但我对 sitemap.xml 有点困惑。到目前为止,我们的站点地图如下: <?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:xhtml="http://www.w3.org/1999/xhtml"> <url> <loc>http://mysite.hu</loc> <las...

Admin

单个主机上多个域的交叉提交 robots.txt
sitemap

单个主机上多个域的交叉提交 robots.txt

我们正在 IIS7 上的单个环境中运行一个包含多种语言的网站。例如, oursite.com - 英文 oursite.de - 德语 oursite.es - 西班牙语 这是一个单主机环境。所有这些站点都位于同一台物理机器上的同一应用程序空间中。 我需要通过 robots.txt 进行站点地图的交叉提交。查看 sitemap.org 指南表明这是可行的,但例子表示不同的物理机。 oursite.com/robots.txt 中的以下条目是否有效? http://www.oursite.com/sitemap-oursite-de.xml ...

Admin