适用于各种网站的屏幕抓取模板

适用于各种网站的屏幕抓取模板

我正在寻找一种方便的方式来本地存档来自此网站和其他类似网站的帖子。我想将问题本身与答案分开,或者可能裁剪问题并存储它,保留页面标题。显然我不需要存储菜单或其他各种网站界面 chrome。

最好的方法似乎是将 XSLT 模板与 URL 匹配关联起来,然后使用该模板提取各种相关信息并进行格式化。

我的问题分为两部分:

  • 是否有专门为这项任务构建的工具?例如,某个工具接受一个 URL,并根据路径匹配表达式到模板的映射对其进行检查,然后输出将模板应用于该资源的结果?

    xml 转储似乎已经完成了大部分工作,并且可能只是从执行模式匹配的脚本中调用,但已经集成的东西会更方便。

  • 这样的 URL_pattern-to-XSLT_template 映射是否可以在某处公开获得?

问题 2.5:对于此类拥有内容公共许可证的网站,这样做合法吗?

答案1

问题 2.5 的答案:

如果您不以任何方式分发或发布它,则它是合法的。如果您这样做,您必须引用原始页面。大多数网站都维护基于用户贡献的许可证,该许可证由cc-wiki需注明来源。

相关内容