使用 cURL 进行网站抓取有多“合法”?

使用 cURL 进行网站抓取有多“合法”?

最近我在尝试使用 cURL,发现它有很多用途。我编写了一个小脚本,用于抓取一个播放在线歌曲的音乐网站。在实验过程中,我发现也可以抓取歌曲来源……(该网站不提供下载)。

我只是想知道。抓取这些网站是否完全合法?我的意思是使用http and port '80'

市场上有大量的下载管理器,它们几乎可以从所有网站下载......所有这些都是有效和合法的吗?

答案1

您的问题的答案是肯定的。唯一可能的例外是您所在国家/地区的加密技术,如果 cURL 是使用静态链接的 SSL 支持构建的,或者您要从美国出口到少数几个被视为敌对的国家之一。

一般来说,抓取某个网站的公开网页也是合法的。如果你下载了浏览器中可以看到的所有网页的副本,就不会有任何问题。如果你开始为其他用途造成问题,则可能会被视为拒绝服务攻击。你可能还需要查看网站的条款或条件,但由于你已经下载了它来查看它,所以没有太大区别(充其量只是一个微妙的技术细节)。

然而,下载音乐就是下载音乐。无论您使用 Limewire、uTorrent、Megaupload、Flashget 还是 cURL,您都是在下载音乐。如果艺术家/唱片公司表示可以下载,或者您拥有许可证,或者一般情况下法律允许您下载音乐,那么下载音乐就是合法的。

因此,cURL 完全合法。但就像其他任何东西一样,你用它做的事情可能不合法。

答案2

IMDB.com 在其服务条款中明确禁止在其网站上使用此类抓取工具。

答案3

由于我在这里没有代表,因此我无法对答案发表评论,但有几个答案指出,根据网站的服务条款,这可能不合法。这是一个微妙的技术性问题,但如果是这样的话,那么它仍然是合法的,但你可能会因违反合同或侵犯版权而被民事起诉(尽管侵犯版权也可能是刑事违法行为)。但一般来说,仅仅因为网站的服务条款规定你不能做某事,并不意味着他们有法律权力禁止你做这件事。

答案4

一般来说,你用它做什么比你如何获得它更重要。例如,你可以复制一张 CD,但你用那张 CD 做了什么?你把它卖给了别人(非法)还是你只是把它放在架子上放在你的旧 CD 上面,这样你就有了一份没有划痕的副本(合法)。同样,即使你完全拥有音乐,你仍然只有权利为你自己使用而复制它,甚至没有权利为他人使用。

有个问题。一般来说,在互联网上,如果某件作品是由有权发布该作品的人“发布”的,而且没有任何规定要求它不是免费使用(即 TOS),那么通常认为以非商业方式使用它是一种公平的游戏。但是,如果内容甚至不是网页“可见”部分的一部分,并且需要抓取源代码和浏览文件夹才能获取/访问,那该怎么办呢?尽管它可能位于“公共”网络上,并且可以通过非安全方式访问。这几乎就像声称你可以抢劫某人的房子,因为他们开着门,这有点牵强,但在某种程度上是有效的。如果页面上没有链接,则可以说内容没有“发布”,因此您永远无权访问它。

但这可能只是无稽之谈,如果你没有做任何疯狂的事情,或者试图从他人的工作中获利,那么通常没有人关心你是否进行源代码抓取。

相关内容