nutch

Nutch 抱怨 Java 8 版本不匹配,但只安装了 Java 7
nutch

Nutch 抱怨 Java 8 版本不匹配,但只安装了 Java 7

我正在关注https://wiki.apache.org/nutch/NutchTutorial 我从 Apache 站点获得了 Solr 5.5.4,并从 Apache 站点获得了 Nutch 1.13 我正在使用 Oracle Java 7,我首先尝试使用 openjdk-7 并得到相同的错误(如下) 我按照教程操作,进入运行 bin/inject 的步骤,然后出现异常“不支持 major.minor 版本 52.0”——我相信这是 Java 8。我的系统上没有安装 Java 8,这是一个全新的 Debian 安装。(完整错误消息如下) 我该如何...

Admin

向伪分布式 nutch/hadoop 集群添加较小的节点
nutch

向伪分布式 nutch/hadoop 集群添加较小的节点

我的 nutch/hadoop 伪分布式运行良好。我想通过添加比主节点小(HD 小 3 倍)且更便宜的新节点来增加处理能力。 由于默认的HDFS副本数为3,平衡数据后我不会获得更多空间,这首先不是我关心的。 我还能获得更多的处理能力吗? 我不明白 map/reduce 任务如何针对复制进行工作。如何决定哪些节点从不同的副本中获取工作。 ...

Admin

我能否在一台 2 GB 的服务器上(同时也是 Web 和 MySQL 服务器)运行像 Lucene 这样的站点搜索?
nutch

我能否在一台 2 GB 的服务器上(同时也是 Web 和 MySQL 服务器)运行像 Lucene 这样的站点搜索?

我的网站的页面数量已超出 Google 自定义搜索的页面数量限制,因此很多结果在我们的网站搜索中都找不到。 我一直在阅读有关 Lucene、Nutch、Solr 等的文章,我想知道我是否需要在一台服务器上运行这些程序,该服务器还运行网站(在 nginx 上)和我们的 mysql 服务器。我们有 2 GB 的 RAM。 我将非常感激任何有关迁移到新站点搜索的建议。 ...

Admin

如何在 Linux 内核上运行 nutch?
nutch

如何在 Linux 内核上运行 nutch?

我想在 Linux 内核上运行 Nutch,我已以 root 用户身份登录,并设置了所有环境变量和 Nutch 文件设置。我创建了一个 url.txt 文件,其中包含要抓取的 URL,当我尝试使用以下命令运行 Nutch 时, bin/nutch crawl urls -dir pra 它会产生以下异常。 crawl started in: pra rootUrlDir = urls threads = 10 depth = 5 Injector: starting Injector: crawlDb: pra/crawldb Injector: u...

Admin