我已经使用过火花
ec2/spark-ec2
脚本启动 AWS 集群。启动后,我能够通过 ssh 进入主节点,并且 spark 正在运行 - 特别是包括端口 8080 上的 web-ui:
$ ps -ef | grep spark
root 3807 1 1 00:22 ? 00:00:08 /usr/lib/jvm/java-1.7.0/bin/java -cp -Xms512m -Xmx512m -XX:MaxPermSize=128m
org.apache.spark.deploy.master.Master
--ip ec2-xxx.amazonaws.com --port 7077 --webui-port 8080
另外:在主服务器上,可以访问 Web UI:
$ wget 10.140.187.xx:8080
--2015-07-25 00:44:17-- http://10.140.187.xx:8080/
Connecting to 10.140.187.xx:8080... connected.
HTTP request sent, awaiting response... 200 OK
Length: 7379 (7.2K) [text/html]
Saving to: ‘index.html’
100%[================================================================================================================================>] 7,379 --.-K/s in 0s
2015-07-25 00:44:17 (439 MB/s) - ‘index.html’ saved [7379/7379]
现在,在等式的 AWS 安全组方面:它在这里。特别注意:包括端口 8080-81:
那么 - 为什么不能通过 spark url 远程连接到这个 master -http://10.140.187.xx:8080?它只是超时了。
答案1
哦,我明白了 - 这是因为 ec2 机器报告的 ip 地址显然在外部不可见。我需要使用
ec2-54-234-xxx-xx.compute-1.amazonaws.com
代替
10.140.xx.xxx