Windows下部署spark

2017-04-09

Windows下部署spark部署纯属瞎折腾，开发还是linux。

部署环境windows10 + spark2.1 + python3.5 + Hadoop2.6 .

暂时不支持python3.6 ！！！(坑了好久。。。)

先装好JDK、Python和Hadoop环境。
虽然Spark不依赖Hadoop但后面还是有坑…

安装Spark

在Apache Spark™官网下载对应版本的spark.

下载完成解压(注意路径不要有空格！！！),然后添加spark环境变量

#PATH后添加
E:\Spark\bin
E:\Spark\sbin
#下面这步至关重要，否则无法在python中使用spark
#然后在环境变量里新建一个系统变量PYTHONPATH
E:\Spark\python\lib\pyspark.zip
E:\Spark\python\lib\py4j-0.10.4-src.zip

需要注意的是安装好后并不能用，，在window下还需要hadoop的winutil.exe，所以还需要下载hadoop版本对应的winutil.exe git上下载地址，将下载后的文件复制到hadoop的bin目录即可。

然后打开cmd 运行spark-shell看是否安装成功。

如果报以下错误

Error occurred during initialization of VM
Could not reserve enough space for object heap
Error: Could not create the Java Virtual Machine.
Error: A fatal exception has occurred. Program will exit.

则需要指明JVM的内存分配限制，在系统环境变量中添加_JAVA_OPTIONS

前者为最小尺寸，初始分配;后者为最大允许分配尺寸，按需分配，最低得512MB才能启动。