Windows下部署spark部署纯属瞎折腾,开发还是linux。
部署环境windows10 + spark2.1 + python3.5 + Hadoop2.6 .
暂时不支持python3.6 !!!(坑了好久。。。)
先装好JDK、Python和Hadoop环境。
虽然Spark不依赖Hadoop但后面还是有坑…
安装Spark
在Apache Spark™官网下载对应版本的spark.

下载完成解压(注意路径不要有空格!!!),然后添加spark环境变量
|
|
需要注意的是安装好后并不能用,,在window下还需要hadoop的winutil.exe,所以还需要下载hadoop版本对应的winutil.exe git上下载地址,将下载后的文件复制到hadoop的bin目录即可。
然后打开cmd 运行spark-shell看是否安装成功。
如果报以下错误
则需要指明JVM的内存分配限制,在系统环境变量中添加_JAVA_OPTIONS

前者为最小尺寸,初始分配;后者为最大允许分配尺寸,按需分配,最低得512MB才能启动。