Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null \bin\winutils.exe in the Hadoop binaries.解决方案:GitHub上,有人提供了winutils的windows的版本,项目地址是: https://github.com/srccodes/hadoop-common-2.2.0-bin ,直接下载此项目的zip包,下载后是文件名是hadoop-common-2.2.0-bin-master.zip,随便解压到一个目录环境准备:C:\My_Files\Config\hadoop-common-2.2.0-bin-master\bin<1>.下载winutils的windows版本GitHub上,有人提供了winutils的windows的版本,项目地址是: https://github.com/srccodes/hadoop-common-2.2.0-bin ,直接下载此项目的zip包,下载后是文件名是hadoop-common-2.2.0-bin-master.zip,随便解压到一个目录<2>.增加用户变量并配置环境变量增加用户变量HADOOP_HOME,值是下载的zip包解压的目录,然后在系统变量path里增加$HADOOP_HOME\bin 即可。 <据说这个不影响集群运行---不知道,有待验证>
<问题四>Spark版本兼容
使用的系统是:using Window 10, Scala 2.10.6, Spark 1.6.0, and Java 1.8
ERROR SparkContext: Error initializing SparkContext.
java.lang.NoSuchMethodException: akka.remote.RemoteActorRefProvider.<init>
原因: Scala 2.10.6 doesn't support Java 8:
2.12, will most likely target Java 8 by default.
解决方法:Try installing the Java 7 JDK
参考:http://stackoverflow.com/questions/39501111/error-sparkcontext-error-initializing-sparkcontext-intellij-and-scala
Hadoop ----- 2.7.1.2.4 HDFS MapReduce2 YARN<JDK7
Spark ----- 1.6.0.2.4 <Scala--2.10.6
HBase ----- 1.1.2.2.4
<问题五>开发中的一些问题
<1>数组超标,过界。在有循环的情况下注意
<2>to 和 until 的开闭区间不同,在遇到for循环的情况下,一定要注意循环的终止条件和范围
Spark的保存模式
spark的saveAsTextFile方法只能指定文件夹,但是保存到本地的话,会报空指针错误。
Caused by: java.lang.NullPointerException at java.lang.ProcessBuilder.start(ProcessBuilder.java:1010)
一般而言,saveAsTextFile会按照执行task的多少生成多少个文件,比如part-00一直到part-0n,n自然就是task的个数,亦即是最后的stage的分区数