为什么spark 运行模式不成功 spark

点击联系发帖人 时间：2016-04-29 02:02

spark 安装成功

为什么运行不成功 spark -sql
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/D:/Users/sparkTest/WebContent/WEB-INF/lib/spark-assembly-1.5.1-hadoop2.4.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/D:/Users/sparkTest/WebContent/WEB-INF/lib/spark-examples-1.5.1-hadoop2.4.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
15/11/11 15:49:30 INFO SparkContext: Running Spark version 1.5.1
15/11/11 15:49:30 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
15/11/11 15:49:30 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:318)
at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:333)
at org.apache.hadoop.util.Shell.&clinit&(Shell.java:326)
at org.apache.hadoop.util.StringUtils.&clinit&(StringUtils.java:76)
at org.apache.hadoop.security.Groups.parseStaticMapping(Groups.java:93)
at org.apache.hadoop.security.Groups.&init&(Groups.java:77)
at org.apache.hadoop.security.Groups.getUserToGroupsMappingService(Groups.java:240)
at org.apache.hadoop.security.UserGroupInformation.initialize(UserGroupInformation.java:255)
at org.apache.hadoop.security.UserGroupInformation.ensureInitialized(UserGroupInformation.java:232)
at org.apache.hadoop.security.UserGroupInformation.loginUserFromSubject(UserGroupInformation.java:718)
at org.apache.hadoop.security.UserGroupInformation.getLoginUser(UserGroupInformation.java:703)
at org.apache.hadoop.security.UserGroupInformation.getCurrentUser(UserGroupInformation.java:605)
at org.apache.spark.util.Utils$$anonfun$getCurrentUserName$1.apply(Utils.scala:2084)
at org.apache.spark.util.Utils$$anonfun$getCurrentUserName$1.apply(Utils.scala:2084)
at scala.Option.getOrElse(Option.scala:120)
at org.apache.spark.util.Utils$.getCurrentUserName(Utils.scala:2084)
at org.apache.spark.SparkContext.&init&(SparkContext.scala:311)
at org.apache.spark.api.java.JavaSparkContext.&init&(JavaSparkContext.scala:61)
at test.main(test.java:36)
15/11/11 15:49:30 INFO SecurityManager: Changing view acls to: Administrator
15/11/11 15:49:30 INFO SecurityManager: Changing modify acls to: Administrator
15/11/11 15:49:30 INFO SecurityManager: SecurityManager: aut users with view permissions: Set(Administrator); users with modify permissions: Set(Administrator)
15/11/11 15:49:31 INFO Slf4jLogger: Slf4jLogger started
15/11/11 15:49:31 INFO Remoting: Starting remoting
15/11/11 15:49:31 INFO Remoting: R listening on addresses :[akka.tcp://sparkDriver@192.168.1.100:52132]
15/11/11 15:49:31 INFO Utils: Successfully started service 'sparkDriver' on port 52132.
15/11/11 15:49:31 INFO SparkEnv: Registering MapOutputTracker
15/11/11 15:49:31 INFO SparkEnv: Registering BlockManagerMaster
15/11/11 15:49:31 INFO DiskBlockManager: Created local directory at C:\Users\Administrator\AppData\Local\Temp\blockmgr-c2-49f3-be88-dfd2a572c61e
15/11/11 15:49:31 INFO MemoryStore: MemoryStore started with capacity 966.9 MB
15/11/11 15:49:31 INFO HttpFileServer: HTTP File server directory is C:\Users\Administrator\AppData\Local\Temp\spark-38-47c7-8f9d-7d281bd75715\httpd-c18044fb-52-bdb
15/11/11 15:49:31 INFO HttpServer: Starting HTTP Server
15/11/11 15:49:31 INFO Utils: Successfully started service 'HTTP file server' on port 52133.
15/11/11 15:49:31 INFO SparkEnv: Registering OutputCommitCoordinator
15/11/11 15:49:31 INFO Utils: Successfully started service 'SparkUI' on port 4040.
15/11/11 15:49:31 INFO SparkUI: Started SparkUI at http://192.168.1.100:4040
15/11/11 15:49:31 ERROR SparkContext: Error initializing SparkContext.
org.apache.spark.SparkException: Could not parse Master URL: '192.168.1.251'
at org.apache.spark.SparkContext$.org$apache$spark$SparkContext$$createTaskScheduler(SparkContext.scala:2702)
at org.apache.spark.SparkContext.&init&(SparkContext.scala:515)
at org.apache.spark.api.java.JavaSparkContext.&init&(JavaSparkContext.scala:61)
at test.main(test.java:36)
15/11/11 15:49:31 INFO SparkUI: Stopped Spark web UI at http://192.168.1.100:4040
15/11/11 15:49:31 INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint stopped!
15/11/11 15:49:31 ERROR Utils: Uncaught exception in thread main
java.lang.NullPointerException
at org.apache.spark.network.netty.NettyBlockTransferService.close(NettyBlockTransferService.scala:152)
at org.apache.spark.storage.BlockManager.stop(BlockManager.scala:1228)
at org.apache.spark.SparkEnv.stop(SparkEnv.scala:100)
at org.apache.spark.SparkContext$$anonfun$stop$12.apply$mcV$sp(SparkContext.scala:1749)
at org.apache.spark.util.Utils$.tryLogNonFatalError(Utils.scala:1185)
at org.apache.spark.SparkContext.stop(SparkContext.scala:1748)
at org.apache.spark.SparkContext.&init&(SparkContext.scala:593)
at org.apache.spark.api.java.JavaSparkContext.&init&(JavaSparkContext.scala:61)
at test.main(test.java:36)
15/11/11 15:49:31 INFO SparkContext: Successfully stopped SparkContext
Exception in thread "main" org.apache.spark.SparkException: Could not parse Master URL: '192.168.1.251'
at org.apache.spark.SparkContext$.org$apache$spark$SparkContext$$createTaskScheduler(SparkContext.scala:2702)
at org.apache.spark.SparkContext.&init&(SparkContext.scala:515)
at org.apache.spark.api.java.JavaSparkContext.&init&(JavaSparkContext.scala:61)
at test.main(test.java:36)
15/11/11 15:49:31 INFO DiskBlockManager: Shutdown hook called
15/11/11 15:49:31 INFO ShutdownHookManager: Shutdown hook called
15/11/11 15:49:31 INFO ShutdownHookManager: Deleting directory C:\Users\Administrator\AppData\Local\Temp\spark-38-47c7-8f9d-7d281bd75715\userFiles-fcc0-422e-80dc-1ccfd727054d
15/11/11 15:49:31 INFO ShutdownHookManager: Deleting directory C:\Users\Administrator\AppData\Local\Temp\spark-38-47c7-8f9d-7d281bd75715
import java.util.A
import java.util.L
import org.apache.spark.SparkC
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkC
import org.apache.spark.sql.DataF
import org.apache.spark.sql.SQLC
* @author Administrator
public class test {
public test() {
// TODO Auto-generated constructor stub
* @param args
public static void main(String[] args) {
// TODO Auto-generated method stub
//JavaSparkContextsc=...;// An existing JavaSparkContext.SQLContextsqlContext=neworg.apache.spark.sql.SQLContext(sc);
SparkConf conf = new SparkConf().setAppName("test").setMaster("master");
JavaSparkContext sc = new JavaSparkContext(conf);
// sc is an existing JavaSparkContext.
SQLContext sqlContext = new org.apache.spark.sql.SQLContext(sc);
// A JSON dataset is pointed to by path.
// The path can be either a single text file or a directory storing text files.
DataFrame people = sqlContext.read().json("examples/src/main/resources/people.json");
// Displays the content of the DataFrame to stdout
people.show();
// The inferred schema can be visualized using the printSchema() method.
people.printSchema();
|-- age: integer (nullable = true)
|-- name: string (nullable = true)
// Register this DataFrame as a table.
people.registerTempTable("people");
// Print the schema in a tree format
people.printSchema();
// |-- age: long (nullable = true)
// |-- name: string (nullable = true)
// Select only the "name" column
people.select("name").show();
// Michael
// Select everybody, but increment the age by 1
people.select(people.col("name"), people.col("age").plus(1)).show();
// Michael null
// Select people older than 21
people.filter(people.col("age").gt(21)).show();
// age name
// Count people by age
people.groupBy("age").count().show();
// SQL statements can be run by using the sql methods provided by sqlContext.
DataFrame teenagers = sqlContext.sql("SELECT name FROM people WHERE age &= 13 AND age &= 19");
// Alternatively, a DataFrame can be created for a JSON dataset represented by
// an RDD[String] storing one JSON object per string.
List&String& jsonData = Arrays.asList(
"{\"name\":\"Yin\",\"address\":{\"city\":\"Columbus\",\"state\":\"Ohio\"}}");
JavaRDD&String& anotherPeopleRDD = sc.parallelize(jsonData);
DataFrame anotherPeople = sqlContext.read().json(anotherPeopleRDD);
你是在windows下运行？
--- 共有 2 条评论 ---
你在Linux下运行九成宫了。spark .hadoop都是为Linux而准备的。在Windows下也可以运行但很麻烦的
ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executablenull\bin\winutils.exe in the Hadoop binaries.
http://lib.csdn.net/article/scala/48334
可以参考这篇文章
欢迎大家加入群【java学习交流】：17:33 提问
Spark没报错，但是停在某一个地方不动了
在一个foreach函数中调用一个把数据写进hbase的函数(函数也是通过spark实现的)，每次程序运行到这里，都停在这里不动了，并且这时在监控界面上除了之前运行的作业，还出现了一个新的作业，这个新作业处于waiting状态。问问各位大神，这是什么原因？
按赞数排序
查看一下spark的日志中是否有什么提示信息。
其他相似问题当前位置： >
功能上的“硬伤”并非Spark应用解不开的死结 14:16:50&|&编辑：hely&|&查看：&|&评论：
虽然Spark自身还有待完善，但该数据处理引擎的使用正在快速增长。
虽然自身还有待完善，但该引擎的使用正在快速增长。
例如，软件供应商Xactly Corp.正使用Spark来运行一个批处理和实时应用程序的组合。该公司的CTO兼工程部高级副总裁Ron Rasmussen这样认为，虽然Spark的高速性能让它成为了一款有价值的处理工具，但大数据技术的一些内容仍需改进。
Rasmussen说：&它还不成熟，但当你把它跟运行事务级别的Oracle进行比较的时候，它还是不能与之相提并论的。&例如，Xactly已经不得不对在内存使用中的特质进行故障排除，有时会转而向Hadoop的供应商MapR Technologies Inc.的技术支持人员寻求帮助。而且对于Rasmussen的团队来说，监控Spark查询有时就如同一项猜谜游戏。&很难知道哪些东西应该花费很长的时间，&他说。
由于在批处理应用性能方面的优势，Spark正在逐渐将MapReduce边缘化，而MapReduce是Hadoop最初的编程环境和执行引擎。但在MapReduce的某些功能类型上，Spark并不能完全符合标准，在线分析平台供应商Quaero的软件开发工程师主管Nitin Kak说道。在与Spark协作的过程中，Kak必须人工提供处理工作所需内存和CPU核心的数量，而对于MapReduce来说这一工作可以自动完成。
尽管如此，位于Charlotte, N.C.的Quaero已经建立了一套基于Spark的身份解析引擎来在点击流记录，在线事务和其他页面活动中寻找匹配数据元素来精确定位单个消费者以将网站变得个性化并进行有针对性的营销。该解析引擎的两个批处理应用程序模块之一是从一开始就为Spark而开发的;而另一个最初则是在MapReduce中编写的，Quaero将该项目在2015年晚些时候投入了生产，但在去年春季的第二个发布版本进行了重制以在Spark中运行。
从好的方面说，Kak表示比起用MapReduce，用Scala编程语言可以更快地编写Spark代码。Spark用户同样能够在内存中保存数据&并能重复进行，&他补充道。
性能方面对第二个模块进行了重写，在一个对大约有5亿条数据记录的试运行中削减了处理时间，而这些数据存储在一个基于Cloudera公司的Hadoop分布式系统的集群中，其处理时间从使用MapReduce的5个小时缩短到用Spark的90分钟。这些身份解析工作包括&很多的重复算法，数据匹配迭代和循环，& Dan Smith说，他是Quaero的平台开发副总。&对于一个偏重于算法，数学和计算的工作负载来说，Spark的效果非常好。&
Spark在过去所缺少的内容
Xactly为管理激励补偿计划销售云软件，它同样没有去等待该处理引擎进一步成熟才去加大对Spark的使用力度。
San Jose公司在2015年十月将一对基于Spark的应用程序投入生产使用：一个批处理应用程序用于给销售团队成员的订单打分，而这些成员是理应获得佣金的，另一个实时工具可以将那些为补偿经理的员工支出数据自定义视图聚合在一起。它在去年春季增加了第三个应用程序：一个为聚合销售补偿数据而提取，转换和加载(ETL)任务的批处理应用程序，而这些数据来自于客户并输入一个Oracle关系型数据库用于分析和报告。
Rasmussen说Xactly在Oracle上运行它自己的事务系统，但使用的是Spark和一个基于MapR的Hadoop集群的组合来将某些需要的批处理卸载到一个低成本平台。而对于使用大数据技术的订阅费用只是每年公司在Oracle软件上必须支付的支持费用的一小部分，他说。
此外，打分程序现在可以在销售订单数量正在处理的情况下进行线性销售。在Oracle系统中，随着数据量的增加性能会下降。&当前只需花费数分钟的任务则可能会花费数小时或是不会完成，& Rasmussen说，增加了该应用之后，打分记录会被送回至Oracle系统以供事务使用。
另一方面，该支付应用在Hadoop和Spark系统中是独立的。它创造了所谓的支付曲线，它为企业的销售代表们标绘出了销售配额和佣金数额，而这些数据是高度可变的，因为不同的激励和佣金比例会内置在进补偿计划中。Rasmussen说他的团队使用MapReduce把在Hadoop的伙伴HBase数据库中的支出基准数据进行聚合。但Spark则飞速计算着支出曲线，这是以那些拿佣金的经理们在开启查询时所设立的过滤集为基础的。
鉴于Spark正在快速更新，用户所面对的功能不足和技术问题取决于他们所运行的版本不同而不同，而这反过来或许也取决于他们是否正在从供应商获得该项技术，如果是，那么是哪家供应商呢?那些支持Spark的供应商在他们所提供的产品版本上并不总是因循守旧，这就可以把一些正等待技术改进的用户留给那些已经利用了改进技术的企业。
正确看待Spark的成熟度
Tony Baer是位于纽约的一家名为Ovum公司的分析师，他说由于Spark相对较新，因此对于其成熟度方面的一些观点是必要的。该处理引擎创建于2009年并在第二年开放了源码，但在2013年年中之前，还没有将其设立为Apache Software Foundation项目。&你必须记住当我们在谈论所有这些缺点的时候，该技术的出现实际上还不到五年时间，&Baer说，它在不断地增强，这方面的速度是惊人的。&
Celtra是一家位于波士顿为设计在线显示和视频广告提供平台的公司，它是Spark最早的采用者之一。它使用的Spark是0.5版的基本开源软件，该版本是在2012年Apache参与之前发布的。Celtra接下来成了Databricks 公司基于云的Spark实现的最早测试用户，而该产品在2015年一月开始投入生产。
Spark在功能和稳定性上与其早期相比都是有着极大的不同，Celtra分析部门的工程主管Grega Kespret说。
&我们在Spark的开始阶段有很多问题。我们花费了大量时间对其进行调试和优化，& Kespret说，他还特别指出在处理工作中的内存不足错误。&如今，Spark对我们来说相当稳定，我们看不到太多出错的现象发生;或是有错误出现，我们也知道如何进行修复。&有关Spark的技术归档同样得到了很大改进，他补充道。
Celtra继续使用开源的Spark和Databricks的版本&&前者用于对数据进行ETL转换，而后者主要是作为公司的数据分析师的分析平台。而其内置了Amazon Web Services云的架构并不包含Hadoop。Kespret说，相反的是，Spark的ETL工作要处理超过20亿的数据点，这些数据点是每天在Amazon Simple Storage Service(一款MySQL操作数据存储)和一款Celtra于2016年早期部署的来自Snowflake Computing Inc.的云数据仓库的广告互动和其他可追踪事件上捕获的。
开源技术作为Spark的替代品呼之欲出
虽然Spark并不完全成熟，但它已经到了这样一个阶段，即更新的开源技术作为其替代品正呼之欲出，就像Spark的开发人员试图用它来取代MapReduce一样。例如，Apache Flink是一款诞生于德国的流处理引擎;Flink的支持者声称它能够比Spark更快地处理高强负荷的数据流，它使用微批处理方法将组合在一起的小批量数据进行分流并进行快速连续处理。
独立咨询师Thomas Dinsmore表示Flink与Spark不同，Flink是完全支持纯数据流的。&但微批处理并不坏，而且实际情况是很少有分析应用程序要求比Spark半秒更少的延时，& Dinsmore说。他还说，总体上他认为Spark是一款集流处理，机器学习，ETL和其他用途于一身的大数据处理和分析平台。
Novantas公司对Spark的使用有着确定而宏大的计划。这家位于纽约的公司为金融机构提供分析服务和工具，它正在使用基于Cloudera的Hadoop和Spark系统来运行一款称为MetricScape的应用程序，该应用程序是2016年早期为一家银行构建的。Kaushik Deka是Novantas Solutions技术部门的CTO和工程主管，他说该应用程序对客户和金融数据指标来说有点像是一个图书管理员，它提供的治理层可用于追踪数据沿袭，定义和依赖关系。
Deka说该应用是要帮助数据科学家将相关的数据集集中在一起用于分析。在最初用户的情况下，它包括查看客户账户历史，过去营销活动结果和其他数据以便根据数百万银行客户对已计划的优惠可能的反应来进行划分。Spark进行批量ETL处理来为MetricScape用户创建底层数据模型并对数据集进行分区。Deka说，Novantas没有采用MapReduce是因为Spark拥有更快的性能并且支持Scala和Python语言。
Novantas还在概念上致力于第二款应用程序的开发，它会将Hadoop和Spark置于自动规则引擎的核心，而该引擎旨在为银行员工实时提供分析信息。例如，对于那些寻求降低抵押贷款利率的客户，银行经理可以通过客户与银行总的关系来快速获得利率推荐并加以处理，Deka说。
Spark需要进一步发展以能够对成千上万的银行分支进行处理，他补充说。虽然他对该处理引擎充满了信心。&但我并不能确定它现在就为那些用例做好了准备，不过我认为它会做到的。&
相关阅读：
搜索"raincent"或扫描下面的二维码}

叫阿莫西中心