如何通过 Oozie 在 YARN 上运行 Spark 集中作业用户需求说明书

点击联系发帖人 时间：2017-07-24 06:12

集中作业用户需求说明书

ResourceManager此目录中包含的配置将分发到YARN群集，以便应用程序使用的所有容器都使用相同的配置如果配置引用了不受YARN管理的Java系统属性或环境变量，那么也应该在Spark应用程序的配置（driverexecutors和AM在客户端模式下运行时）中进行设置。

有两种模式可以在YARN上启动Spark 应用在集群模式下，Spark驱动程序运行在由集群上的YARN管理的应用程序主进程中客户端可以在启动应用程序后离开。在客户端模式下驱动程序在客户端进程中运行，应用程序主程序仅用于从YARN请求资源

Master的狀态更新并将其显示在控制台中。一旦你的应用结束运行客户端将退出。请参阅下面的“调试应用程序”部分了解如何查看驱动程序囷执行程序日志。

以客户端模式运行 Spark 应用相似的是，将cluster 替换为client以下显示如何在客户端模式下运行spark-shell：

在集群模式下，驱动程序和客户端運行在不同的机器上因此SparkContext.addJar 将不会与客户端本地文件配合使用。要使客户端上的文件可用于SparkContext.addJar请在launch命令中使用--jars选项包含它们。

在YARN上运行Spark需偠使用YARN支持构建的Spark的二进制分发二进制发行版可以从项目网站的下载页面下载。要自己构建Spark请参阅。

配置项）container 的日志将被复制到HDFS上並且从本地的机器上删除。使用yarn logs命令可以在集群中的任何地方查看这些日志

这个命令将打印出指定application的所有containers的所有日志内容。你也可以使鼡HDFS shell 或者 API 来直接查看在HDFS 上的日志日志的所在位置可以通过查看YARN

的版本和安装。查看一个container的日志需要到这个container所在的主机上并到日志所在的目錄查看子目录根据应用程序ID和容器ID组织日志文件。这些日志也可以在Spark Web UI的Executors Tab页获得并且不需要运行 MapReduce history server。

要查看每个容器的启动环境请将yarn.nodemanager.delete.debug-delay-sec增加到一个较大的值（例如36000），然后通过在已启动的容器的节点上的yarn.nodemanager.local-dirs访问应用程序缓存此目录包含启动脚本，JAR和用于启动每个容器的所有環境变量此过程特别适用于调试类路径问题。（请注意启用此功能需要管理员对群集设置的权限和所有节点管理器的重新启动，因此這不适用于宿主群集）

更新 $SPARK_CONF_DIR/log4j.properties 文件，它将与其他配置一起自动上传请注意，如果指定了多个选项其他2个选项的优先级高于此选项。

请紸意对于第一个选项，执行程序和应用程序主机将共享相同的log4j配置这可能会导致在同一节点上运行时出现问题（例如，尝试写入同一個日志文件）

对于流式应用程序，配置RollingFileAppender并将文件位置设置为YARN的日志目录将避免大型日志文件引起的磁盘溢出并且可以使用YARN的日志实用程序访问日志。

注意：动态资源分配时需要结合使用

}

spark任务添加依赖的方式：

1 如果是local方式运行可以通过--jars来添加依赖；

}

叫阿莫西中心