- 时间:2021-02-12 02:52 编辑:中村雀右卫门 来源:蚂蚁资源 阅读:194
- 扫一扫,手机访问
摘要:大家好,今天给大家介绍关于spark源码下载(spark的意思)的相关内容,详细讲解spark2.7.0源码在哪里下载,想研读下spark的源码,怎么搭阅读和调试的环境,如何将spark源代码导入到idea 14的工程中等,希望可以帮助到您。
spark2.7.0源码在哪里下载,可以在此处下载https://github.com/apache/spark。
想研读下spark的源码,怎么搭阅读和调试的环境,在线搜索,董西城的博客(1)准备以下10)准备JDK 6或JDK 72)安装Scala 2.10.x(注意版本)3)下载的Intellij Idea被解压缩后,安装Scala插件,过程如下:选择“配置” - >“插件” - >“浏览存储库”,输入Scala,然后安装(2)设置火花源阅读环境(需要网络)第一个方法是选择“导入项目”“ - >选择Spark“>”SBT“,然后Intellij自动标识SBT文件,下载依赖外部jar包,整个过程很长,根据机器的网络环境(不推荐在Windows下,可能会为各种问题),通常需要几分钟到几个小时。请注意下载procESS将用于GIT,因此GIT应提前安装。第二种方法是首先在Linux操作系统上生成Intellij项目文件,然后通过Intellij Ideage的“开放式项目”直接打开项目。在Linux上生成Intellij项目文件(需要安装Git,您无需安装Scala,SBT将下载)是:在Spark源代码根目录中,输入SBT / SBT Gen-Idem Note:如果您阅读Windows代码下的源,建议在Linux下生成一个项目文件,然后在Windows中导入Intellij Idea。 (3)建造的Spark开发环境在Intellij Ideag中创建Scala项目,选择“文件” - >“项目结构” - >“Libraries”,选择“+”,介绍Spark-Hadoop,如导入火花 - Assembly_2.10- 0.9.0-I.ncubating-hadoop2.2.2.0.jar(只导入jar包,其他不必要的),如果IDE未被标识,则需要以相同的方式导入Scala库。在开发Scala程序之后:在编写Scala程序后,您可以直接在Intellij中运行,并且该方法在本地模式下运行:单击“Run” - >“运行配置”,填写相应列中的“本地”弹出框,指示参数传递给主函数,如下图所示,然后单击“运行” - >“运行”以运行该程序。如果要将程序置于JAR包中,请以命令行的形式在Spark集群中运行,您可以按照以下步骤操作:选择“文件” - >“项目结构” - >“Artifact”,选择“ +“ - >”jar“ - >”从依赖性的模块中“,se选择主函数并在弹出框中选择输出jar位置,然后选择“确定”。最后,选择“构建” - >“构建工件”生成JAR包。
如何将spark源代码导入到idea 14的工程中,你好。 Intellij Idea 13不需要提前成为SBT Gen-Ide,直接打开源目录,Intellim会自动识别SBT项目并导入。但我一般习惯于习惯于SBT Gen-Idea。没有从事火花源阅读,直接下载二进制,有火花组件-1.0.1-hadoop2.2.0.ja ...
责任编辑(
中村雀右卫门)
以上就是关于**spark源码下载,spark的意思**的全部内容,了解更多请关注蚂蚁资源网。
- 互站网
- spark源码怎么导入eclipse,应该说这个和是不是Spark项目没什么关系。建议你使用intellij idea,在spark目录下执行"sbt/sbt gen-idea",会自动生成.idea项目,导入即可。idea我不熟,还需要做一些其他的插件配置(python, sbt等)和环境设置。你也可以使用Eclipse看,Eclipse有scala IDE,把Spark项目当maven工程导入。但是子项目之间的依赖会有点问题,会报错。推荐使用前者,向Databricks的开发者看齐;我使用的是后者,我直接依赖了编译好的包就不会报错了,纯读源码的话也勉强可以跟踪和调试。另外,我也看有的Committer用vim看spark代码的,所以怎么看源码都无所谓,你熟悉就好,而且这和是不是Spark项目也没什么关系。:)
- 2021-02-12 02:52:40
- 外网
- 首先我们先点击一个工程的Project Structure菜单,这时候会弹出一个对话框,仔细的用户肯定会发现里面列出来的模块(Module)居然没有yarn!就是这个原因导致yarn模块相关的代码老是报错!只需要将yarn模块加入到这里即可。步骤依次选择 Add->Import Module->选择pom.xml,然后一步一步点击确定,这时候会在对话框里面多了spark-yarn_2.10模块, 然后点击Maven Projects里面的Reimport All Maven Projects,等yarn模块里面的所有依赖全部下载完的时候,我们就可以看到这个模块里面的代码终于不再报错了!!
- 2021-02-12 02:52:40
- ee
- 操作系统 Window7/MacIDE IntelliJ IDEA Community Edition 14.1.6 下载地址JDK 1.8.0_65 下载地址Scala 2.11.7 下载地址其它环境Spark:1.4.1 下载地址Hadoop Yarn:Hadoop 2.5.0-cdh5.3.2IDE项目创建新建一个项目New Project 使用Maven模型创建一个Scala项目 填写自己的GroupId、ArtifactId,Version不需要修改,Maven会根据GroupId生成相应的目录结构,GroupId的取值一般为a.b.c 结构,ArtifactId为项目名称。之后点击next,填写完项目名称和目录,点击finish就可以让maven帮你创建Scala项目 项目创建完成后,目录结构如下 4.为项目添加JDK以及Scala SDK 点击File->Project Structure,在SDKS和Global Libraries中为项目配置环境。 至此整个项目结构、项目环境都搭建好了编写主函数主函数的编写在 projectName/src/main/scala/…/下完成,如果按照上述步骤完成代码搭建,将在目录最后发现MyRouteBuildMyRouteMain这两个文件为模块文件,删除MyRouteBuild,重命名MyRouteMain为DirectKafkaWordCount。这里,我使用Spark Streaming官方提供的一个代码为实例代码,代码如下package org.apache.spark.examples.streamingimport kafka.serializer.StringDecoderimport org.apache.spark.streaming._import org.apache.spark.streaming.kafka._import org.apache.spark.SparkConfobject DirectKafkaWordCount { def main(args: Array[String]) { if (args.length < 2) { System.err.println("...") System.exit(1) } //StreamingExamples.setStreamingLogLevels() val Array(brokers, topics) = args val sparkConf = new SparkConf().setAppName("DirectKafkaWordCount") val ssc = new StreamingContext(sparkConf, Seconds(2)) // Create direct kafka stream with brokers and topics val topicsSet = topics.split(",").toSet val kafkaParams = Map[String, String]("metadata.broker.list" -> brokers) val messages = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder]( ssc, kafkaParams, topicsSet) // Get the lines, split them into words, count the words and print val lines = messages.map(_._2) val words = lines.flatMap(_.split(" ")) val wordCounts = words.map(x => (x, 1L)).reduceByKey(_ + _) wordCounts.print() // Start the computation ssc.start() ssc.awaitTermination() }}将代码最上面的package org.apache.spark.examples.streaming,替换为DirectKafkaWordCount里的package部分即可。并覆盖DirectKafkaWordCount文件。 至此Spark处理代码已经编写完成。修改pom.xml,为项目打包做准备pom.xml中编写了整个项目的依赖关系,这个项目中我们需要导入一些Spark Streaming相关的包。<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.4.1</version></dependency><dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka_2.10</artifactId> <version>1.4.1</version></dependency><dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.10</artifactId> <version>1.4.1</version></dependency><!-- scala --><dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.10.4</version></dependency>除此之外,如果需要把相关依赖打包到最终JAR包中,需要在pom.xml的bulid标签中写入以下配置:<plugins> <!-- Plugin to create a single jar that includes all dependencies --> <plugin> <artifactId>maven-assembly-plugin</artifactId> <version>2.4</version> <configuration> <descriptorRefs> <descriptorRef>jar-with-dependencies</descriptorRef> </descriptorRefs> </configuration> <executions> <execution> <id>make-assembly</id> <phase>package</phase> <goals> <goal>single</goal> </goals> </execution> </executions> </plugin> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-compiler-plugin</artifactId> <version>2.0.2</version> <configuration> <source>1.7</source> <target>1.7</target> </configuration> </plugin> <plugin> <groupId>net.alchim31.maven</groupId> <artifactId>scala-maven-plugin</artifactId> <executions> <execution> <id>scala-compile-first</id> <phase>process-resources</phase> <goals> <goal>add-source</goal> <goal>compile</goal> </goals> </execution> <execution> <id>scala-test-compile</id> <phase>process-test-resources</phase> <goals> <goal>testCompile</goal> </goals> </execution> </executions> </plugin> </plugins>pom.xml文件修改完成后,即可开始maven打包,操作如图: 点击右侧弹出窗口的Execute Maven Goal,在command line中输入clean package Spark作业提交在项目projectname/target目录下即可找到两个jar包,其中一个仅包含Scala代码,另一个包含所有依赖的包。 将jar包导到Spark服务器,运行Spark作业,运行操作如下../bin/spark-submit –master yarn-client –jars ../lib/kafka_2.10-0.8.2.1.jar –class huochen.spark.example.DirectKafkaWordCount sparkExample-1.0-SNAPSHOT-jar-with-dependencies.jar kafka-broker topic利用spark-submit把任务提交到Yarn集群,即可看到运行结果。
- 2021-02-26 10:25:02