https://www.myziyuan.com/
- 追梦
- 网上搜一下就有,下面转的董西成的博客(1)准备工作1) 安装JDK 6或者JDK 72) 安装scala 2.10.x (注意版本)3) 将下载的Intellij IDEA解压后,安装scala插件,流程如下:依次选择“Configure”–> “Plugins”–> “Browse repositories”,输入scala,然后安装即可(2)搭建Spark源码阅读环境(需要联网)第一种方法是直接依次选择“import project”–> 选择spark所在目录 –> “SBT”,之后intellij会自动识别SBT文件,并下载依赖的外部jar包,整个流程用时非常长,取决于机器的网络环境(不建议在windows下操作,可能遇到各种问题),一般需花费几十分钟到几个小时。注意,下载过程会用到git,因此应该事先安装了git。第二种方法是首先在linux操作系统上生成intellij项目文件,然后在intellij IDEA中直接通过“Open Project”打开项目即可。在linux上生成intellij项目文件的方法(需要安装git,不需要安装scala,sbt会自动下载)是:在spark源代码根目录下,输入sbt/sbt gen-idea注:如果你在windows下阅读源代码,建议先在linux下生成项目文件,然后导入到windows中的intellij IDEA中。(3)搭建Spark开发环境在intellij IDEA中创建scala project,并依次选择“File”–> “project structure” –> “Libraries”,选择“+”,将spark-hadoop 对应的包导入,比如导入spark-assembly_2.10-0.9.0-incubating-hadoop2.2.0.jar(只需导入该jar包,其他不需要),如果IDE没有识别scala 库,则需要以同样方式将scala库导入。之后开发scala程序即可:编写完scala程序后,可以直接在intellij中,以local模式运行,方法如下:点击“Run”–> “Run Configurations”,在弹出的框中对应栏中填写“local”,表示将该参数传递给main函数,如下图所示,之后点击“Run”–> “Run”运行程序即可。如果想把程序打成jar包,通过命令行的形式运行在spark 集群中,可以按照以下步骤操作:依次选择“File”–> “Project Structure” –> “Artifact”,选择“+”–> “Jar” –> “From Modules with dependencies”,选择main函数,并在弹出框中选择输出jar位置,并选择“OK”。最后依次选择“Build”–> “Build Artifact”编译生成jar包。
- 2021-02-26 11:40:01
- 至深科技
- 自己整理的,方便自己使用吧。Intel @邵赛赛 的博客 jerryshao.me/ 他是早期Spark contributor之一盛利:Spark SQL 源码分析系列文章许鹏:徽沪一郎 - 博客园 博主的新书《Spark源码剖析》快出了吧 :-)[1]fxjwind - 博客园[2]张包峰的博客[3]Spark - anzhsoft的技术专栏另外有几个业界著名的公司博客[1]Databricks Blog[2]Spark Archives[3]mapr.com/blog/big-data-
- 2021-02-12 03:02:45
- 225548545
- 哪位老师讲解的spark比较好,王家林老师在Spark、Hadoop、Android等方面有丰富的源码、实务和性能优化经验。彻底研究了Spark从0.5.0到0.9.1共13个版本的Spark源码,并已完成2014年5月31日发布的Spark1.0源码研究,可以和他联系。
- 2021-02-12 03:02:45