可按Ctrl+D收藏 蚂蚁资源网

蚂蚁资源网

spark 源码(spark源码多少行)

  • 全部评论(3)
  • asd
  • 方法如下:spark 源码编译好了,在linux上压缩出来,再解压后导入到eclipse中,不过eclipse要提前安装scala插件。
  • 2021-02-19 20:20:01
  • visitor
  • SparkSQL主要的推动者是Databricks。提到SparkSQL不得不提的就是Shark。Shark可以理解为Spark社区这边搞的一个”HiveonSpark”,把Hive的物理执行计划使用Spark计算引擎去执行。这里面会有一些问题,Hive社区那边没有把物理执行计划到执行引擎这个步骤抽象出公共API,所以Spark社区这边要自己维护一个Hive的分支,而且Hive的设计和发展不太会考虑到如何优化Spark的Job。但是前面提到的HiveonSpark却是和Hive一起发布的,是由Hive社区控制的。所以后来Spark社区就停止了Shark的开发转向SparkSQL(“坑了”一部分当时信任Shark的人)。SparkSQL是把SQL解析成RDD的transformation和action,而且通过catalyst可以自由、灵活的选择最优执行方案。对数据库有深入研究的人就会知道,SQL执行计划的优化是一个非常重要的环节,SparkSQL在这方面的优势非常明显,提供了一个非常灵活、可扩展的架构。但是SparkSQL是基于内存的,元数据放在内存里面,不适合作为数据仓库的一部分来使用。所以有了SparkSQL的HiveContext,就是兼容Hive的SparkSQL。它支持HiveQL,HiveMetastore,HiveSerDesandHiveUDFs以及JDBCdriver。这样看起来很完美,但是实际上也有一些缺点:SparkSQL依赖于Hive的一个snapshot,所以它总是比Hive的发布晚一个版本,很多Hive新的feature和bugfix它就无法包括。而且目前看Spark社区在Spark的thriftserver方面的投入不是很大,所以感觉它不是特别想朝着这个方向发展。还有一个重要的缺点就是SparkSQL目前还不能通过分析SQL来预测这个查询需要多少资源从而申请对应的资源,所以在共享集群上无法高效地分配资源和调度任务。
  • 2021-02-11 16:38:15
  • hhcw0320
  • 如何将spark源代码导入到idea 14的工程中,你好。 IntelliJ IDEA 13已经不需要事先sbt gen-idea了,直接打开源码目录,IntelliJ会自动识别SBT项目并导入。不过我一般还是习惯先sbt gen-idea一下。 不是搞spark源码阅读的话,直接下载二进制吧,里边有spark-assembly-1.0.1-hadoop2.2.0.ja...
  • 2021-02-11 16:38:15
  • 商品推荐