BigBear's Blog

Do The Right Thing!


  • 首页

  • 分类

  • 归档

  • 标签

  • 关于

  • 公益404

  • 搜索

已有集群环境中运行不同版本的spark任务

发表于 2016-10-09 | 分类于 Spark | 阅读次数
因为公司部署的Spark集群版本还停留在1.5.2,但现在spark已经更新到2.0.1了。由于想迫切尝试下spark的新特性,如Spark ML模型保存功能,SparkSession统一接口 etc. 因此想到是否可以基于现有的集群环境来运行最新版本spark程序,经过几番捣腾,终于成功,固记录下 ...
阅读全文 »

OrientDB单机版安装笔记

发表于 2016-09-28 | 分类于 Notes | 阅读次数
step one:设置ORIENTDB_HOME in ~/.bash_rc1export ORIENTDB_HOME="your soft directory" step two:修改config/orientdb-server-config.xml,设置用户登录密码1234<users&g ...
阅读全文 »

Spark Submit任务提交过程源码分析

发表于 2016-09-25 | 分类于 Spark | 阅读次数
由于对spark-submit提交后执行流程比较好奇,所以研究了一下spark源码,以下算是阅读笔记吧。 spark-submit启动脚本: shell -z判断参数是否为空; $@:表示所有参数;$?:表示上一次程序返回值 使用@ 或可以获取数组中的所有元素,例如:${array_name[]}, ...
阅读全文 »

Spark Netty Rpc

发表于 2016-09-25 | 分类于 Spark | 阅读次数
RpcEnvRPC Environment (aka RpcEnv) is an environment for RpcEndpoints to process messages. A RPC Environment manages the entire lifecycle of RpcEndpoi ...
阅读全文 »

Spark GraphX

发表于 2016-09-25 | 分类于 Spark , Graphx | 阅读次数
图性能优化笔记1原始方法对求社区对应顶点数过程中,使用了单机函数collectAsMap,当社区数非常多时,该函数将数据汇总到driver节点,导致driver节点发生OOM。解决办法:避免对大数据量使用collectAsMap操作,改为RDD集合求将交集。 12345678910111213141 ...
阅读全文 »
1234
sj_mei

sj_mei

BigData & ML & DL

19 日志
4 分类
17 标签
RSS
GitHub Linkedin Weibo CSDN
© 2017 sj_mei
由 Hexo 强力驱动
主题 - NexT.Mist