Spark资料链接汇总

【SparkX】

  1. 基于Spark Graphx的大规模用户图计算和应用
  2. 快刀初试:Spark GraphX在淘宝的实践
  3. Spark中文手册9:Spark GraphX编程指南
  4. Spark Graphx:构建graph和聚合消息
  5. GraphX Programming Guide
  6. Spark的Graphx学习笔记–Pregel
  7. Apache Spark源码走读之14 – Graphx实现剖析 - 徽沪一郎
  8. Spark+GraphX大规模图计算和图挖掘(V3.0)王家林
  9. Graph analytics with Graphx

【Spark】

  1. Spark的成功案例
  2. Spark实时流处理编程指南
  3. Skewed Join Solutions
  4. Skewed Join Optimization
  5. Spark Programming Guide
  6. Reza Zadeh spark ppt资料
  7. spark mail list
  8. 一个 KCore 算法引发的 StackOverflow 奇案
  9. 数盟DataUnion Spark-tech
  10. Databricks Spark Knowledge Base
  11. 解决Task not serializable Exception错误
  12. Spark的四种编译方法
  13. Spark运行架构
  14. Yarn-cluster和Yarn-client区别与联系
  15. Spark性能优化——开发调优篇
  16. Spark性能优化指南——基础篇
  17. 祝威廉Spark-Streaming
  18. Kafka+Spark Streaming+Redis实时计算整合实践
  19. Spark 调优

【Spark2.0新特性】

  1. SparkSession
  2. RDD、DataFrame和DataSet的区别
  3. Spark RDD. DataFrame和DataSet的区别
  4. 深入理解Spark核心思想与源码分析
  5. Spark Network 模块分析

【Machine Learning & Deep Learning】

  1. 深度学习三十年创新路
  2. 如何在MLlib中实现随机森林和梯度提升树(GBTs)
  3. 深度学习-LeCun. Bengio和Hinton的联合综述
  4. C.Olah Neural Networks (General) Blog
  5. 数据夜话:机器学习的七嘴八舌
  6. Google DeepMind
  7. SparkR(R on Spark)编程指南
  8. 理解L-BFGS算法

【架构/分享】

  1. 大数据时代抽样的是是非非
  2. 把小样本经验用在海量样本筛选上,才是大数据的价值
  3. 大数据是否需要抽样?
  4. 互联网金融时代下机器学习与大数据风控系统
  5. 量化派基于Hadoop. Spark. Storm的大数据风控架构
  6. 机器学习算法之旅
  7. 广点通背后的大数据技术秘密
  8. 广点通DMP定向功能技术体系解析
  9. 腾讯社交网络的大数据建模框架探索报告
  10. Spark技术解析及其在百度最大千台单集群的应用实践
  11. 百度知识图谱中的NLP技术

【Others】

  1. Gephi的设计理念及Gephi可视化需要什么样的数据
  2. scala macro-使case copy易读
  3. treehugger.scala
  4. 3 approaches to Scala code generation
  5. Scala macro annotations: a real-world example
  6. SparkTask未序列化(Tasknotserializable)问题分析
  7. Apache Zeppelin 1
  8. Apache Zeppelin 2
  9. Apache Zeppelin 2
  10. 基于Apache Zeppelin Notebook和R的交互式数据科学

【Scala】

Effective Scala
Scala 课堂!