【SparkX】
- 基于Spark Graphx的大规模用户图计算和应用
- 快刀初试:Spark GraphX在淘宝的实践
- Spark中文手册9:Spark GraphX编程指南
- Spark Graphx:构建graph和聚合消息
- GraphX Programming Guide
- Spark的Graphx学习笔记–Pregel
- Apache Spark源码走读之14 – Graphx实现剖析 - 徽沪一郎
- Spark+GraphX大规模图计算和图挖掘(V3.0)王家林
- Graph analytics with Graphx
【Spark】
- Spark的成功案例
- Spark实时流处理编程指南
- Skewed Join Solutions
- Skewed Join Optimization
- Spark Programming Guide
- Reza Zadeh spark ppt资料
- spark mail list
- 一个 KCore 算法引发的 StackOverflow 奇案
- 数盟DataUnion Spark-tech
- Databricks Spark Knowledge Base
- 解决Task not serializable Exception错误
- Spark的四种编译方法
- Spark运行架构
- Yarn-cluster和Yarn-client区别与联系
- Spark性能优化——开发调优篇
- Spark性能优化指南——基础篇
- 祝威廉Spark-Streaming
- Kafka+Spark Streaming+Redis实时计算整合实践
- Spark 调优
【Spark2.0新特性】
- SparkSession
- RDD、DataFrame和DataSet的区别
- Spark RDD. DataFrame和DataSet的区别
- 深入理解Spark核心思想与源码分析
- Spark Network 模块分析
【Machine Learning & Deep Learning】
- 深度学习三十年创新路
- 如何在MLlib中实现随机森林和梯度提升树(GBTs)
- 深度学习-LeCun. Bengio和Hinton的联合综述
- C.Olah Neural Networks (General) Blog
- 数据夜话:机器学习的七嘴八舌
- Google DeepMind
- SparkR(R on Spark)编程指南
- 理解L-BFGS算法
【架构/分享】
- 大数据时代抽样的是是非非
- 把小样本经验用在海量样本筛选上,才是大数据的价值
- 大数据是否需要抽样?
- 互联网金融时代下机器学习与大数据风控系统
- 量化派基于Hadoop. Spark. Storm的大数据风控架构
- 机器学习算法之旅
- 广点通背后的大数据技术秘密
- 广点通DMP定向功能技术体系解析
- 腾讯社交网络的大数据建模框架探索报告
- Spark技术解析及其在百度最大千台单集群的应用实践
- 百度知识图谱中的NLP技术
【Others】
- Gephi的设计理念及Gephi可视化需要什么样的数据
- scala macro-使case copy易读
- treehugger.scala
- 3 approaches to Scala code generation
- Scala macro annotations: a real-world example
- SparkTask未序列化(Tasknotserializable)问题分析
- Apache Zeppelin 1
- Apache Zeppelin 2
- Apache Zeppelin 2
- 基于Apache Zeppelin Notebook和R的交互式数据科学