BigBear's Blog

Do The Right Thing!


  • 首页

  • 分类

  • 归档

  • 标签

  • 关于

  • 公益404

  • 搜索

使用xgboost4j-spark进行模型训练

发表于 2017-08-17 | 分类于 Notes | 阅读次数
代码说明xgboost作为数据挖掘类比赛的必备算法,之前参加jdata比赛时,也学着使用了下xgboost4j-spark,觉得很好用,既支持分布式,同时效果和速度都比spark自带的gbdt,rf算法效果要好。模型代码包含: -train:训练 -train_cv:训练带交叉验证进行参 ...
阅读全文 »

京东JData算法大赛小结(公司内部赛)

发表于 2017-06-10 | 分类于 ML | 阅读次数
总体解决方案本文将高潜用户购买意向预测,抽象为一个二分类问题。从用户,商品,品牌,用户-商品,用户-品牌五个维度进行特征提取。将观察天未来5天有购买行为的用户-商品对标记为正样本,观察天过去30天至未来5天有交互行为但未购买的用户-商品对标记为负样本。由于正负样本比例极不平衡,采用了对正样本进行重采 ...
阅读全文 »

zeppelin编译安装笔记

发表于 2017-05-05 | 分类于 Notes | 阅读次数
clone工程git clone --recursive https://github.com/apache/zeppelin.git 依赖软件安装1node/cnpm/R(evaluate包必须) zeppelin-web编译12341. cnpm install -g2. bower –-al ...
阅读全文 »

xgboost4j编译安装笔记

发表于 2017-05-05 | 分类于 Notes | 阅读次数
clone工程git clone --recursive https://github.com/dmlc/xgboost.git xgboost编译cd xgboost; make clean_all && make -j4 xgboost gpu编译(目前只支持python和c ...
阅读全文 »

Spark ML离线训练模型用于在线预测

发表于 2017-01-10 | 分类于 Spark | 阅读次数
最近公司有需求需要将离线训练好的算法模型应用到线上去实时预测,在线预测不考虑feature加工的情况下,经调研,发现jpmml-sparkml+jpmml-evaluator的方式可以满足条件。不过使用时需要注意该框架是AGPL-3.0协议。 方案:spark ml + jpmml-sparkml ...
阅读全文 »
12…4
sj_mei

sj_mei

BigData & ML & DL

19 日志
4 分类
17 标签
RSS
GitHub Linkedin Weibo CSDN
© 2017 sj_mei
由 Hexo 强力驱动
主题 - NexT.Mist