本人算是小白一个,一直打算学学机器学习这方面的知识,但是很懒,看看文档,又放下,反反复复,这回自己报了个炼数成金的课,也算是给自己一点压力,课程每周一节,基本是机器学习的模型的实践,案例是kaggle案例。
我自己也是一知半解,大家边学边交流吧。我计划是每次课程更新,我把课程的资料和习题发出来,课就不发了,毕竟别人的劳动成果要尊重。然后有兴趣的小伙伴可以用julia实现一下,发出来思路或者代码之类的,大家讨论,互相提高。
还有如果有抬杠,什么课程不好,你的思路和代码都烂的,就别看了,可以去看大佬的分享,毕竟我是小白,能力有限。
明天更新第一课,欢迎小伙伴前来答题
根据小伙伴提醒,我把大纲加上了
第1课
09/23 - 10/05 [Crowdflower Search Results Relevance]
1.1 案例介绍:预测来自电子商务站点的搜索结果的准确性,将搜索得到的网页按相关性排序 获奖者所用方法:通过ensemble learning整合多个模型的结果 涉及算法:Ensemble learning
第2课
10/05 - 10/12 [Santander Product Recommendation]
2.1 案例介绍:根据银行客户1.5年内的行为数据,预测用户会下一步会投资的新产品 获奖者所用方法:通过XGBoost构建了多个基本模型,然后将基本模型整合为一个总模型 涉及算法:XGBoost
第3课
10/12 - 10/19 [TalkingData Mobile User Demographics]
3.1 案例介绍:根据用户的手机应用下载和使用行为来预测用户的人口统计数据(年龄、性别等) 获奖者所用方法: 先预测性别的概率;使用性别的预测值作为额外的特征加入到模型中,预测年龄;通过条件概率得到两个目标变量的预测概率 涉及算法:两段预测,XGBoost
第4课
10/19 - 10/26 [Facebook V: Predicting Check Ins]
4.1 案例介绍:预测用户会在哪个地方登陆Facebook 获奖者所用方法:特征选择:数据块的最近邻计算;模型构建:基于XGBoost的两步模型 涉及算法:XGboost
第5课
10/26 - 11/02 [Avito Duplicate Ads Detection]
5.1 案例介绍:为了避免卖家发布各种经过少量改动的广告导致买家难以分辨,参赛者需要设计一个模型,自动识别配对中的广告是否同一个广告 获奖者所用方法:特征选择:采用了FTIM方法测试特征的不稳定性,提出过度拟合的特征。通过XGBoost和Keras构建一层模型;然后通过底层模型构建XGBoost 和随机森林,最终综合两者结果得到最终结果 涉及算法:FTIM;元模型
第6课
11/02 - 11/09 [Outbrain Click Prediction ]
6.1 案例介绍:在一组针对用户推荐内容中,预测用户点击每个链接的可能,将这些推荐内容按照点击可能的大小排序 获奖者所用方法:两步元模型:通过LibFFM构建第一层模型,再使用XGBoost和Keras构建第二层模型 涉及算法:LibFFM;XGBoost;Keras框架
第7课
11/09 - 11/16 [Click-Through Rate Prediction]
7.1 案例介绍:预测某个广告是否会被点击 获奖者所用方法:将数据拆分成不同的子集,构建不同的子模型,再整合 涉及算法:LIBFFM
第8课
11/16 - 11/23 [Avito Context Ad Clicks]
8.1 案例介绍:预测俄罗斯最大的一般分类网站的用户在浏览网站时,是否点击上下文广告 获奖者所用方法:预处理:散列技巧和消极的抽样。 学习方法:FFM、FM和XGBoost。 涉及算法:FFM;FM;XGboost
第9课
11/23 - 11/30 [Rossmann Store Sales]
9.1 案例介绍:预测Rossmann公司各个门店的6周销售量 获奖者所用方法:分类特征的处理:创建了一种 Entity Embedding(实体嵌入)的方法去代表在多维空间中的分类特征。 涉及算法:Entity Embedding;神经网络
第10课
11/30 - 12/07 [Amazon.com - Employee Access Challenge]
10.1 案例介绍:根据员工的职业角色,预测员工的访问需求 获奖者所用方法:11个模型的线性组合:使用不同特征训练的GBM模型,GLNNET模型,随机森林模型,logistic回归模型 涉及算法:GBM模型,GLNNET模型,随机森林模型,logistic回归模型