【MLJ机器学习】前言：分享一下，边学边做，MLJ

mrgossip · 2020 年9 月 22 日 06:06

本人算是小白一个，一直打算学学机器学习这方面的知识，但是很懒，看看文档，又放下，反反复复，这回自己报了个炼数成金的课，也算是给自己一点压力，课程每周一节，基本是机器学习的模型的实践，案例是kaggle案例。
我自己也是一知半解，大家边学边交流吧。我计划是每次课程更新，我把课程的资料和习题发出来，课就不发了，毕竟别人的劳动成果要尊重。然后有兴趣的小伙伴可以用julia实现一下，发出来思路或者代码之类的，大家讨论，互相提高。
还有如果有抬杠，什么课程不好，你的思路和代码都烂的，就别看了，可以去看大佬的分享，毕竟我是小白，能力有限。
明天更新第一课，欢迎小伙伴前来答题

根据小伙伴提醒，我把大纲加上了

第1课
09/23 - 10/05 [Crowdflower Search Results Relevance]

1.1 案例介绍：预测来自电子商务站点的搜索结果的准确性，将搜索得到的网页按相关性排序获奖者所用方法：通过ensemble learning整合多个模型的结果涉及算法：Ensemble learning

第2课
10/05 - 10/12 [Santander Product Recommendation]

2.1 案例介绍：根据银行客户1.5年内的行为数据，预测用户会下一步会投资的新产品获奖者所用方法：通过XGBoost构建了多个基本模型，然后将基本模型整合为一个总模型涉及算法：XGBoost

第3课
10/12 - 10/19 [TalkingData Mobile User Demographics]

3.1 案例介绍：根据用户的手机应用下载和使用行为来预测用户的人口统计数据（年龄、性别等）获奖者所用方法：先预测性别的概率；使用性别的预测值作为额外的特征加入到模型中，预测年龄；通过条件概率得到两个目标变量的预测概率涉及算法：两段预测，XGBoost

第4课
10/19 - 10/26 [Facebook V: Predicting Check Ins]

4.1 案例介绍：预测用户会在哪个地方登陆Facebook 获奖者所用方法：特征选择：数据块的最近邻计算；模型构建：基于XGBoost的两步模型涉及算法：XGboost

第5课
10/26 - 11/02 [Avito Duplicate Ads Detection]

5.1 案例介绍：为了避免卖家发布各种经过少量改动的广告导致买家难以分辨，参赛者需要设计一个模型，自动识别配对中的广告是否同一个广告获奖者所用方法：特征选择：采用了FTIM方法测试特征的不稳定性，提出过度拟合的特征。通过XGBoost和Keras构建一层模型；然后通过底层模型构建XGBoost 和随机森林，最终综合两者结果得到最终结果涉及算法：FTIM；元模型

第6课
11/02 - 11/09 [Outbrain Click Prediction ]

6.1 案例介绍：在一组针对用户推荐内容中，预测用户点击每个链接的可能，将这些推荐内容按照点击可能的大小排序获奖者所用方法：两步元模型：通过LibFFM构建第一层模型，再使用XGBoost和Keras构建第二层模型涉及算法：LibFFM；XGBoost；Keras框架

第7课
11/09 - 11/16 [Click-Through Rate Prediction]

7.1 案例介绍：预测某个广告是否会被点击获奖者所用方法：将数据拆分成不同的子集，构建不同的子模型，再整合涉及算法：LIBFFM

第8课
11/16 - 11/23 [Avito Context Ad Clicks]

8.1 案例介绍：预测俄罗斯最大的一般分类网站的用户在浏览网站时，是否点击上下文广告获奖者所用方法：预处理：散列技巧和消极的抽样。学习方法：FFM、FM和XGBoost。涉及算法：FFM；FM；XGboost

第9课
11/23 - 11/30 [Rossmann Store Sales]

9.1 案例介绍：预测Rossmann公司各个门店的6周销售量获奖者所用方法：分类特征的处理：创建了一种 Entity Embedding（实体嵌入）的方法去代表在多维空间中的分类特征。涉及算法：Entity Embedding；神经网络

第10课
11/30 - 12/07 [Amazon.com - Employee Access Challenge]

10.1 案例介绍：根据员工的职业角色，预测员工的访问需求获奖者所用方法：11个模型的线性组合：使用不同特征训练的GBM模型，GLNNET模型，随机森林模型，logistic回归模型涉及算法：GBM模型，GLNNET模型，随机森林模型，logistic回归模型

nesteiner · 2020 年9 月 22 日 13:15

加油，建议先把材料和知识地图准备好

mrgossip · 2020 年9 月 23 日 02:26

已经开始了，小伙伴

zhiyuanzhai · 2020 年9 月 29 日 01:14

在Coursera上看到Andrew Ng的机器学习课，讲得非常清楚。我觉得可以借鉴一下～

mrgossip · 2020 年10 月 9 日 07:42

我基础特别差，偏理论课基本不太行，也知道自己几斤几两，所以侧重点就是会用，能在需要得场景里实际应用，系统理论得知识我就以后慢慢提高了，哈哈