【MLJ机器学习】第一课:集成学习

相关资料和数据,大家有兴趣自己下载(有效期7天,过时不候哦),下面是习题。我最近可能几天应该不会上线,我自己做完再上线,免得看到别人思路自己懒了

链接: 百度网盘-链接不存在 提取码: 1i5w
链接: 百度网盘-链接不存在 提取码: ujck

阅读作业(可选)
基础好的同学可以阅读课程资源中的
《Algorithms for Hyper-Parameter Optimization》
《Learning Nonlinear Functions Using Regularized Greedy Forest》
了解TPE算法和RGF回归

书面作业

自行寻找资料,了解hyperopt库的基本用法,尝试编写一个小例子
2.
Quora(国外版的知乎)每天都有成千上万的人在上面进行各个方面问题的提问,那么当中肯定有很多重复的、类似的提问,如何判别这些提问是否问的同一个问题?
问题背景参考:Quora Question Pairs | Kaggle

数据包括:

image

(1)
进行基本的数据探索,对数据的基本情况形式描述说明
(2)
尝试从中提取一系列的有效特征,帮助解决该问题。
可以直接编写特征的提取说明,也可以编写代码(可以伪代码或者是可运行的python代码)进行特征的提取说明。要求从中提取出10个以上特征,不能照搬这周的特征提取方式,但可以借鉴

对于上述问题,你觉得可以怎么解决问题?简述你的思路

3 个赞

单机,没人看我就不贴我的代码了,做了六个特征,贼费时间,只跑了训练集数据,训练集拆分9:1用作训练,最后大概73%得准确率,只能说,能看,但也是很糟糕。。。