【MLJ机器学习】第一课：集成学习

mrgossip · 2020 年9 月 23 日 02:31

链接: 百度网盘-链接不存在提取码: 1i5w
链接: 百度网盘-链接不存在提取码: ujck

阅读作业（可选）
基础好的同学可以阅读课程资源中的
《Algorithms for Hyper-Parameter Optimization》
《Learning Nonlinear Functions Using Regularized Greedy Forest》
了解TPE算法和RGF回归

书面作业

自行寻找资料，了解hyperopt库的基本用法，尝试编写一个小例子
2.
Quora(国外版的知乎)每天都有成千上万的人在上面进行各个方面问题的提问，那么当中肯定有很多重复的、类似的提问，如何判别这些提问是否问的同一个问题？
问题背景参考：Quora Question Pairs | Kaggle

数据包括：

（1）
进行基本的数据探索，对数据的基本情况形式描述说明
（2）
尝试从中提取一系列的有效特征，帮助解决该问题。
可以直接编写特征的提取说明，也可以编写代码（可以伪代码或者是可运行的python代码）进行特征的提取说明。要求从中提取出10个以上特征，不能照搬这周的特征提取方式，但可以借鉴

对于上述问题，你觉得可以怎么解决问题？简述你的思路

mrgossip · 2020 年10 月 9 日 07:35

单机，没人看我就不贴我的代码了，做了六个特征，贼费时间，只跑了训练集数据，训练集拆分9：1用作训练，最后大概73%得准确率，只能说，能看，但也是很糟糕。。。