相关资料和数据,大家有兴趣自己下载(有效期7天,过时不候哦),下面是习题。我最近可能几天应该不会上线,我自己做完再上线,免得看到别人思路自己懒了
链接: 百度网盘-链接不存在 提取码: 1i5w
链接: 百度网盘-链接不存在 提取码: ujck
阅读作业(可选)
基础好的同学可以阅读课程资源中的
《Algorithms for Hyper-Parameter Optimization》
《Learning Nonlinear Functions Using Regularized Greedy Forest》
了解TPE算法和RGF回归
书面作业
自行寻找资料,了解hyperopt库的基本用法,尝试编写一个小例子
2.
Quora(国外版的知乎)每天都有成千上万的人在上面进行各个方面问题的提问,那么当中肯定有很多重复的、类似的提问,如何判别这些提问是否问的同一个问题?
问题背景参考:Quora Question Pairs | Kaggle
数据包括:
(1)
进行基本的数据探索,对数据的基本情况形式描述说明
(2)
尝试从中提取一系列的有效特征,帮助解决该问题。
可以直接编写特征的提取说明,也可以编写代码(可以伪代码或者是可运行的python代码)进行特征的提取说明。要求从中提取出10个以上特征,不能照搬这周的特征提取方式,但可以借鉴
对于上述问题,你觉得可以怎么解决问题?简述你的思路