面试总结

算法面试总结

机器学习部分

模型评估与选择

评估方法

性能度量

偏差与方差

线性模型

线性回归

逻辑回归

支持向量机(SVM)

原理

间隔与支持向量

线性可分与硬间隔

线性SVM和软间隔

非线性可分SVM与核函数

序列最小最优化算法(SMO)

决策树

原理

ID3、C4.5、CART

剪枝

连续与缺失值

集成学习(Ensemble)

Bagging与随机森林

Bagging
随机森林

Boosting

AdaBoost
GBDT
XGBoost

ML—模型评估方法

ML—模型评估方法

1. 留出法

“留出法”直接将数据集 D 划分成两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,即 $D=S \ T, S \ T = \$。在 S上训练处模型后,用T来评估测试误差,作为对泛化误差的估计。
Notation:

2. 交叉验证法

sklearn preprocessing 数据预处理(OneHotEncoder)

1. one-hot编码的由来

在实际的应用场景中,有非常多的特征不是连续的数值变量,而是某一些离散的类别。比如在广告系统中,用户的性别,用户的地址,用户的兴趣爱好等等一系列特征,都是一些分类值。这些特征一般都无法直接应用在需要进行数值型计算的算法里,比如CTR预估中最常用的LR。那针对这种情况最简单的处理方式是将不同的类别映射为一个整数,比如男性是0号特征,女性为1号特征。这种方式最大的优点就是简单粗暴,实现简单。那最大的问题就是在这种处理方式中,各种类别的特征都被看成是有序的,这显然是非常不符合实际场景的。

继续阅读全文 »

卷积神经网络——卷积神经网络

卷积神经网络

以下为在吴恩达老师的 deeplearning.ai 课程项目中,第四部分《卷积神经网络》第一周课程 “卷积神经网络基础” 关键点的笔记。本次笔记几乎涵盖了所有视频课程的内容。通过该笔记,一方面为自己学习进行记录,以便以后进行快速review,另一方面,也便于与大家进行探讨学习,错误及不足之处,还望指教。

继续阅读全文 »