k-NN, SVMs, Ensemble
K-Nearest Neighbor (k-NN)
Instance-based Learning,训练时没有分类过程,直到新数据给上,才会有分类/预测过程

k小对噪声敏感,k大降低准确度

The shape of decision boundary matters
没有特别的预先设定的形状,boundary取决于数据本身
对噪声和无关变量敏感,预处理需要remove那些无关变量
Support Vector Machines (SVM)
an algorithm that can solve both linearly separable and inseparable problems

support vectors的数量决定了svm模型的复杂度

Soft Margin SVM
参数C代表的是在线性不可分的情况下,对分类错误的惩罚程度

Kernel

SVM特点

Ensemble Methods 集成学习
多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来
- 数据集大:划分成多个小数据集,学习多个模型进行组合
- 数据集小:利用Bootstrap方法进行抽样,得到多个数据集,分别训练多个模型再进行组合

原理

Bagging

Boosting

Random Forest
