machine learning

k-NN, SVMs, Ensemble

ist707-week7

Posted by renjie on March 3, 2020

k-NN, SVMs, Ensemble

K-Nearest Neighbor (k-NN)

Instance-based Learning，训练时没有分类过程，直到新数据给上，才会有分类/预测过程

k小对噪声敏感，k大降低准确度

The shape of decision boundary matters

没有特别的预先设定的形状，boundary取决于数据本身对噪声和无关变量敏感，预处理需要remove那些无关变量

Support Vector Machines (SVM)

an algorithm that can solve both linearly separable and inseparable problems

support vectors的数量决定了svm模型的复杂度

Soft Margin SVM

参数C代表的是在线性不可分的情况下，对分类错误的惩罚程度

Kernel

SVM特点

Ensemble Methods 集成学习

多个弱监督模型以期得到一个更好更全面的强监督模型，集成学习潜在的思想是即便某一个弱分类器得到了错误的预测，其他的弱分类器也可以将错误纠正回来

数据集大：划分成多个小数据集，学习多个模型进行组合
数据集小：利用Bootstrap方法进行抽样，得到多个数据集，分别训练多个模型再进行组合

原理

Bagging

Boosting

Random Forest