李宏毅 机器学习(7)- 非监督学习-K-means, HAC, PCA

深度学习

Posted by renjie on June 4, 2020


李宏毅 机器学习(7)- 非监督学习-K-means, HAC, PCA

Clustering

k-means

复习,随机取中心,计算每个sample和哪个center最接近,然后同个cluster取平均,平均的值作为新的center,迭代迭代得到最终clusters

HAC: Hierarchical Agglomerative Clustering

根据data 相似度建立tree,然后切一刀

但是仅仅是把example归到某一个cluster,有点以偏概全了,如果用分布来表示就更加科学

而如果原先的sample是很高纬的数据,这个分布则可以看成 dimension reduction

PCA

718 没怎么做这部分的笔记 这边补上

PCA: 降纬,但是让variance最大

解法

lagrange multiplier

另外一个角度看pca

手写数字辨识:可以看成一堆feature的linear combination

最小化reconstruction error的过程就是解pca的过程

根据svd分解就可以得到pca的解,就是k个最大的covariance matrix的eigenvector

pca的过程也可以看成是一个neural network

pca的weakness

怎么选pca的数量

做图看elbow point,最后几个pc往往不能提供过多的信息

NMF(让组分只能正向叠加)

Matrix Factorization

常用于推荐系统, 就是找出背后的latent vector

  • 无missing value: svd
  • 有missing value : gradient descent