醋醋百科网

Good Luck To You!

ScalersTalk 成长会机器学习小组第8周学习笔记

Scalers点评:机器学习小组是成长会的内部小组,这是成长会机器学习小组第8周学习笔记

往期日志:

ScalersTalk成长会机器学习小组第5周学习笔记(参见3月23日推送)

本周学习情况:

本周(20160327-20160403)学习了非监督学习以及数据降维方法。本周的复盘主持人是Aline[S180]

本周主要内容:

本周针对Coursera上Andrew Ng的Machine Learning第八周课程进行复盘。主要内容包括如何用K均值算法实现非监督学习中的聚类问题,以及如何用主成分分析(PCA)实现数据降维。

本周主要知识点:

一. Unsupervised Learning (无监督学习)

  • 监督学习与无监督学习的区别无监督学习的训练集没有y值,只有表示特征的x值。无监督学习用于分析数据的结构,而聚类(clustering)是无监督学习的一项重要应用。

  • K均值算法

  1. 原理:若将一组数据分为K类,则随机选择K个聚类中心(cluster centroids),将每个x值分配给离它最近的聚类中心,再把每个聚类中心移动到归属于它的所有x的平均值处。重复移动和分配的过程,直到收敛。

    P.S. 如果没有点分配给某聚类中心,则移除该聚类中心

  2. 实现:

  • K值确定方法:观察+手动选择

    肘部原则:代价函数在合适的K值处出现明显拐点。但拐点不明显时不适用。

    根据实际情况选择K值。

  • 聚类中心的位置:随机初始化:使聚类中心随机等于训练集的数据值

  • 重复移动与分配

  • 优化

二. Dimensionality Reduction (数据降维)

  • 目标

  1. 数据压缩:节约存储空间,提高计算速度

  2. 可视化(2D,3D)

方法:主成分分析(Principal Component Analysis)

原理:

使得数据在这组向量上的投影误差最小。

  • PCA不是线性回归:

    • 线性回归最小化平方误差,即h(x)到y之间的距离(坐标系中垂直方向),线性回归中的直线用于预测y

    • PCA最小化点到直线距离(方向与直线垂直),PCA中的直线用于尽可能代表x

  • 算法:

数据预处理: feature scaling/mean normalization

计算协方差矩阵

用奇异值分解计算协方差矩阵的特征向量(eigenvectors)

[U,S,V] = svd(Sigma);

如何选择k值(主成分数量)

[U,S,V] = svd(Sigma)

表明该k值下保留了99%的方差。

压缩后的重建

PCA应用监督学习中的加速:用降维后的数据预测y

注意事项:

PCA不用于避免过拟合,因为在舍弃部分x精度时并没有考虑其对y的影响。防止过拟合要用正则化方法

不要一开始就使用PCA,先用原始数据进行,只有在需要节省空间,提升速度或数据可视化时才需要考虑PCA

ScalersTalk ID:scalerstalk本微信公众号作者Scalers,游走在口译世界的IT从业者。微信公众号ScalersTalk,网站ScalersTalk.com,口译100小时训练计划群C 456036104成长会是由Scalers发起的面向成长、实践行动,且凝聚了来自全球各地各行各业从业者的社群。有意入会者请和Scalers直接联系,我和其他会员会和你直接交流关于成长行动等各方面的经验教训。2016年成长会持续招募中,参见做能说会写的持续行动者:ScalersTalk成长会2016年会员计划介绍(2016.3更新)

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言