林轩田机器学习基石 第一周、第二周

第一周,基本概念

  • 机器学习可以进行的条件:
    1、 有某种模式可以学习。
    2、 这种模式不知道怎么手工明确规定(如果通过编写可以实现的就不需要机器学习)。
    3、 有数据资料。

  • 机器学习四种元素:
    1、 输入X。
    2、 输出Y。
    3、 hypothesis H。
    4、 资料 D

数据挖掘和机器学习有很多重合点,但不是一模一样。 # 第二周,二元是非判断 ### Perceptron Hypothesis:感知器学习算法:针对线性可分的资料
感知器学习算法的假设函数 - PLA算法(perceptron learning algorithm),两种理解方式:
① 向量纠正(比较直观,但证明很麻烦,推导不方便) 权重向出现错误的点靠近
当y=+1,那么类似于第一个图,w+yx将使得新的w更加偏向于x,以使得修正后的结果为h(x)>0,而类似有第二图的修正。
② 梯度下降(以点到直线的距离(带符号)为代价函数进行随机梯度下降)此方法可获得向量纠正的一样的公式及结果。
此法以误分类点到直线的距离为代价函数,使用随机梯度下降获得最优解,因如果误分类点到超平面的距离都最小时,则误分类点在线性可分的情况下变为正确分类点。 随机梯度下降法最优化公式

算法特性:只能分类线性可分的模型。
- 噪音相对于数据应该较小
- PLA变形:pocket algorithm,速度比PLA慢:
使用一个随机的g0作为起始,存贮目前为止代价函数最小的情况,迭代规定的若干次后得到结果。 pocket algorithm运算过程