李航统计学习方法:

  • NFL定律指明,如果我们对要解决的问题一无所知并假设其分布完全随机且平等,那任何算法的预期性能都是相似的。脱离具体问题,空谈‘什么学习算法更好’毫无意义。
  • 集成学习的精髓在于假设“子分类器”的错误相互独立,随着集成中子分类器的数目上升,集成学习后的”母分类器”的误差将会以指数级别下降,直至为0。假设过于乐观。
  • 个体学习的准确性和多样性本身就存在冲突,一般的,准确性很高后,要增加多样性就需牺牲准确性。事实上,如何产生并结合好而不同个体学习器,恰是集合学习的研究核心。
  • 细分集成学习的话,也有两种截然相反的设计思路:
    • 思路1:每个子学习器都是弱分类器,在融合后成为一个强力的主体。
      代表算法:随机森林
      每个子学习器都是强分类器,融合过程中可能:
      • 思路2(强中取强):选择最强的那一个。
        代表算法:dynamic classifier selection
      • 思路3 (公平选择):一视同仁的对待每个子学习器,融合出一个更强的主体。
        代表算法:stacking
  • 让一堆子学习器集体做决定的缺陷在于低效,容易被平庸的子学习器拖了后腿。而信赖最强者的缺点在于缺乏稳定性,上限可以很高,下限也可以很低。
  • 频率学派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估计)
    贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP,最大后验估计)
  • 频率学派相信参数是客观存在的,虽然未知,但不会改变。因此频率学派的方法一直都是试图估计“哪个值最接近真实值”,相对应的我们使用最大似然估计(Maximum Likelihood Estimation),置信区间(Confidence Level), 和p-value。因此这一切都是体现我们对于真实值估算的自信和可靠度。
  • 而贝叶斯学派相信参数不是固定的,我们需要发生过的事情来推测参数,这也是为什么总和先验(Prior)及后验(Posterior)过不去,才有了最大后验(Maximum a Posteriori)即MAP。贝叶斯学派最大的优势在于承认未知(Uncertainty)的存在,因此感觉更符合我们的常识“不可知论”。
  • 偏置的大小度量了神经元产生正(负)激励的难易程度,偏置是不需要正则化的,并且正则化偏置的话会导致欠拟合。
  • 有隐层时,学习得到的模型中, 所有的隐单元都是相同的
    没有隐层时, 可以将所有的参数初始化为0
  • one-hot编码:
    稀疏矩阵做矩阵计算,计算方便快捷、表达能力强。过于稀疏时,过度占用资源。
  • embedding嵌入层:类似于虚拟出一个关系对当前数据进行映射。
    在某种程度上,就是用来降维,降维的原理就是矩阵乘法。在卷积网络中,可以理解为特殊全连接层操作,跟1x1卷积核异曲同工。
  • embedding的又一个作用:
    对低维数据进行升维时,可能把一些其他特征放大了,或者把笼统的特征给分开了。同时,这个embedding是一直在学习优化的,使得整个拉近拉远的过程慢慢形成一个良好的观察点。(距离的远近会影响我们的观察效果。同理,低维数据可能包含的特征是非常笼统的,需要不停地拉近拉远来改变我们的感受野,让我们对这幅图有不同的观察点,找出我们要的茬。)
  • 回想一下为什么CNN层数越深准确率越高,卷积层卷了又卷,池化层升了又升,升了又降,全连接层连了又连。因为我们也不知道它什么时候突然就学到某个有用特征。但是不管怎样,学习都是好事,所以让机器多卷一卷,多连一连,反正错了多少我会用交叉熵告诉你,怎么做才是对的我会用梯度下降算法告诉你,只要给你时间,你迟早会学懂。因此,理论上,只要层数深,只要参数足够,NN能拟合任何特征。