machine-learning

李航统计学习方法:

NFL定律指明，如果我们对要解决的问题一无所知并假设其分布完全随机且平等，那任何算法的预期性能都是相似的。脱离具体问题，空谈‘什么学习算法更好’毫无意义。
集成学习的精髓在于假设“子分类器”的错误相互独立，随着集成中子分类器的数目上升，集成学习后的”母分类器”的误差将会以指数级别下降，直至为0。假设过于乐观。
个体学习的准确性和多样性本身就存在冲突，一般的，准确性很高后，要增加多样性就需牺牲准确性。事实上，如何产生并结合好而不同个体学习器，恰是集合学习的研究核心。
细分集成学习的话，也有两种截然相反的设计思路：
- 思路1：每个子学习器都是弱分类器，在融合后成为一个强力的主体。
  代表算法：随机森林
  每个子学习器都是强分类器，融合过程中可能：
  - 思路2（强中取强）：选择最强的那一个。
    代表算法：dynamic classifier selection
  - 思路3 （公平选择）：一视同仁的对待每个子学习器，融合出一个更强的主体。
    代表算法：stacking
让一堆子学习器集体做决定的缺陷在于低效，容易被平庸的子学习器拖了后腿。而信赖最强者的缺点在于缺乏稳定性，上限可以很高，下限也可以很低。
频率学派 - Frequentist - Maximum Likelihood Estimation (MLE，最大似然估计)
贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP，最大后验估计)
频率学派相信参数是客观存在的，虽然未知，但不会改变。因此频率学派的方法一直都是试图估计“哪个值最接近真实值”，相对应的我们使用最大似然估计(Maximum Likelihood Estimation)，置信区间(Confidence Level), 和p-value。因此这一切都是体现我们对于真实值估算的自信和可靠度。
而贝叶斯学派相信参数不是固定的，我们需要发生过的事情来推测参数，这也是为什么总和先验(Prior)及后验(Posterior)过不去，才有了最大后验(Maximum a Posteriori)即MAP。贝叶斯学派最大的优势在于承认未知(Uncertainty)的存在，因此感觉更符合我们的常识“不可知论”。
偏置的大小度量了神经元产生正(负)激励的难易程度，偏置是不需要正则化的，并且正则化偏置的话会导致欠拟合。
有隐层时，学习得到的模型中, 所有的隐单元都是相同的
没有隐层时, 可以将所有的参数初始化为0
one-hot编码：
稀疏矩阵做矩阵计算，计算方便快捷、表达能力强。过于稀疏时，过度占用资源。
embedding嵌入层：类似于虚拟出一个关系对当前数据进行映射。
在某种程度上，就是用来降维，降维的原理就是矩阵乘法。在卷积网络中，可以理解为特殊全连接层操作，跟1x1卷积核异曲同工。
embedding的又一个作用：
对低维数据进行升维时，可能把一些其他特征放大了，或者把笼统的特征给分开了。同时，这个embedding是一直在学习优化的，使得整个拉近拉远的过程慢慢形成一个良好的观察点。（距离的远近会影响我们的观察效果。同理，低维数据可能包含的特征是非常笼统的，需要不停地拉近拉远来改变我们的感受野，让我们对这幅图有不同的观察点，找出我们要的茬。）
回想一下为什么CNN层数越深准确率越高，卷积层卷了又卷，池化层升了又升，升了又降，全连接层连了又连。因为我们也不知道它什么时候突然就学到某个有用特征。但是不管怎样，学习都是好事，所以让机器多卷一卷，多连一连，反正错了多少我会用交叉熵告诉你，怎么做才是对的我会用梯度下降算法告诉你，只要给你时间，你迟早会学懂。因此，理论上，只要层数深，只要参数足够，NN能拟合任何特征。