• prmlcn
  • 前言
  • 1. 介绍
    • 1.1. 例子:多项式曲线拟合
    • 1.2. 概率论
      • 1.2.1. 概率密度
      • 1.2.2. 期望与协方差
      • 1.2.3. 贝叶斯概率
      • 1.2.4. 高斯分布
      • 1.2.5. 曲线拟合再访
      • 1.2.6. 贝叶斯曲线拟合
    • 1.3. 模型选择
    • 1.4. 维度灾难
    • 1.5. 决策论
      • 1.5.1. 最小化误分率
      • 1.5.2. 最小化损失期望
      • 1.5.3. 拒绝选项
      • 1.5.4. 推断与决策
      • 1.5.5. 回归损失函数
    • 1.6. 信息论
      • 1.6.1. 相对熵和互信息
    • 1.7. 习题解答
  • 2. 概率分布
    • 2.1. 二元变量
      • 2.1.1. Beta分布
    • 2.2. 多项式变量
      • 2.2.1. 狄利克雷分布
    • 2.3. 高斯分布
      • 2.3.1. 条件高斯分布
      • 2.3.2. 边缘高斯分布
      • 2.3.3. 高斯变量的贝叶斯定理
      • 2.3.4. 高斯分布的最大似然
      • 2.3.5. 顺序估计
      • 2.3.6. 高斯分布的贝叶斯推断
      • 2.3.7. 学生t分布
      • 2.3.8. 周期变量
      • 2.3.9. 混合高斯模型
    • 2.4. 指数族
      • 2.4.1. 最大似然和充分统计量
      • 2.4.2. 共轭先验
      • 2.4.3. 无信息先验
    • 2.5. 非参数方法
      • 2.5.1. 核密度估计
      • 2.5.2. 近邻算法
  • 3. 分类的线性模型
    • 3.1. 线性基函数模型
      • 3.1.1. 最大似然和最小二乘
      • 3.1.2. 最小二乘的几何解释
      • 3.1.3. 顺序学习
      • 3.1.4. 正则化最小二乘
      • 3.1.5. 多输出
    • 3.2. 偏置方差分解
    • 3.3. 贝叶斯线性回归
      • 3.3.1. 参数分布
      • 3.3.2. 预测分布
      • 3.3.3. 等价核
    • 3.4. 贝叶斯模型比较
    • 3.5. 证据近似
      • 3.5.1. 计算证据函数
      • 3.5.2. 最大化证据函数
      • 3.5.3. 有效参数数量
    • 3.6. 固定基函数的局限性
  • 4. 回归的线性模型
    • 4.1. 判别函数
      • 4.1.1. 二分类
      • 4.1.2. 多分类
      • 4.1.3. 最小二乘分类法
      • 4.1.4. Fisher线性判别式
      • 4.1.5. 与最小二乘的关系
      • 4.1.6. 多分类的Fisher判别式
      • 4.1.7. 感知器算法
    • 4.2. 概率生成模型
      • 4.2.1. 连续输入
      • 4.2.2. 最大似然解
      • 4.2.3. 离散特征
      • 4.2.4. 指数族
    • 4.3. 概率判别模型
      • 4.3.1. 固定基函数
      • 4.3.2. Logistic回归
      • 4.3.3. 迭代再加权最小平方
      • 4.3.4. 多类别logistic回归
      • 4.3.5. probit回归
      • 4.3.6. 标准链接函数
    • 4.4. 拉普拉斯近似
      • 4.4.1. 模型对比和BIC
    • 4.5. 贝叶斯Logistic回归
      • 4.5.1. 拉普拉斯近似
      • 4.5.2. 预测分布
  • 5. 神经网络
    • 5.1. 前馈网络函数
      • 5.1.1. 权空间对称性
    • 5.2. 网络训练
      • 5.2.1. 参数优化
      • 5.2.2. 局部二次近似
      • 5.2.3. 使用梯度信息
      • 5.2.4. 梯度下降最优化
    • 5.3. 误差反向传播
      • 5.3.1. 误差函数导数计算
      • 5.3.2. 一个简单的例子
      • 5.3.3. 反向传播的效率
      • 5.3.4. Jacobian矩阵
    • 5.4. Hessian矩阵
      • 5.4.1. 对角近似
      • 5.4.2. 外积近似
      • 5.4.3. Hessian矩阵的逆
      • 5.4.4. 有限差
      • 5.4.5. 精确计算Hessian矩阵
      • 5.4.6. Hessian快速乘法
    • 5.5. 神经网络中的正则化
      • 5.5.1. 相容高斯先验
      • 5.5.2. 早期停止
      • 5.5.3. 不变性
      • 5.5.4. 切线传播
      • 5.5.5. 用变换后的数据训练
      • 5.5.6. 卷积网络
      • 5.5.7. 软权值共享
    • 5.6. 混合密度网络
    • 5.7. 贝叶斯神经网络
      • 5.7.1. 后验参数分布
      • 5.7.2. 超参数优化
      • 5.7.3. 分类的贝叶斯神经网络
  • 6. 核方法
    • 6.1. 对偶表示
    • 6.2. 核构造
    • 6.3. 径向基函数网络
      • 6.3.1. 分类的贝叶斯神经网络
    • 6.4. 高斯过程
      • 6.4.1. 线性回归再探
      • 6.4.2. 回归的高斯过程
      • 6.4.3. 超参数学习
      • 6.4.4. 自动相关性确定
      • 6.4.5. 分类的高斯过程
      • 6.4.6. 拉普拉斯近似
      • 6.4.7. 与神经网络的联系
  • 7. 稀疏核机
    • 7.1. 最大边缘分类器
      • 7.1.1. 重合类分布
      • 7.1.2. 与logistic回归的关系
      • 7.1.3. 多类别SVM
      • 7.1.4. 回归问题的SVM
      • 7.1.5. 计算学习理论
    • 7.2. 相关向量机
      • 7.2.1. 用于回归的RVM
      • 7.2.2. 稀疏性分析
      • 7.2.3. 用于分类的RVM
  • 8. 图模型
    • 8.1. 贝叶斯网络
      • 8.1.1. 例子:多项式回归
      • 8.1.2. 生成式模型
      • 8.1.3. 离散变量
      • 8.1.4. 线性高斯模型
    • 8.2. 条件独立
      • 8.2.1. 三个例图
      • 8.2.2. D-划分
    • 8.3. 马尔科夫随机场
      • 8.3.1. 条件独立性质
      • 8.3.2. 分解性质
      • 8.3.3. 例证:图像去噪
      • 8.3.4. 与有向图的关系
    • 8.4. 图模型中的模型推断
      • 8.4.1. 链推断
      • 8.4.2. 树
      • 8.4.3. 因子图
      • 8.4.4. 加-乘算法
      • 8.4.5. 最大加算法
      • 8.4.6. 一般图的精确推断
      • 8.4.7. 循环置信传播
      • 8.4.8. 学习图结构
  • 9. 混合模型及EM
    • 9.1. K均值聚类
      • 9.1.1. 图像分割与压缩
    • 9.2. 混合高斯
      • 9.2.1. 最大似然
      • 9.2.2. 高斯混合的EM
    • 9.3. EM的另一种观点
      • 9.3.1. 高斯混合再探
      • 9.3.2. 与K均值的关系
      • 9.3.3. 伯努利分布混合
      • 9.3.4. 贝叶斯线性回归的EM
    • 9.4. 一般的EM算法
  • 10. 近似推断
    • 10.1. 变分推断
      • 10.1.1. 分解分布
      • 10.1.2. 分解近似的性质
      • 10.1.3. 例子:一元高斯分布
      • 10.1.4. 模型比较
    • 10.2. 高斯变分混合
      • 10.2.1. 变分分布
      • 10.2.2. 变分下界
      • 10.2.3. 预测密度
      • 10.2.4. 分量数量的确定
      • 10.2.5. 诱导分解
    • 10.3. 变分线性回归
      • 10.3.1. 变分分布
      • 10.3.2. 预测分布
      • 10.3.3. 下界
    • 10.4. 指数族分布
      • 10.4.1. 变分信息传递
    • 10.5. 局部变分法
    • 10.6. 变分logistic回归
      • 10.6.1. 变分后验分布
      • 10.6.2. 最优化变分参数
      • 10.6.3. 超参数推断
    • 10.7. 期望传播
      • 10.7.1. 例子:杂波问题
      • 10.7.2. 图的期望传播
  • 11. 采样方法
    • 11.1. 基本采样算法
      • 11.1.1. 标准分布
      • 11.1.2. 拒绝采样
      • 11.1.3. 重要采样
      • 11.1.4. 采样-重要性-再采样
      • 11.1.5. 采样与EM算法
    • 11.2. 马尔科夫链蒙特卡罗
      • 11.2.1. 马尔科夫链
      • 11.2.2. Metropolis-Hastings算法
    • 11.3. Gibbs采样
    • 11.4. 切片采样
    • 11.5. 混合蒙特卡罗算法
      • 11.5.1. 马尔科夫链
      • 11.5.2. 混合蒙特卡罗
    • 11.6. 划分函数估计
  • 12. 连续潜在变量
    • 12.1. 主成分分析
      • 12.1.1. 最大方差形式
      • 12.1.2. 最小误差形式
      • 12.1.3. PCA的应用
      • 12.1.4. 高维数据的PCA
    • 12.2. 概率PCA
      • 12.2.1. 最大似然PCA
      • 12.2.2. PCA的EM算法
      • 12.2.3. 贝叶斯PCA
      • 12.2.4. 因子分析
    • 12.3. 核PCA
    • 12.4. 非线性隐含变量模型
      • 12.4.1. 独立成分分析
      • 12.4.2. 自联想神经
      • 12.4.3. 非线性流形建模
  • 13. 顺序数据
    • 13.1. 马尔科夫模型
    • 13.2. 隐马尔科夫模型
      • 13.2.1. HMM的最大似然
      • 13.2.2. 向前向后算法
      • 13.2.3. HMM的加-乘算法
      • 13.2.4. 缩放因子
      • 13.2.5. Viterbi算法
      • 13.2.6. 隐马尔科夫模型扩展
    • 13.3. 线性动态系统
      • 13.3.1. LDS推断
      • 13.3.2. LDS学习
      • 13.3.3. LDS推广
      • 13.3.4. 粒子滤波
  • 14. 组合模型
    • 14.1. 贝叶斯模型平均
    • 14.2. 委员会
    • 14.3. 助推
      • 14.3.1. 最小化指数误差
      • 14.3.2. 助推的误差函数
    • 14.4. 基于树的模型
    • 14.5. 条件混合模型
      • 14.5.1. 线性回归模型混合
    • 14.6. Logistic模型混合
      • 14.6.1. 专家混合
Powered by GitBook

prmlcn