贝叶斯分析的稳健分析

2024-05-19

1. 贝叶斯分析的稳健分析

（三）稳健贝叶斯分析（robust Bayesian analysis ）稳健贝叶斯分析研究者认为，不可能对模型和先验分布进行完全的主观设定，即使在最简单的情况下，完全主观设定也必须包含一个无穷数。稳健贝叶斯的思想是构建模型与先验分布的集合，所有分析在这个集合框架内进行，当对未知参数进行多次推导（elicitation ）之后，这个集合仍然可以反映此未知参数的基本性质。关于稳健贝叶斯分析基础的争论是引人注目的（Kadane，1984；Walley，1991），关于稳健贝叶斯分析最新进展的文献可参见伯杰（Bergen1985，1994，1996）的研究。通常的稳健贝叶斯分析的实际运用需要相应的软件。

贝叶斯分析的稳健分析

2. 贝叶斯分析的介绍

贝叶斯方法是基于贝叶斯定理而发展起来用于系统地阐述和解决统计问题的方法。一个完全的贝叶斯分析包括数据分析、概率模型的构造、先验信息和效应函数的假设以及最后的决策（Lindley，2000）。

3. 贝叶斯分析的客观分析

贝叶斯分析的客观分析

4. 贝叶斯分析方法的介绍

贝叶斯分析方法（Bayesian Analysis）提供了一种计算假设概率的方法，这种方法是基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身而得出的。其方法为，将关于未知参数的先验信息与样本信息综合，再根据贝叶斯公式，得出后验信息，然后根据后验信息去推断未知参数的方法。

5. 参数的贝叶斯估计

  介绍    第一部分  参数方法——类密度模型参数估计    第二部分  监督学习——分类（基于似然的方法）    第三部分  监督学习——分类（基于判别式的方法）（参数方法——判别式参数估计）    第四部分  监督学习——回归    第五部分  监督学习——关联规则    第六部分  维度规约（特征的提取和组合）    第七部分  半参数方法    第八部分  非监督学习——聚类    第九部分  非参数方法——密度估计    第十部分  非参数方法——决策树实现的判别式    第十一部分  多层感知器——非参数估计器    第十二部分  局部模型    第十三部分  支持向量机与核机器    第十四部分  隐马尔科夫模型    第十五部分 参数的贝叶斯估计   第十六部分  集成学习——组合多学习器    第十七部分  增强学习    第十八部分  机器学习实验    第十九部分  特征工程与数据预处理 
   在贝叶斯方法中，把参数看做具有某种概率分布的随机变量，对参数的这种不确定性建模。   在极大似然估计中，把参数看做未知常数，取最大化似然  的参数为估计值。但在使用小样本时，极大似然估计可能是很差的估计，在不同的训练集上求得的参数相差较大，具有较大方差。   在贝叶斯估计中，利用估计  具有不确定这一事实，不是估计单个  ，而是通过估计分布  ，加权使用所有的  。也就是分摊估计的不确定性。
   在估计  时，可以利用我们可能具有的关于参数值的先验信息  。尤其在使用小样本时，先验信息很重。使用贝叶斯规则，将先验与似然结合在一起，来计算后验  。   这样，给定样本X，能够用它估计新实例  的概率分布：        如果  是离散值，则用  取代积分，后验则为样本X下每个  的可能性。
   这与《 参数方法——类密度模型参数的估计 》中介绍的贝叶斯估计不同，没有先估计确定的  ，而是对所有可能的后验进行了积分，是 全贝叶斯方法 。
   但大多数情况下这个 积分很难计算 的，除非后验有很好的形式（所以《参数方法——类密度模型参数的估计》中的方法，将参数归结到一点，不去计算这个积分）。
   但贝叶斯估计还是有其独有的 优点 。首先先验帮助 忽略了不太可能的  值 。此外，不是在预测时使用单个  ，而是生成 可能的  值集合 ，并在预测时 全部使用 ，用可能性加权。   而最大后验（MAP）方法使用先验，则只利用了第一个优点。而对于极大似然（ML）方法，这两个优点都不具备。
   对于 很多无法计算的情况，通过近似计算来处理 ，包括马尔科夫链蒙特卡洛抽样，拉普拉斯近似、变分近似。
     
   考虑样本来自一元高斯分布，  ，分布的参数  ，  是需要估计的。样本似然是  
   对多元变量样本，与一元样本的方法相同，只是使用了多元高斯分布  。其中  是 精度矩阵 。   对于均值，使用多元高斯先验     对于精度矩阵，使用多元版本的伽马分布（又称Wishart分布）先验  。
     
   同上面概率分布的参数一样，对函数参数的估计，同样将参数看做具有一种先验分布的随机变量。使用贝叶斯规则计算后验，再求积分。
   考虑 线性回归模型   ，其中  ，  是噪声的精度。   模型的参数是权重  ，记样本为  ，其中  ，  。将样本记为输入矩阵和期望输出向量两部分  。   给定输入的输出有概率分布  
   在 贝叶斯估计 的情况下，为参数  定义一个高斯先验  。对于后验，可得到  。   其中  ，  。   为了得到新输入  的输出  。
   如果采用 最大后验估计 对参数做点估计，由于后验为高斯分布，则有  
   MAP等同于最大化后验的对数     
   而同样作为点估计的 极大似然估计 ，并没有利用先验信息。整体样本的对数似然为  ，其中第二项相对于参数是常数。   把似然的第一项展开成        最大似然估计要最大化对数似然，等价于最小化最后一项，即最小化误差的平方和的参数  。误差平方和为     关于  求导并令其等于零，可得到             对于 一般模型   ，不便于像线性模型一样求解最大似然和最大后验估计。但思想是类似地，一样可通过最小化误差平方和  求得 最小二乘估计子   ，来计算输入的输出  。   或采用最大后验作为参数估计，由（b）的形式可写出一个适用于一般函数的增广误差函数        该目标函数比误差平方和多了一项，在统计学中称之为 岭回归 。是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，使更为符合实际、更可靠的回归方法。对病态数据的拟合要强于最小二乘法。（对于线性模型来说，则避免（c）中  矩阵中某个元素的一个很小的变动，会引起最后计算结果误差很大。正如MAP的解（a）比ML的解（c）在对角线增加了阐述想  ，保证矩阵可逆。）
   在《 多层感知器 》一节中的网络规模部分介绍的权重衰减（a），也有岭回归的形式，由第二项给每个  一个靠近0的趋势。它们的目的都是降低模型复杂度，是正则化方法。
     
   前一部分假设噪声服从给定的正态分布，  。如果  也是未知的，那么也可以对它定义先验。同前文对高斯分布参数的贝叶斯估计一样，对精度  定义伽马先验  ，   进一步定义  基于  的先验  。   如果  ，  ，则如前一部分所讨论的。   参数  和  的共轭先验为正态-伽马先验：        可得后验  
   其中                 
   这里采用 马尔科夫链蒙特卡洛抽样（MCMC） 来得到贝叶斯拟合。首先从  中抽取一个  值，然后从  抽取  。   这样得到一个从后验  中抽样的模型，通过抽取多个模型，并取这些模型的平均，作为 全贝叶斯积分的近似 。
     
   对给定输入  ，使用参数  的MAP估计(a)来计算输出        这是对偶表示，其中  包含先验参数。如果像用支持向量机那样用训练数据表示参数，可以把预测输出写成输入和悬链数据的函数，我们可以把这表示为  。   其中     
   考虑到可以使用非线性基函数  映射到新空间，在新空间中拟合线性模型（《 核机器 》）。这种情况下，作为线性核（d）的推广，其中的 d 维  变为 k 维的  。        其中，  ，  ，  是  映射后的数据矩阵。这是  的空间中的对偶表示。
   在《 监督学习——分类（基于判别式的方法） 》中介绍的逻辑斯蒂判别式，对两类问题，假定线性可分，有  。伯努利样本的对数似然为  。通过最大似然估计得到参数  的估计。   在贝叶斯方法中，假定参数的高斯先验  ，而后验的对数为        这个后验分布不再是高斯分布，并且不能精确地积分。这里使用 拉普拉斯近似 。

参数的贝叶斯估计

6. 如何刻画少样本贝叶斯模型的不确定性?

①根据攻击知识建立攻击脚本库，每一脚本都由一系列攻击行为组成；

②用这些攻击脚本的子集来匹配当前行为模式，发现系统正面临的可能攻击；

③将当前行为模式输入预测器模块，产生下一个需要验证的攻击脚本子集，并将它传给决策器；
④决策器根据这些假设的攻击行为在审讨记录中的可能出现方式，将它们转换成与特定系统匹配的审计记录格式，然后在审计记录中寻找相应信息来判断这些行为模式是否为攻击行为。【摘要】
如何刻画少样本贝叶斯模型的不确定性?【提问】
稍等【回答】
①根据攻击知识建立攻击脚本库，每一脚本都由一系列攻击行为组成；

②用这些攻击脚本的子集来匹配当前行为模式，发现系统正面临的可能攻击；

③将当前行为模式输入预测器模块，产生下一个需要验证的攻击脚本子集，并将它传给决策器；
④决策器根据这些假设的攻击行为在审讨记录中的可能出现方式，将它们转换成与特定系统匹配的审计记录格式，然后在审计记录中寻找相应信息来判断这些行为模式是否为攻击行为。【回答】

7. 贝叶斯预测的贝叶斯预测模型的概述

贝叶斯预测模型是运用贝叶斯统计进行的一种预测.贝叶斯统计不同于一般的统计方法,其不仅利用模型信息和数据信息，而且充分利用先验信息。托马斯·贝叶斯(Thomas Bayes)的统计预测方法是一种以动态模型为研究对象的时间序列预测方法。在做统计推断时，一般模式是：先验信息+总体分布信息+样本信息→后验分布信息可以看出贝叶斯模型不仅利用了前期的数据信息，还加入了决策者的经验和判断等信息，并将客观因素和主观因素结合起来，对异常情况的发生具有较多的灵活性。这里以美国1960—2005年的出口额数据为例，探讨贝叶斯统计预测方法的应用。

贝叶斯预测的贝叶斯预测模型的概述

8. 贝叶斯分析的拟准分析

（五）拟（准）贝叶斯分析（quasi Bayesian analysis ）有一种目前不断在文献中出现的贝叶斯分析类型，它既不属于“纯”贝叶斯分析，也不同于非贝叶斯分析。在这种类型中，各种各样的先验分布的选取具有许多特别的形式，包括选择不完全确定的先验分布（vague proper priors）；选择先验分布似然函数的范围进行“扩展”（span）；对参数不断进行调整，从而选择合适的先验分布使得结论看起来非常完美。伯杰称之为拟（准）贝叶斯分析，因为虽然它包含了贝叶斯的思想，但它并没有完全遵守主观贝叶斯或客观贝叶斯在论证过程中的规范要求。拟（准）贝叶斯方法，伴随着MCMC方法的发展，已经被证明是一种非常有效的方法，这种方法可以在使用过程中，不断产生新的数据和知识。虽然拟（准）贝叶斯方法还存在许多不足，但拟（准）贝叶斯方法非常容易创造出一些全新的分析过程，这种分析过程可以非常灵活地对数据进行分析，这种分析过程应该加以鼓励。对这种分析方法的评判，不必要按照贝叶斯内在的标准去衡量，而应使用其他外在的标准去判别（例如敏感性、模拟精度等）。-----------学文