条件随机场
什么是概率无向图模型?
- 概率无向图模型,又称为马尔可夫随机场(randomfield),是一个可以由无向图表示的联合概率分布
- 设有联合概率分布 P (Y),由无向图 G=(V, E) 表示,在图 G 中,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布 P (Y) 满足成对、局部或全局马尔可夫性,就称此联合概率分布为概率无向图模型,或马尔可夫随机场
什么是概率无向图模型的因子分解?
- 将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作,称为概率无向图模型的因子分解
- 概率无向图模型或马尔可夫随机场的联合概率分布可以分解为无向图最大团上的正值函数的乘积的形式
什么是条件随机场 (Conditional Random Fields,CRF)?
- 一种用于构建预测模型的概率图模型,特别是在序列数据标注和分割任务中。与隐马尔可夫模型(HMM)不同,CRF 没有马尔可夫假设,即当前状态的概率仅依赖于前一个状态,而是允许在给定一组特征的条件下,对整个序列的标签分配进行建模
- 条件随机场是给定输入随机变量 X 条件下,输出随机变量 Y 的条件概率分布模型,其形式为参数化的对数线性模型。条件随机场的最大特点是假设输出变量之间的联合概率分布构成概率无向图模型,即马尔可夫随机场。条件随机场是判别模型
- 线性链条件随机场是定义在观测序列与标记序列上的条件随机场。线性链条件随机场一般表示为给定观测序列条件下的标记序列的条件概率分布,由参数化的对数线性模型表示。模型包含特征及相应的权值,特征是定义在线性链的边与结点上的
EM 算法、HMM、CRF 的区别 ?
- EM 算法
- EM 算法是用于含有隐变量模型的极大似然估计或者极大后验估计,有两步组成:E 步,求期望(expectation);M 步,求极大(maxmization)。本质上 EM 算法还是一个迭代算法,通过不断用上一代参数对隐变量的估计来对当前变量进行计算,直到收敛
- 注意:EM 算法是对初值敏感的,而且 EM 是不断求解下界的极大化逼近求解对数似然函数的极大化的算法,也就是说 EM 算法不能保证找到全局最优值。对于 EM 的导出方法也应该掌握
- HMM (隐马模型)
- 隐马尔可夫模型是用于标注问题的生成模型。有几个参数(π,A,B):初始状态概率向量 π,状态转移矩阵 A,观测概率矩阵 B。称为马尔科夫模型的三要素
- 马尔科夫三个基本问题:(1)概率计算问题:给定模型和观测序列,计算模型下观测序列输出的概率。–》前向后向算法;(2)学习问题:已知观测序列,估计模型参数,即用极大似然估计来估计参数。–》Baum-Welch (也就是 EM 算法) 和极大似然估计;(3)预测问题:已知模型和观测序列,求解对应的状态序列。–》近似算法(贪心算法)和维比特算法(动态规划求最优路径)
- CRF(条件随机场)
- 给定一组输入随机变量的条件下另一组输出随机变量的条件概率分布密度。条件随机场假设输出变量构成马尔科夫随机场,而我们平时看到的大多是线性链条随机场,也就是由输入对输出进行预测的判别模型。求解方法为极大似然估计或正则化 (regularization) 的极大似然估计
- 之所以总把 HMM 和 CRF 进行比较,主要是因为 CRF 和 HMM 都利用了图的知识,但是 CRF 利用的是马尔科夫随机场(无向图),而 HMM 的基础是贝叶斯网络(有向图)。而且 CRF 也有:概率计算问题、学习问题和预测问题。大致计算方法和 HMM 类似,只不过不需要 EM 算法进行学习问题
CRF 模型对于 HMM 和 MEMM 模型的优势?
- CRF,HMM (隐马模型),MEMM (最大熵隐马模型) 都常用来做序列标注的建模
- 隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择
- 最大熵隐马模型则解决了隐马的问题,可以任意选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题,即凡是训练语料中未出现的情况全都忽略掉
- 条件随机场则很好的解决了这一问题,他并不在每一个节点进行归一化,而是所有特征进行全局归一化,因此可以求得全局的最优值