现有一个小项目外包合作,欲寻非常熟悉R语言或隐马尔可夫模型Hidden Markov Model估计算法的,有兴趣者请联系 59700141@qq.com ,来信必回。
1. 任务:采用R代码实现大规模隐马尔可夫模型Hidden Markov Model估计算法。
2. 要求:
Ø 观测变量为分类变量与连续变量混合
Ø Bakis 模型
Ø 考虑转移矩阵的影响因素为多个连续变量的情况
Ø 需要估计参数的置信区间(标准差)
如隐马尔科夫的基本要素,即一个五元组{S,O,A,B,PI};
S:隐藏状态集合;
O:观察状态集合;
A:隐藏状态间的转移概率矩阵;
B:输出矩阵(即隐藏状态到输出状态的概率);
PI:初始概率分布(隐藏状态的初始概率分布);
其中,A,B,PI称为隐马尔科夫的参数 。
需要解决的基本问题:
Ø 首先,对于给定的观察序列O、变量T,调整HMM的参数,使观察序列出现的概率最大。目标:输出该参数,包括S,A,B,PI,及T对A的影响Beta;A和Beta的置信区间。
Ø 其次,根据A,B,PI,S,求某个观察序列O属于某个S的概率(利用维特比算法)。
Ø 给定模型和观察序列O,求可能性最大的隐藏状态序列。
Ø 主要考虑从左至右模型bakis模型,即A的下三角元素可设置为零。
3. 提交成果: R软件通用源代码、代码简要说明、结果示例、后期维护咨询。
4. 原始数据:5年的企业层面非平衡面板数据。
模型测量变量O包括6-7个变量,主要为分类变量:skillshare, jobt, interce, rad, prodino; 变量集T,包括d12b, teli,d3c,na1等。
5. 现有资源
现有部分R软件包可借鉴,但无法实现所有的功能:
Ø depmixS4 (无法估计置信区间,Bakis模型限制条件有问题)
Ø LMest (占用资源过多,没有Bakis模型估计)
Ø seqHMM (无法估计多个)
*建议基于depmixS4软件包算法,加入参数的置信区间估计并限制转移矩阵即可。
6. 可参考文献:
1) Rabiner, L. R. (1989). A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. In Proceedings of the ieee (pp. 257-286).
2) Visser, I., Raijmakers, M. E. J., & van der Maas, H. L. J. (2009). 13 dynamic process methodology in the social and developmental sciences. In J. Valsiner, P. C. M. Molenaar, M. C. Lyra, & N. Chaudhary (Eds.), (p. 269-289). New York: Springer-Verlag.
3) Visser, I., & Speekenbrink, M. (2010). depmixS4: An R-package for hidden Markov model. Journal Statistical Software , in press .
4) Francesco Bartolucci, Alessio Farcomeni, Silvia Pandolfi, LMest: an R package for latent Markov models for categorical longitudinal data, https://arxiv.org/abs/1501.04448
5) Bartolucci, F. and Farcomeni, A. (2014). Information matrix for hidden markov models with covariates. Statistics and Computing, page available online.
6) Bartolucci, F., Farcomeni, A., and Pennoni, F. (2014). Latent Markov models: a review of a general framework for the analysis of longitudinal data with covariates (with discussion). TEST, 23:433–465.
7) Bartolucci, F., Lupparelli, M., and Montanari, G. E. (2009). Latent Markov model for binary longitudinal data: an application to the performance evaluation of nursing homes. Annals of Applied Statistics, 3:611–636.