(3)自然语言处理大数据算法操作实践。
① 作业目的。
旨在让学生理解马尔可夫模型(Markov Model)的基本原理,了解其在语音识别、词性自动标注、音字转换、概率文法、序列分类等各个自然语言处理等领域的广泛应用,体会其经过长期发展,尤其是在语音识别中的成功应用,如何使它成为一种通用的统计工具,以及到目前为止,它一直被认为是实现快速精确的语音识别系统的最成功的方法之一的主要原因。
② 作业准备。
Orange3 软件下载
并安装。
分词训练下载
包含两个文件,自动谱曲及自动造句功能,是目前流行的 ChatGPT 的底层算法原理模拟。
a. 马尔可夫模型练习。
下面是马尔可夫模型在天气预测方面的简单例子。如果第一天是雨天,第二天还是雨天 的概率是 0.8,是晴天的概率是 0.2;如果第一天是晴天,第二天还是晴天的概率是 0.6,是雨天的概率是 0.4。问:如果第一天下雨了,第二天仍然是雨天的概率是多少?第十天是晴天的概率是多少?
首先构建转移概率矩阵,由于每一天的状态只是晴天或者是下雨两种情况,所以矩阵是2×2 的,如表 2-9-11 所示。
表 2-9-11 天气状态概率矩阵