技能训练

[b](1)什么是马尔可夫链?[/b][br]
[b](2)简述语音识别及自然语言处理方法。[/b]
[b](3)自然语言处理大数据算法操作实践。[/b][br][br] ① 作业目的。[br][br] 旨在让学生理解马尔可夫模型(Markov Model)的基本原理,了解其在语音识别、词性自动标注、音字转换、概率文法、序列分类等各个自然语言处理等领域的广泛应用,体会其经过长期发展,尤其是在语音识别中的成功应用,如何使它成为一种通用的统计工具,以及到目前为止,它一直被认为是实现快速精确的语音识别系统的最成功的方法之一的主要原因。[br][br] ② 作业准备。[br][br] [color=#0000ff][b] [url=https://orangedatamining.com/download/]Orange3 软件下载[/url][icon]/images/ggb/toolbar/mode_zoomin.png[/icon][/b][/color]并安装。[br][br] [color=#0000ff][b][url=https://pan.baidu.com/disk/main?from=oldversion#/index?category=all&path=%2F%E9%85%8D%E5%A5%97%E8%B5%84%E6%BA%90%E4%B8%8B%E8%BD%BD%2F%E9%A9%AC%E5%B0%94%E7%A7%91%E5%A4%AB%E9%93%BE%E5%8F%8A%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86]分词训练下载[/url][icon]/images/ggb/toolbar/mode_zoomin.png[/icon][/b][/color]包含两个文件,自动谱曲及自动造句功能,是目前流行的 ChatGPT 的底层算法原理模拟。[br][br] a. 马尔可夫模型练习。[br][br] 下面是马尔可夫模型在天气预测方面的简单例子。如果第一天是雨天,第二天还是雨天 的概率是 0.8,是晴天的概率是 0.2;如果第一天是晴天,第二天还是晴天的概率是 0.6,是雨天的概率是 0.4。问:如果第一天下雨了,第二天仍然是雨天的概率是多少?第十天是晴天的概率是多少?[br][br] 首先构建转移概率矩阵,由于每一天的状态只是晴天或者是下雨两种情况,所以矩阵是2×2 的,如表 2-9-11 所示。[br][br] 表 2-9-11 天气状态概率矩阵[br][img][/img][br]
构造转移概率矩阵:[br][br] [math]A=\binom{0.8,0.4}{0.2,0.6}[/math][br][br] 假设初始状态第一天是雨天,记为[br][br] [math]P_0=\binom{1}{0}[/math] [br][br] 则第一天是雨天,第二天仍然是雨天(记为[math]P1[/math])的概率为[br][br] [math]P_1=A\times P_0=\left[0.80.2\right][/math][br][br] 则第十天(记为 P9 )是晴天的概率:[br][br] [math]P_9=A\times P_8=A^9\times P_0=0.3332[/math]
b. 自然语言进行 token(词粒)分割。[br] 打开自然语言处理(Natural Language Process,NLP)随机输入一段文字,并进行词条分割,如图 2-9-6 所示。[br][center][img]https://s21.ax1x.com/2025/02/20/pEQD8DH.png[/img][/center] 图 2-9-6 词条分割
③ 作业内容。[br][br] 作业包括两个部分:[br][br] ● Orange 中的自然语言处理;[br][br] ● 撰写分析报告。[br][br] a. 文本语料。[br][br] 从网上收集 4 段“老虎”的资料和 3 段“猴子”的资料,保存成.txt 格式。一般来讲,下载数据采用的是 txt 文件,而 txt 是一种纯文本文档,里面不会有任何字体格式,直观性较差,同时也不便于 Orange 平台操作,需要进行转换并预处理。[br][br] b. 增加文本分析模块。[br][br] 使用 Orange3 处理文本数据,还需安装文本分析模块,进入菜单栏【Option】【Add-ones】,选中“Orange3-Text”,点击 OK,进行安装,安装好之后重新进入 Orange3 即可。[br][br] c. 载入文本。[br][br] 在 Orange3 中,载入文本数据主要使用“Corpus”和“Import Document”,其中,Corpus 组件能够载入后缀为 tab,csv,xlsx 等许多格式的语料(试着尝试网站预存的一些.tab 的语料,可以用文本编辑器进入查看其格式),而“Import Document”能够作用于文件,根据文件名字[br]自动为文本添加类。[br][br] d. 预处理语料。[br][br] 导入文本语料之后,要对语料进行预处理。预处理,一般包括去停用词,分词,去掉一些商标、网址等信息。[br][br] 这里需要用到“Preprocess Text”组件,将其拖入右侧画板,并且和“Import Documents”连[br]接,进入其中,设置具体的预处理选项。[br][br] e. 文本转化为向量。[br][br] 在 Orange3 中,文本转化成向量的组件为“Bag of words”(词袋模型),将其拖入画板,连接“Preprocess Text”,在“Bag of words”中,可以选择词袋模型的统计依据,比如“Count”词频、“Idf”逆文档词频等。[br][br] f. 文本相似性矩阵和文本聚类。[br][br] 将左侧的 “Distances” 和 “Distance Matrix” 拖到右侧画板中,连接 “Bag of Words”- “Distances”,“Distances”-“Distance Matrix”,不用调整“Distances”的内容,直接查看“Distance [br]Matrix”即可。[br][br] g. 撰写数据分析报告。
Close

Information: 技能训练