技能训练

[b](1)K-means算法的核心内容是什么?[/b]
[b](2)质心迁移的标准是什么?[/b]
[b](3)K值的选择方法有哪些?[/b]
[b](4)为什么要使用正则项?[/b]
[size=100][b](5)聚类算法大数据算法操作实践。[br][/b] ①作业目的。[br] 聚类算法是机器学习的重要内容,学生上机实践的目的:一是理解质心的计算方式及迁移过程;二是理解轮廓系数的概念及手肘法则的基本要领;三是掌握在 Orange 平台进行聚类分析的方法及步骤。[br][br] ②作业准备。 [br] Orange3 软件下载并安装。[color=#0000ff][b][url=https://orangedatamining.com/download/]下载地址[icon]/images/ggb/toolbar/mode_zoomin.png[/icon][/url][/b][/color]。[br][/size] [size=100] 学生学期成绩集,包括高中毕业成绩及在数据集[color=#0000ff][b][url=https://pan.baidu.com/disk/main#/index?category=all&path=%2F%E5%A4%A7%E6%95%B0%E6%8D%AE%E7%AE%97%E6%B3%95%E5%9F%BA%E7%A1%80-%E8%A7%A3%E6%9E%90%E4%B8%8E%E6%8E%A2%E7%B4%A2%2F6.K%E8%BF%91%E9%82%BB%2FK%E8%BF%91%E9%82%BB%E6%93%8D%E4%BD%9C%E5%AE%9E%E8%B7%B5]下载地址[icon]/images/ggb/toolbar/mode_zoomin.png[/icon][/url][/b][/color]:[/size]
数据集说明:数据集包含了某大学 2022—2022 年三年学生的教学大数据,其中包括学生的类型信息(性别、毕业类别、科类三个信息)及成绩信息(高中毕业、大学-1、大学-2、大学-3)。 [br] 类别信息为目录型特征变量,呈现如下: [br][br] 性别:男、女; [br] 毕业类别:高中毕业、职业高中毕业、其他中等专业学校毕业。 [br] 科类:理工、文史、中职对口、五年一贯制转段。 [br][br] ③作业内容。 [br] 作业包括两部分:数据集的归一化处理和聚类分析, 将数据集按不同特征变量组合进行 K 近邻分析,并形成群组对照。
a. 归一化处理方法。 采用 Z-score 标准化处理方法,对序列[math]x_1,x_2,\cdots,x_n[/math]进行变换: [br] [math]y_i=\frac{x_i-x_{avg}}{s}[/math][br] [math]x_{avg}=\frac{1}{n}\sum^n_{i=1}x_i[/math][br] [math]s=\sqrt{\frac{1}{n-1}\sum^n_{i=1}\left(x_i-x_{avg}\right)^2}[/math][br] 则新序列[math]y_1,y_2,\cdots,y_n[/math]的均值为 0,而方差为 1,且无量纲。 [br] 按以上要求,将学生成绩按类型归一化。
b. 聚类分析。学生需构建处理流程图,并保存轮廓系数表,[br] 将最优 K 聚类保存并生成图形,如图[color=#0000ff][b][url=https://app.flourish.studio/story/1867978/edit]2-2-16~图 2-2-18 所示[icon]/images/ggb/toolbar/mode_zoomin.png[/icon][/url][/b][/color]。[br]
Close

Information: 技能训练