
[课程资料] 高级统计方法书后习题(九)
本系列内容为《统计学习导论——基于R应用》(机械工业出版社)部分课后习题答案。
本章为10.7节习题答案。
声明:本博客中的习题分享仅供学习和参考之用。请勿将其用于任何形式的学术欺骗、抄袭或违反学术诚信的行为。尊重知识,诚实学习。
如果您发现文章内容中任何不妥或错误之处,请随时通过联系方式或评论功能与我交流,以便我进行改正和完善。
一、概念题
10.7.1
(a)
(b)
在K聚类算法的每次迭代中,算法通过一下两个步骤来减少目标函数的值:
重新分配样本。对于每个样本,计算它到每个簇中心之间的距离,并将其分配到距离最小的簇。
重新计算簇的中心。对于每个簇,计算新的均值作为簇的中心。
在上述等式中,左侧是计算簇内每一对样本之间的特征差异平方和,计算复杂度较高。右侧是计算每个样本到簇中心的差异平方和。在方程中表明了最小化每个聚类的欧氏距离平方和玉最小化每个聚类的簇内方差是等价的。
10.7.2
10.7.3
10.7.4
(a)
对于 {1,2,3} 和 {4,5} 两个类在最短距离法和最长距离法中都汇聚的情况:
最短距离法:由于 {1,2,3} 和 {4,5} 之间可能存在较小的最短距离(例如,1和4之间的距离),这可能导致这两个类在最短距离法中较早地汇聚。
最长距离法:在最长距离法中,需要考虑类中所有点之间的最大距离。如果 {1,2,3} 和 {4,5} 之间的最大距离较大,那么这两个类可能不会在早期汇聚。
因此,如果这两个类在两种方法中都汇聚,最短距离法中的汇聚位置可能更高(即更早汇聚),而最长距离法中的汇聚位置可能更低(即更晚汇聚)。
(b)
对于 {5} 和 {6} 两个类在最短距离法和最长距离法中都汇聚的情况:
最短距离法:由于 {5} 和 {6} 之间可能存在较小的最短距离,这可能导致这两个类在最短距离法中较早地汇聚。
最长距离法:同样,如果 {5} 和 {6} 之间的最大距离较小,这两个类也可能在最长距离法中较早地汇聚。
在这种情况下,如果这两个类在两种方法中都汇聚,它们的汇聚高度可能相同,因为它们之间的距离较小,无论是最短距离还是最长距离,都可能导致它们在相似的位置汇聚。