一、基本概念

1.独立同分布

概率统计理论中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量是独立同分布。

在西瓜书中解释是,输入空间中的所有样本服从一个隐含未知的分布,训练数据所有样本都是独立地从这个分布上采样而得。

(1)独立:每次抽样之间没有关系,不会相互影响

举例:给一个骰子,每次抛骰子抛到几就是几,这是独立;如果我要抛骰子两次之和大于8,那么第一次和第二次抛就不独立,因为第二次抛的结果和第一次相关。

(2)同分布:每次抽样,样本服从同一个分布

举例:给一个骰子,每次抛骰子得到任意点数的概率都是六分之一,这个就是同分布

(3)独立同分布:每次抽样之间独立而且同分布

2.分类、回归、聚类

(1)分类——离散值:“好瓜、坏瓜”
(2)回归——连续值:西瓜成熟度0.95、0.37
(3)聚类:即将训练集中的西瓜分成若干组,每组称为 个”簇” 
(注:这些自动形成的簇可能对应一些潜在的概念划分,例如”浅色瓜” “深色瓜”)
聚类学习中,”浅色瓜” “本地瓜”这样的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息。

3.监督学习与无监督学习

监督学习——分类、回归
无监督学习——聚类

4.假设空间与版本空间

假设空间:所有的可能性

学习过程看作一个在所有假设组成的空间中进行,搜索的过程,搜索目标是找到与训练集”匹配的假设,即能够将训练集中的瓜判断正确的假设。

版本空间:一般会有多个假设与训练集一致,即存在着一个与训练集一致的”假设集合”,我们称之为”版本空间”。

二、习题

1.1:

(青绿,蜷缩,浊响)

(青绿,蜷缩,*)、(青绿,*,浊响)、(*,蜷缩,浊响)

(青绿,*,*)、(*,蜷缩,*)、(*,*,浊响)


版权声明:本文为weixin_44713645原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/weixin_44713645/article/details/127242247