一、基本概念
1.独立同分布
概率统计理论中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量是独立同分布。
在西瓜书中解释是,输入空间中的所有样本服从一个隐含未知的分布,训练数据所有样本都是独立地从这个分布上采样而得。
(1)独立:每次抽样之间没有关系,不会相互影响
举例:给一个骰子,每次抛骰子抛到几就是几,这是独立;如果我要抛骰子两次之和大于8,那么第一次和第二次抛就不独立,因为第二次抛的结果和第一次相关。
(2)同分布:每次抽样,样本服从同一个分布
举例:给一个骰子,每次抛骰子得到任意点数的概率都是六分之一,这个就是同分布
(3)独立同分布:每次抽样之间独立而且同分布
2.分类、回归、聚类
(1)分类——离散值:“好瓜、坏瓜”
(2)回归——连续值:西瓜成熟度0.95、0.37
(3)聚类:即将训练集中的西瓜分成若干组,每组称为 个”簇”
(注:这些自动形成的簇可能对应一些潜在的概念划分,例如”浅色瓜” “深色瓜”)
聚类学习中,”浅色瓜” “本地瓜”这样的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息。
3.监督学习与无监督学习
监督学习——分类、回归
无监督学习——聚类
4.假设空间与版本空间
假设空间:所有的可能性
学习过程看作一个在所有假设组成的空间中进行,搜索的过程,搜索目标是找到与训练集”匹配“的假设,即能够将训练集中的瓜判断正确的假设。
版本空间:一般会有多个假设与训练集一致,即存在着一个与训练集一致的”假设集合”,我们称之为”版本空间”。
二、习题
1.1:
(青绿,蜷缩,浊响)
(青绿,蜷缩,*)、(青绿,*,浊响)、(*,蜷缩,浊响)
(青绿,*,*)、(*,蜷缩,*)、(*,*,浊响)
版权声明:本文为weixin_44713645原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。