K近邻算法:“近朱者赤近墨者黑”的智慧
AI产品经理需要掌握的内容有很多,本文将介绍K近邻算法,它常用来解决分类问题。一起来看看它的原理和应用吧。
前文我们介绍了AI产品经理的工作流程、模型构建流程、模型评估等内容,今天我们正式进入算法的学习。
首先介绍的是K近邻算法,K近邻算法是机器学习的入门级算法,原理简单易懂,常用来解决分类问题。
K近邻算法(K-Nearest Neighbor),简称KNN算法,是基于距离计算来解决分类问题的一种算法。
其实KNN算法充斥在我们的日常生活中,很多时候,我们都会有意无意的参考一下身边人的选择,做出最简单有效的选择。
以买空调为例,在小区里转悠一圈,统计其中安装最多的空调品牌,再找其中一位邻居聊几句,符合预算的话,很容易就下决定了。
还有送女朋友礼物的时候,问下身边的哥们儿之前都送过什么礼物,选择频率最高的礼物,更不容易踩雷。
在特征空间中,如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别,则该样本也属于这个类别。
这里提到了“最近”的概念,我们在计算样本点之间距离时,可以使用欧式距离、余弦距离、曼哈顿距离等数学公式,最常见的是欧式距离。
找出距离待测样本最近的K个样本点,然后统计其中最多的类别是哪个,就认为待测样本点归属于这个类别。
除了距离之外,KNN算法还需要考虑如何选择合适的K值,因为K值的选取会影响模型的预测效果。
如果选择较小的K值,影响决策的样本数量也较少,预测结果会对临近的样本过于敏感,如果临近的样本恰巧是噪声,预测就会出错。换句话说,K值减小就意味着整体模型变复杂,就容易发生过拟合。
根据用户的购买记录,推荐相似的商品根据用户的音乐风格和历史播放记录,推荐用户可能喜欢的音乐
简单易懂,复杂度低:训练代价低,甚至不需要训练,只要把样本数据整理好,就可以直接预测新数据边界不规则的分类效果更好:当数据的分类边界不规则时,KNN算法效果比线性分类算法好,不需要考虑数据的边界问题
计算量较大:需要计算待测样本和每一个已有样本之间的距离,计算量非常大,所以只适用于小数据集数据容错性较低:如果训练集中存在错误的样本数据,该错误样本又距离待测样本较近,就会导致预测不准确,所以对数据质量依赖程度是非常高的数据分布均衡程度要求高:样本数据不均衡时,某个类别的数据量特别大时,会占有绝对的投票优势,影响到其他类别的预测效果可解释性较差:除了“近朱者赤,近墨者黑”之外,我们好像很难对输出结果有更多的解释
本文我们简单介绍了KNN算法的原理、应用场景和优缺点,KNN算法是机器学习的入门级算法,希望对大家有所帮助。
(责任编辑:管理)
下一篇:没有了
- ·曾几何时(zēng jī hé shí)看看网友是如
- ·有关吗(mɑ)朗(lǎnɡ)病(bìnɡ)可以这样
- ·关于佩凌湖爬开最新消息!
- ·今日人民币汇率
- ·关于人(rén)情(qíng)世(shì)故(gù)到底
- ·带t的车油耗高吗带t的车耗油量大吗
- ·京城顶奢酒店被水淹!耗资8亿38间居所10座
- ·晚点独家|B站再提用户增长目标:移动端日
- ·只是怕了那句我恨你
- ·今年推出的EQE由全新EVA纯电平台打造
- ·半年前翻版?波动率指数VIX本周或再次挑战2
- ·有关无所事事(wú suǒ shì shì)真的假的
- ·爬山虎的脚教学设计这到底是个什么梗?
- ·星移斗转(xīng yí dǒu zhuǎn)是真实还
- ·利可多净水器具体内容是什么?
- ·前瞻全球产业早报:联合国将官宣印度成人口
- ·有关印度新娘第二部可以这样解读吗?
- ·有关壁免酿膛焰偷到底是什么情况?
- ·推出的又一款健康饮品
- ·关于混(hùn)淆(xiáo)是(shì)非(fēi)网
- ·阜脉睬忍有没有后续报道?
- ·关于如影随形又是个什么梗?
- ·随便进出仓库自己挑选肉品
- ·关于进山采药遇黑熊背后的逻辑是什么?
- ·我48岁还是黄花闺女新婚夜后在卧室连睡三天
- ·月亮是由什么构成的?
- ·宿(sù)育(yù)蠢(chǔn)诀(jué)会造成什
- ·四川内江一家三口17楼跳楼身亡警方介入调查
- ·全身抽脂要多少钱网友如何看?
- ·B级豪华轿车优等生奥迪A4LBO星夜版值得选择