现在入门“AI无监督学习”还来得及(9000字干货)
在人工智能领域,我们经常会听到“无监督学习”这个词。但是,很多人对于无监督学习的概念和原理并不太了解,甚至有些人可能会觉得这个概念有些高深莫测。
确实,看一些专业书籍是有些烧脑,我自己也是硬啃了一些内容,又看了一些相关课程视频之后,才有了比较清晰的了解,所以,写下本篇的我,希望以更容易理解的方式来介绍无监督学习。
Now let’s start!
我先说一下人工智能和机器学习之间的关系,再延伸到机器学习中的无监督学习。
人工智能(AI) 指的是使机器能够执行人类智能活动的一类技术。这包括了解语言、感知环境、学习和解决问题等任务。也就是说,人工智能的目标是使机器系统能够模拟人类的智能行为,以执行复杂的任务。
而机器学习(ML)是人工智能的一个特定分支,是一种通过从数据中学习并进行自动优化的方法,而不是通过明确的编程规则来实现任务。其目标是让机器分析大量数据并识别数据中的模式,并生成具有相关正确概率或可信度的结果。
换句话说,人工智能是一个更宽泛的概念,可让机器或系统像人类一样感知、推理、行动等,而机器学习是人工智能的一个子集,可让机器从数据中提取知识并自主学习,机器学习就像是实现人工智能目标的一种手段。
机器学习有不同类型,主要分为监督学习、无监督学习、半监督学习及强化学习。其中,无监督学习(Unsupervised learning)就是机器学习中的一种核心学习方式,也是数据科学的一个重要分支。也是我们本篇要重点介绍的内容。
全文9000字左右,预计阅读时间15分钟,若是碎片时间不够,建议先收藏后看,便于找回。
照例,开篇提供本篇文章的目录大纲,方便大家在阅读前总揽全局,对内容框架有预先了解。
一、什么是无监督学习?
无监督学习很像人类的自学过程,我们人类主要通过观察、感知和互动,从而形成对世界的认知和理解,我们的学习方式有分类,归纳,推理等,我们从大量的信息中去找到规则、规律、结构、关系等模式来完成学习,这和无监督学习有异曲同工之处。
当我们类比人类的学习,来看无监督学习时,可以理解成这就是AI的自我学习。他们不像监督学习那样被“送进学校”进行全面的训练。在无监督学习中,我们向人工智能提供数据,然后它必须自己学习如何理解这些数据。
也正是因为这个特点,无监督学习常用于数据挖掘领域,通过构建模型来为业务决策提供依据。或用于寻找隐藏在数据中的重要变量或特征,或用于识别模式或学习聚类,有些甚至可以教会自己一套行为策略,又或者可以自我监督。
为了更好地理解无监督学习,我们来打个比方。
我们让AI扮演一位图书管理员,让它发挥“无监督学习”的技能,负责整理图书馆里的书籍。
但这个图书馆非常特别,它没有书籍的分类标签,也没有任何指示告诉AI哪些书应该放在一起。AI的任务就是找出书籍之间的潜在联系,并将它们分组成类似的主题或类别。
在这个场景中,书籍就是数据,而找出书籍之间的潜在联系的过程就是无监督学习。这个过程中没有明确的指导,只能通过观察书籍的内容、封面、出版年份等特征,来推断它们可能的关联,并据此进行分类。
也正因如此,研究无监督学习就变成一件很有意思的事情,不知道你是否也会好奇,在没有所谓的“标准答案”的前提下,无监督学习是如何完成任务的呢?
我们可以从无监督学习的亮点,局限,以及它和监督学习的区别中,找到一些答案。
二、无监督学习有哪些亮点?
在无监督学习中,AI不再依赖已知的标签信息来指导学习过程,而是借助算法自行探索数据中的内在结构和模式。在此基础原理上,我们可以发现无监督学习的很多亮点。
1. 无标签指导
无监督学习的主要特点是在训练阶段缺乏标签或类别信息的指导,AI无法依赖已有的“答案”来完成学习,它需要从大量未标记的数据中,找出潜在的模式和关联。
也正是因为这个特点,在处理大量的、复杂的、高维的数据时,无监督学习就能发挥很大的作用。因为在现实世界中,大量的数据都是未标记的,比如互联网上的文本、图片、视频等。如果我们仅仅依赖于监督学习,那么这些数据的价值就无法得到充分的挖掘。
2. 发现数据内在结构
无监督学习通过对数据进行建模,来发现数据中的内在结构和关系,这个过程可以借助不同的算法来实现,比如聚类算法,降维算法,异常检测等。
聚类算法可以将相似的数据点分到同一个类别中,从而发现数据中的潜在结构。降维算法可以减少数据的维度,同时保留数据中的有用信息,从而帮助我们发现数据中的潜在模式。异常检测可以识别数据中的异常或离群点,从而帮助我们更好地理解数据的分布情况。
在许多应用场景中,获取标注数据需要大量的时间和金钱。无监督学习可以在未标注的数据中发现规律和模式,还有利于降低标注成本。
目前,AI的无监督学习水平还是很让人惊艳的,最新上市的Sora视频生成模型技术,就引起了较大的市场关注。
3. 自主学习
无监督学习得以不依赖数据标签的情况下,从大量的数据中发现模式和关系,这就凸显出了“自主学习”的亮点。
凭借着这个亮点,无监督学习就像是一个人掌握了对未知世界的探索和学习能力一样,放眼大千世界,都是无标签数据,无监督学习具备了很强的灵活性和适应性来学习一切。
自主学习注重模型对数据的主动探索,强调模型对数据内在关系的学习,还强调AI对数据整体性的理解,就像人类在遇到一些问题时,要有探索精神,会钻研学习并分析规律,先纵观全局后再逐步突破的模式很像。
就拿数据整体性来说吧,模型通过对整体数据的学习,能够更好地理解数据的整体布局。模型产生的学习结果就可以更一致和准确,很显然,就会提高模型的泛化能力。
4. 应用场景广泛
无监督学习的应用范围极为广泛,涵盖了众多领域和场景。
在商业领域,无监督学习被广泛应用于客户细分。通过分析消费者的购买历史、浏览行为和偏好,无监督学习可以帮助企业识别出不同的客户群体,从而实现更加精准的市场营销策略。
例如,通过聚类算法,企业可以将客户分为高价值客户、潜在客户和流失客户等不同群体,并根据这些群体的特征制定个性化的促销活动。
而市场分析,则是另一个无监督学习的用武之地。
通过对大量市场数据进行分析,无监督学习可以帮助企业和研究人员发现市场趋势、消费者行为模式和市场细分。这种分析可以帮助企业更好地理解市场需求,预测市场变化,并据此调整产品策略和营销计划。
在图像处理领域,无监督学习被用于图像分割和特征提取。(图像分割是指将图像划分为多个部分或对象,每个部分代表一个特定的区域或对象)。无监督学习可以通过分析图像中的像素强度、颜色和纹理等特征,自动识别和分割图像中的对象。
特征提取则是指从图像中提取出对后续任务有用的信息。无监督学习可以通过降维和特征选择等技术,从高维的图像数据中提取出关键特征,用于图像识别、分类和检索等任务。
不仅如此,无监督学习几乎没有行业边界。在生物信息学中,无监督学习可以帮助研究人员分析基因表达数据,识别出不同的基因模式和功能模块。
到了文本挖掘领域,无监督学习可以通过主题模型等技术,发现文本数据中的隐藏主题和语义结构。
再到社交网络分析中,无监督学习可以帮助识别社区结构、关键影响者和信息传播路径。
如果是在推荐系统中,无监督学习可以通过分析用户行为和偏好,提供个性化的推荐。
简单地说,无监督学习的应用场景广泛的亮点将给AI带来广阔的市场空间,在各行各业都有它的用武之地。
三、无监督学习有哪些局限?
当人工智能自学时,它们并不能保证完全能理解所学的内容。在无监督学习中,当没有正确和错误的例子作为“参考答案”时,人工智能的准确性可能更难提高。
“人类和动物的大部分学习都是无监督学习,”脸书的首席人工智能科学家杨立昆说,“如果智能是一块蛋糕,无监督学习就是蛋糕体,监督学习就是蛋糕上的糖衣,而强化学习就是蛋糕上的樱桃。我们知道如何制作糖衣和樱桃,但我们还不知道如何制作蛋糕体。”
由此可见,无监督学习除了具备诸多亮点以外,也同时存在着一些局限性,这些局限性也是AI领域的研究人员需要去突破,去克服的挑战。
1. 学习过程不透明
无监督学习可以发现和利用数据中的内在结构,这种特点很好,但也同样带来了局限,就是模型的学习过程不透明。这意味着无监督学习模型通常难以提供对学习过程的清晰解释,这也导致我们难以理解模型是如何对数据进行学习和做出预测的。
也正因如此,我们对模型就无法形成绝对的信任。在许多应用场景中,尤其是在需要高度责任和透明度的领域(如医疗、金融等),模型的不透明性可能导致人们对其结果持怀疑态度。
同时,它也限制了模型的可用性。当我们无法理解模型的工作原理时,我们就难以对其进行改进或调整,也难以将其与其他模型或方法结合使用。
我们就看市面上诸多的聊天对话AI产品,它们会根据我们提供的问题给我们不同的反馈,但是用户通常是不清楚AI模型是经过了什么样的数据处理过程后,给出了回答。
回答的质量也不稳定,有时候回答得很专业、全面。有时候又回答得牛头不对马嘴,或者都是一些空泛的废话,甚至有时候还会一本正经地胡说八道,如果没有一定的判断能力,被AI的信息误导也是很有可能的。
如果我们想要得到一些精准有效的答案,就需要尝试和摸索出一些Prompt来调控AI的回答质量。这一切的一切,都是因为AI模型的学习过程不透明,我们不清楚从输入到输出的这个过程中,AI的神经网络内部具体发生了什么。
为了克服这些挑战,研究人员正在努力提高无监督学习模型的可解释性。一种方法是开发新的算法和技术,让模型在学习过程中能够提供更多的解释信息。另一种方法是结合其他领域的技术和方法,如可视化、人机交互等,来帮助人们更好地理解模型的工作原理。
2. 对异常数据敏感
由于不依赖于外部提供的标签信息,无监督学习算法必须直接从数据本身中提取信息,这意味着数据中的每一个细节都可能对学习结果产生重大影响。
如果数据集中存在着异常数据,就像画布上有污点或者颜色不均匀一样,最终的作品多少都会受到影响。在无监督学习中,数据中的噪声和异常值就像画布上的“污点”,可能会扭曲算法对数据内在结构的理解,导致学习结果的不准确。
BTW,补充解释一下知识点:噪声和异常值。
噪声是指数据中的随机误差,它们可能是由于测量不准确、数据传输错误或者数据本身的随机波动所造成。在无监督学习中,噪声可能会导致算法错误地将某些模式识别为重要的结构,或者忽视了真正的模式。这就好比在嘈杂的环境中尝试聆听一个微弱的声音时,噪声可能会让你误解或者错过重要的信息。
异常值则是指那些与大多数数据显著不同的数据点。在无监督学习中,异常值可能会对聚类结果产生显著影响,导致算法创建出不符合数据真实分布的簇。这就像是在一群人中,有几个人的身高异常高大或者矮小,如果你仅仅根据身高来分组,这些异常值可能会导致你的分组策略失效。
由于这些敏感性,无监督学习算法在应用时需要对数据进行严格的预处理,包括数据清洗、去除噪声和异常值、特征选择和缩放等。这些步骤可以帮助提高数据的质量,减少对学习结果的不利影响。
3. 难以准确评估模型性能
无监督学习作为一种重要的机器学习方法,由于其不依赖外部标签的特性,在某些场景下,我们难以通过一些量化指标来评估模型性能,这就意味着,之前我们提到的例如准确率、召回率、F1分数等指标,用来评估监督学习模型的准确性有用,但评估无监督学习的模型性能就不再适用了。
插一嘴,关于评估监督学习中AI模型性能的数据指标,我在这篇《产品经理的独门技能—AI监督学习(6000字干货)》中有详细介绍,感兴趣的可以看看。
也正因如此,无监督学习模型的评估往往更加复杂和主观。在评估无监督学习模型的性能时,需要综合考虑多种方法,比如内部评估法、比较法、可视化方法等,并结合领域专家的参与和判断,才能得到较为可靠和全面的评估结果。
不过,我相信这只是暂时的,随着无监督学习研究的深入和应用的拓展,未来会出现更多有效的评估方法和指标,以促进无监督学习技术的发展和应用。
4. 难以选择合适的模型
无监督学习领域包含了多种算法,如聚类、降维、自编码器、生成对抗网络(GANs)等。每种算法都有其特定的适用场景和假设条件。这些算法不仅多样还复杂,我们需要对算法有深入的了解,才能选择一个适合特定数据集和问题的模型来应对具体的场景。
场景多样,算法复杂,又没有可量化的评估指标,还有许多超参数需要调整,这些因素都导致了我们在实际应用中,难以选择合适的模型,拿着不合适的模型去参与训练,自然也无法达到理想的训练结果。
四、监督学习和无监督学习的区别
监督学习和无监督学习都是机器学习领域的核心方法,监督学习是一种基于有标签数据的机器学习方法,需要通过给定样本集目标和规则参数来进行学习。无监督学习是一种基于无标签数据的机器学习方法,基于海量数据寻找相似性和内在关联。
在实际应用中,监督学习与无监督学习各展所长,监督学习在图像识别、语音识别、自然语言处理等领域给我们的生活带来新的便利。而无监督学习则在数据挖掘、推荐系统、社交网络分析等领域崭露头角,为大数据时代提供了全新的视角,如客户细分、异常检测等。
“两仪生四象,四象生八卦”,监督学习与无监督学习这两大高手配合,我们的未来充满了新的可能。
接下来,我们就来一起看看监督学习和无监督学习有哪些区别?
1. 数据标注不同
监督学习和无监督学习在数据标注的要求和方式上不同。前者使用有标签的数据集,而后者使用无标签的数据集,我们分别展开说一下。
【监督学习】:
监督学习使用的是有标注的数据集进行训练。依赖于有标签的数据就意味着每个训练样本都有一个对应的输出标签或目标,这些标签或目标通常由专家或通过其他方法预先标注好。
例如,在图像识别任务中,如果要识别出不同动物,训练集中的每张图片都已经标注了它所代表的动物类别。监督学习算法会学习图像的像素特征与对应的类别标签之间的关系,以便对未知图像进行分类。
【无监督学习】:
无监督学习使用的是未标注的数据集进行训练。没有明确的输出目标,模型需要自行发现数据中的结构或模式。
假设一家大型零售公司希望了解其客户群体的结构和购买行为,以更好地定制营销策略。公司拥有大量的客户交易数据,但这些数据没有预先标注的客户类别或细分市场信息。
无监督学习可以分析客户的购买历史、消费频率、平均消费额等特征,无需任何外部指导,自行识别出不同的客户群体。
2. 学习目标不同
监督学习和无监督学习在学习目标上也不同,前者关注于学习输入与输出之间的映射关系,而后者关注于发现数据中的潜在结构和模式。
【监督学习】:
监督学习的目标是学习一个函数,该函数能够将输入映射到相应的输出。模型通过最小化预测值与实际标签之间的差异来进行训练。
如果是在一个推荐系统中,监督学习可以用于根据用户的历史行为数据预测用户可能感兴趣的商品
【无监督学习】:
相比之下,无监督学习的目标更似雾里看花,它的目标是发现数据中的隐藏结构或模式,而不关注具体的输出。AI模型需要自行捕捉出数据的内在关系,如聚类、降维等。
同样是在一个推荐系统中,无监督学习可以用于发现用户之间的相似性,从而实现个性化推荐。
3. 算法类型不同
监督学习和无监督学习在算法类型上的差异主要体现在它们各自适用的任务和解决问题的方法上。监督学习算法主要用于解决分类和回归问题,而无监督学习算法主要用于发现数据中的模式和结构。
【监督学习】
监督学习算法主要包括那些用于解决分类和回归问题的算法。分类问题涉及将数据点分配到不同的预定义类别中,而回归问题则涉及预测一个连续的数值。
常见的监督学习算法包括:
线性回归(Linear Regression):用于预测连续数值输出的算法,通过拟合线性模型来描述输入和输出之间的关系。
逻辑回归(Logistic Regression):用于二分类问题的算法,通过逻辑函数建模,输出为概率值。
决策树(Decision Trees):通过树状结构进行决策,适用于分类和回归问题。
支持向量机(Support Vector Machines,SVM):用于分类和回归问题的算法,通过找到最大化类别间间隔的超平面。
K最近邻(K-Nearest Neighbors,KNN):基于实例的学习方法,通过测量输入与训练集中最近邻的距离进行分类。
随机森林(Random Forest):集成学习算法,由多个决策树组成,用于分类和回归。
【无监督学习】
无监督学习算法不依赖于外部提供的标签信息,它们可以用于探索数据集的潜在特征、减少数据的维度、发现数据中的异常点或对数据进行聚类。
常见的无监督学习算法包括:
K均值聚类(K-Means Clustering):将数据分为K个簇,每个簇包含相似的数据点。
层次聚类(Hierarchical Clustering):基于层次结构将数据点组织成树状图,逐步合并或拆分簇。
主成分分析(Principal Component Analysis,PCA):降维算法,通过找到数据中的主成分来减少特征的维度。
独立成分分析(Independent Component Analysis,ICA):寻找数据中相互独立的成分,常用于信号处理。
自编码器(Autoencoders):一种神经网络结构,用于学习数据的压缩表示,常用于降维和特征学习。
关联规则学习(Association Rule Learning):用于发现数据集中的关联规则,例如Apriori算法。
高斯混合模型(Gaussian Mixture Model,GMM):一种概率模型,可以用于聚类和密度估计。
流形学习(Manifold Learning):用于学习数据的低维表示,以更好地捕捉数据的内在结构。
4. 性能评估不同
因为数据训练的方式和目标都不一样,所以对无监督学习和监督学习的性能评估方式也不同。
【监督学习】
监督学习的性能评估相对直接,通常通过与真实标签的比较来衡量。在这种情况下,评估指标包括准确率、召回率、F1分数等。这些指标用于衡量模型在不同方面的性能,例如正确分类的比例、模型对正例的捕获能力等。
在《产品经理的独门技能—AI监督学习(6000字干货)》中有更多关于评估AI数据指标的详解,感兴趣的可以看看。
结合数据集后,监督学习通常将数据划分为训练集和测试集,模型在训练集上学习,然后在测试集上评估性能。还可能使用验证集进行模型调优。
【无监督学习】
相比之下,无监督学习的性能评估会更复杂一些,这也是因为无标签数据来训练模型,量化评估的方式在无监督学习身上就不起作用。
无监督学习的评估通常依赖于内部评估指标或与多个算法进行比较。例如,在聚类任务中,评估指标可能包括簇内相似性和簇间差异性,以及在聚类趋势、数据簇数和聚类质量方面的考量。
我们先认识一下“什么是簇”。在聚类分析中,簇是指具有相似特征的数据点的集合。聚类是一种无监督学习方法,其目标是将数据集中的样本划分为不同的簇,使得同一簇内的样本相似度较高,而不同簇之间的相似度较低。
我们再看“簇内相似性”。簇内相似性是指在聚类问题中,同一簇内的样本彼此之间的相似程度或接近度。
对于一个包含多个样本的簇,簇内相似性的高低反映了这些样本在特征空间中的紧密程度。如果同一簇内的样本足够相似,即它们在特征空间中的距离较小,那么簇内相似性就会较高。相反,如果簇内的样本相差较大,相似性就会较低。
知道了“簇内相似性”,我们再来看“簇间差异性”。在聚类分析中,簇间差异性是指不同簇之间的差异程度。它是通过衡量不同簇之间样本的分离程度来评估聚类质量的一个指标。
簇间差异性越大,表示不同簇之间的样本差异越显著,聚类效果越好。好的聚类应该使得同一簇内的样本相似,而不同簇之间的样本有较大的差异。
在实际应用中,簇间差异性的评估有助于选择合适的聚类数目,优化聚类算法的参数,以及理解数据的聚类结构。
此外,无监督学习算法的性能评估还可能涉及到将无监督学习转化为监督学习的方法。这种方法涉及生成伪标签,然后使用监督学习中的评估指标。
5. 应用场景不同
监督学习更适用于已知目标和标签的应用场景 ,而无监督学习更适用于数据探索和结构发现的应用场景。在实际应用中,它们的选择依赖于问题的性质、数据的可用性以及建模的目标。
【监督学习】:
监督学习适用于那些已知输出情况下的问题,包括图像分类、语音识别、自然语言处理等领域。应用场景也比较比较广泛,比如识别照片中的对象、检测图像中的异常(如疾病检测)或对图片进行分类(如区分不同类型的花朵)。
在语音识别中,监督学习算法能够识别和转录语音信号,应用于语音助手、自动字幕生成和语音到文本转换。
在自然语言处理(NLP)中,监督学习用于文本分类(如垃圾邮件检测)、情感分析(判断文本表达的情感是正面还是负面)、机器翻译(如将一种语言翻译成另一种语言)和实体识别(识别文本中的特定实体,如人名、地点或组织)。
总之,这些应用场景的共同特点是它们都涉及对输入数据(如图像、文本、声音等)进行分类、回归或其他预测任务,并且都有足够的标注数据来训练模型。其实,这也是对应了监督学习的自身特点。
【无监督学习】:
与监督学习相对应的无监督学习,主要用于发现数据的潜在结构,而不需要预先知道输出。因此,在数据探索、特征学习等场景中,无监督学习能发挥较大的作用。
假设,我们有一个包含大量未标注文本的数据集,我们希望找到其中的主题结构。无监督学习的主题建模算法可以帮助我们自动识别文本中的主题,而无需预先定义每个文本的主题标签。
在我们日常会接触到的工作和生活中,无监督学习可以通过分析社交网络中的用户行为、互动和内容,帮助识别社区结构、关键影响者和信息传播路径。
在图像处理中,无监督学习可以用于自动分割图像中的对象,这在医学影像分析中尤其有用,如自动识别和分割肿瘤组织。
无监督学习还可以用于识别时间序列数据中的模式和趋势,如股票价格走势分析、天气模式预测等。
看了多个场景后,我们就能发现无监督学习的应用场景共性,就是它们都需要处理大量未标记的数据,并从中提取有用的信息和结构。无监督学习也正是现在的热门研究领域,相信其未来一定会发挥更大的作用。
五、总结与预告
在最后,我们来总结一下,本篇首先介绍了无监督学习的基本概念,它是一种机器学习方法,不需要外部标签或指导,能够自主发现数据中的结构和模式。
第二段介绍了无监督学习的亮点,无需人工标注大量数据,能够发现数据内在结构,能实现自主学习,也能适用于广泛的场景。
在第三段,提到了无监督学习的局限,如学习过程不透明,对异常数据敏感,难以准确评估模型性能,以及难以选择合适的模型。
最后,我将监督学习与无监督学习进行了对比,两者在数据标注、学习目标、算法类型、性能评估和应用场景等方面都有所不同,各有千秋。
关于无监督学习的内容不仅仅只有这些,我也会在此平台持续更新关于无监督学习和AI相关知识的更多内容。
简单预告一下,后续的篇章我会继续和大家聊聊无监督学习,会涉及到无监督学习的算法,无监督学习的落地场景和产品案例等内容。
AI的天空很广,我们一起飞翔。
作者:果酿,公众号:果酿产品说
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!