You dont have javascript enabled! Please enable it!

专家解释AI人工智能中的监督学习与无监督学习区别

在有关人工智能技术的讨论中,监督学习往往最受关注,因为它通常是用于创建人工智能模型的最后一步,例如图像识别、更好的预测、产品推荐和线索评分。

相比之下,无监督学习往往是在开发生命周期的早期阶段在幕后工作: 它通常被用来为有监督学习的神奇展现搭建舞台,就像让管理者发光发热的粗活一样。两种模式都能有效地应用于业务问题,这一点将在下文中解释。

在技术层面上,有监督学习与无监督学习的区别主要在于用于创建算法的原始数据是经过预先标记的(有监督学习),还是未经预先标记的(无监督学习)。

让我们深入了解一下。

什么是监督学习?

在监督学习中,数据科学家向算法提供标注的训练数据,并定义他们希望算法评估相关性的变量。

什么是机器学习?深度指南

  • 其中还包括:
  • 解释机器学习的不同类型
  • 如何用 7 个步骤构建机器学习模型
  • CNN 与 RNN:它们有何不同?

算法的输入数据和输出变量都是在训练数据中指定的。例如,如果要使用监督学习来训练一种算法,以了解一张图片中是否有一只猫,那么就需要为训练数据中使用的每张图片创建一个标签,标明图片中是否有一只猫。

正如我们在 “监督学习 “的定义中所解释的那样: “[一种]计算机算法是在已标记为特定输出的输入数据上进行训练的。对模型进行训练,直到它能检测出输入数据和输出标签之间的基本模式和关系,使其在遇到从未见过的数据时能产生准确的标签结果”。常见的监督算法类型包括分类、决策树、回归和预测建模,您可以在 Arcitura Education 提供的机器学习教程中了解这些算法。

有监督的机器学习技术可用于多种业务应用中(见图 1),包括以下应用:

  • 个性化营销
  • 保险/信贷承保决策
  • 欺诈检测
  • 垃圾邮件过滤

什么是无监督学习?

在无监督学习中,适合这种方法的算法–K-均值聚类就是一个例子–是在无标记数据上训练出来的。它通过扫描数据集来寻找任何有意义的联系。换句话说,无监督学习确定的是数据中的模式和相似性,而不是将其与某些外部测量联系起来。

当你不知道自己在寻找什么时,这种方法很有用,而当你知道自己在寻找什么时,这种方法就不那么有用了。如果你向无监督算法展示成千上万或数百万张图片,它可能会将其中一部分图片归类为人类可以识别为猫科动物的图片。相比之下,根据猫科动物和犬科动物的标签数据训练出来的有监督算法能够以极高的置信度识别猫科动物的图片。但这种方法也有代价: 如果监督学习项目需要数百万张标注图像来开发模型,那么机器生成的预测结果就需要大量人力。

有一种中间方法:半监督学习。

专家解释AI人工智能中的监督学习与无监督学习区别Aaron Kalb

什么是半监督学习?

半监督学习是一种结合了这两种方法的捷径。半监督学习描述了一种特定的工作流程,其中使用了非监督学习算法来自动生成标签,并将其输入到监督学习算法中。在这种方法中,人类手动为一些图像贴标签,无监督学习猜测其他图像的标签,然后将所有这些标签和图像输入有监督学习算法,创建人工智能模型。

半监督学习可以降低机器学习中使用的大型数据集的标注成本。”企业数据目录平台公司Alation的创始人、现任风险投资公司Accel常驻企业家的亚伦-卡尔布(Aaron Kalb)说:”如果你能让人类为数百万样本中的0.01%贴上标签,那么计算机就能利用这些标签大幅提高预测准确率。

专家解释AI人工智能中的监督学习与无监督学习区别

图 1 机器学习模型 这些机器学习模型支持各种业务应用。

什么是强化学习?

另一种机器学习方法是强化学习。强化学习通常用于教会机器完成一系列步骤,它既不同于监督学习,也不同于无监督学习。数据科学家对算法进行编程,让它完成一项任务,在算法完成任务的过程中给予它积极或消极的提示或强化。程序员设定奖励规则,但让算法自己决定需要采取哪些步骤来最大化奖励,从而完成任务。

专家解释AI人工智能中的监督学习与无监督学习区别Shivani Rao

何时使用监督学习?

LinkedIn 知识图谱 AI/ML 经理 Shivani Rao 说,采用有监督或无监督机器学习方法的最佳实践往往取决于具体情况以及对数据和应用的假设。

使用有监督学习算法还是无监督机器学习算法的选择也会随着时间的推移而改变,Rao 说。在模型构建过程的早期阶段,数据通常是无标签的,而在建模的后期阶段,标签数据可能会出现。

例如,对于预测 LinkedIn 会员是否会观看课程视频的问题,第一个模型是基于无监督技术的。一旦这些推荐被送达,记录是否有人点击推荐的指标就会为生成标签提供新的数据。

LinkedIn 也采用了这种技术,用学生可能想掌握的技能来标记在线课程。作者、出版商或学生等人工标签者可以提供一份精确的课程教授技能清单,但他们不可能提供一份详尽的技能清单。因此,可以认为这些数据是不完全标记的。这类问题可以使用半监督技术来帮助建立更详尽的标签集。

专家解释AI人工智能中的监督学习与无监督学习区别Bharath Thota

咨询公司科尔尼(Kearney)的合伙人、数据科学和高级分析专家巴拉特-托塔(Bharath Thota)说,实际考虑因素也往往决定了他的团队选择使用监督学习还是无监督学习。

“Thota 说:”当有标记数据可用且目标是对未来观察结果进行预测或分类时,我们会选择监督学习。”当没有标记数据时,我们使用无监督学习,目标是从数据中识别模式或片段来构建策略。

卡尔布说,在 Alation 任职期间,数据科学家在内部将无监督学习用于各种应用。例如,他们开发了一种人机协作流程,用于将神秘的数据对象名称翻译成人类语言,如将 “na_gr_rvnu_ps “翻译成 “北美专业服务总收入”。在这种情况下,机器猜测,人类确认,机器学习。

“卡尔布说:”你可以把它看作是迭代循环中的半监督学习,创造了一个提高准确性的良性循环。

生成式人工智能:监督学习与无监督学习的协同作用

生成式人工智能以监督学习和无监督学习为基础,并对其进行补充。无监督学习旨在识别和理解现有数据中的潜在模式,而生成式人工智能则利用这些模式创建新的数据和内容–从音乐和视频到文本和代码。无监督学习通常用作 GenAI 的预训练技术,帮助它识别训练数据中的关键特征。在某些情况下,监督学习也是一种有用的工具,可以引导生成式人工智能识别其试图创建的内容的特定特征。

在我们的综合指南中了解有关生成式人工智能的更多信息。

5 种无监督学习技术

在高层次上,监督学习技术往往侧重于线性回归(将模型拟合到数据点集合中进行预测)或分类问题(图像中是否有一只猫?)

无监督学习技术通常是对有监督学习技术的补充,使用各种方法对原始数据集进行切分,包括以下方法:

  • 数据聚类。将具有相似特征的数据点分组,有助于更有效地理解和探索数据。例如,一家公司可能会使用数据聚类方法,根据客户的人口统计、兴趣、购买行为和其他因素将他们划分为不同的群体。
  • 降维。数据集中的每个变量都被视为一个单独的维度。然而,许多模型通过分析变量之间的特定关系,效果会更好。一个简单的降维例子是将利润作为一个维度,它代表收入减去支出–两个独立的维度。不过,使用主成分分析、自动编码器、将文本转换为向量的算法或 T 分布随机邻域嵌入等算法,可以生成更复杂类型的新变量。
  • 降维可以帮助减少过拟合现象,即模型在小数据集上运行良好,但在新数据上却不能很好地泛化。这项技术还能让公司以人类易于理解的二维或三维方式可视化高维数据。
  • 异常或离群点检测。无监督学习可帮助识别脱离常规数据分布的数据点。作为数据准备步骤,识别并移除异常点可提高机器学习模型的性能。
  • 迁移学习。这些算法利用的是在相关但不同的任务中训练出来的模型。例如,迁移学习技术可以很容易地对在维基百科文章中训练的分类器进行微调,从而用正确的主题标记任意的新类型文本。LinkedIn 的拉奥说,这是解决没有标签的数据问题最有效、最快捷的方法之一。
  • 基于图的算法。Rao 说,这些技术试图构建一个图形,捕捉数据点之间的关系。例如,如果每个数据点代表一个拥有技能的 LinkedIn 会员,那么就可以用一个图来表示会员,图中的边表示会员之间的技能重叠。图算法还可以帮助将已知数据点的标签转移到未知但密切相关的数据点上。无监督学习也可用于在不同类型的实体(源和目标)之间建立图谱。边缘越强,源节点与目标节点的亲和度就越高。例如,LinkedIn 已将其用于根据技能为会员匹配课程。

金融领域的监督学习与非监督学习

企业绩效管理平台 OneStream 软件公司首席执行官汤姆-谢伊(Tom Shea)说,监督学习通常用于财务领域,以建立高度精确的模型,而无监督技术则更适用于信封背面类型的任务。

在监督学习项目中,数据科学家与财务团队合作,利用他们在关键产品、定价和竞争洞察等领域的专业知识,作为需求预测的关键要素。在更细化的预测需求中,领域专业知识尤其重要,因为每个地区、产品甚至 SKU 都有独特的经验,需要直觉。从监督学习中得出的这类模型有助于提高预测准确性,并由此提高库存持有指标。

Shea 认为,无监督学习可用于改进不需要监督学习的直接领域知识的区域或部门管理工作。例如,无监督学习可以帮助识别一组相关物品的正常消费率和异常值。这在分析大型交易数据集(如订单、支出和发票)时尤其有用,还有助于提高财务结算流程的准确性。

编者注:本文已更新,以反映所咨询专家的当前职称,并增加了生成式人工智能与有监督和无监督学习之间联系的边栏。

乔治-劳顿(George Lawton)是驻伦敦的一名记者。在过去的 30 年中,他撰写了 3000 多篇关于计算机、通信、知识管理、商业、健康和他感兴趣的其他领域的报道。

© 版权声明

外贸建站推广

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...