You dont have javascript enabled! Please enable it!

什么是监督学习?

监督学习是(ML)和人工智能(AI)的一个子类别,其中计算机算法在已标记的输入数据上进行训练,以获得特定的输出。模型经过训练后,能够检测输入数据与输出标签之间的潜在模式和关系,从而在面对从未见过的数据时产生准确的标签结果。

在监督学习中,目标是在特定问题的背景下理解数据。监督学习擅长回归和分类问题,例如确定一篇新闻文章属于哪个类别,或预测某个未来日期的销售量。组织可以在异常检测、欺诈检测、图像分类、风险评估和垃圾邮件过滤等过程中使用监督学习。

与监督学习相对的是无监督学习。在这种方法中,算法处理未标记的数据,旨在自主检测模式或相似性,下面将对此进行更详细的描述。

监督学习是如何工作的?

与所有机器学习算法一样,监督学习基于训练。在训练阶段,系统接收标记的数据集,指示系统每个特定输入值与哪个输出变量相关。训练完成后,模型将接收测试数据。这些数据已经被标记,但标签尚未透露给算法。测试数据的目的是衡量算法在未标记数据上的准确性。

本文为

什么是机器学习?指南、定义和示例

  • 还包括:
  • 不同类型的机器学习解释
  • 如何在7个步骤中构建机器学习模型
  • CNN与RNN:它们有什么不同?

设置监督学习的一般基本步骤包括:

  • 确定将用作训练集的训练数据类型。
  • 收集标记的训练数据。
  • 将训练数据划分为训练、测试和验证数据集。
  • 确定用于ML模型的算法。
  • 使用训练数据集运行算法。
  • 使用F1分数和对数分数等不同指标评估模型的准确性。如果模型预测的输出正确,那么它就是准确的。
  • 定期监控模型的性能,并根据需要进行更新。模型可能需要使用新数据进行重新训练,以确保其准确性和相关性。

例如,可以通过向算法提供大量标记的猫和狗的图像训练其识别猫和狗。该训练数据将是更大数据集中照片的一个子集。训练完成后,模型应能够预测图像的输出是猫还是狗。另一组图像可以通过算法运行以验证模型。

监督学习在神经网络中是如何工作的?

在神经网络算法中,监督学习过程通过不断测量模型的输出结果并微调系统以接近目标准确度来改进。可获得的准确度水平取决于两个因素:可用的标记数据和所使用的算法。此外,以下因素会影响该过程:

  • 训练数据必须平衡且清洗干净。垃圾或重复数据会扭曲AI的理解;因此,数据科学家必须谨慎处理模型训练所用的数据。
  • 数据的多样性决定了AI在面对新案例时的表现;如果训练数据集中样本不足,模型可能会出现问题,无法提供可靠的答案。
  • 高准确性,矛盾的是,不一定是一个好的指标。这也可能意味着模型遭受过拟合,即它对特定的训练数据集进行了过度调优。这样的数据集在测试场景中可能表现良好,但在现实世界挑战中却会表现糟糕。为避免过拟合,测试数据必须与训练数据不同,以确保模型不是从先前的经验中得出答案,而是使模型的推断具有普遍性。
  • 另一方面,算法决定了如何使用这些数据。例如,深度学习算法可以从数据中提取数十亿个参数,并达到前所未有的准确性,正如OpenAI的GPT-4所展示的那样。

监督学习的类型

除了神经网络,还有许多其他监督学习算法。这些算法主要生成两种结果:分类和回归。

分类模型

分类算法旨在根据其训练所依据的标记数据将输入分为一定数量的类别或类。分类算法可用于二元分类,例如将图像分类为狗或猫,将电子邮件过滤为垃圾邮件或非垃圾邮件,以及将客户反馈分类为积极或消极。

分类机器学习技术的示例包括:

  • 决策树将数据点从树干分隔到分支,然后到叶子,创建类别内的小类别。
  • 逻辑回归分析自变量以确定落入两个类别之一的二元结果。
  • 随机森林是决策树的集合,从多个预测器中收集结果。与决策树相比,它在泛化能力上更强,但可解释性较差。
  • 支持向量机在模型训练期间找到一条线,将特定集合中的数据分为特定类,并最大化每个类的边际。这些算法可用于比较相对财务表现、价值和投资收益。
  • 朴素贝叶斯是一种广泛使用的分类算法,通常用于文本分类和大规模数据的任务。

回归模型

回归任务不同,因为它们期望模型在输入和输出数据之间产生数值关系。机器学习中回归算法的示例包括根据邮政编码预测房地产价格,根据时间预测在线广告的点击率,以及根据客户的年龄确定他们愿意为某种产品支付多少。

在监督学习程序中常用的算法包括:

  • 贝叶斯逻辑分析统计模型,同时结合关于模型参数或模型本身的先前知识。
  • 线性回归基于另一个变量的值预测变量的值。
  • 非线性回归用于当输出无法从线性输入重现时。在这种情况下,数据点共享非线性关系;例如,数据可能具有非线性、曲线趋势。
  • 回归树是一种决策树,其中可以从目标变量中获取连续值。
  • 多项式回归通过将多项式方程拟合到数据中,能够建模输入特征与输出变量之间更复杂的关系。

选择监督学习算法时,有几个考虑因素。首先是算法中存在的偏差和方差,因为在灵活性和过于灵活之间有一条微妙的界限。另一个是系统试图学习的模型或函数的复杂性。如前所述,在选择算法之前,还应分析数据的异质性、准确性、冗余和线性。

监督学习与无监督学习

监督学习与无监督学习之间的主要区别在于算法的学习方式。

在无监督学习中,算法以未标记的数据作为训练集。与监督学习不同,没有正确的输出值;算法确定数据中的模式和相似性,而不是将其与某种外部测量相关联。换句话说,算法可以自由地学习更多关于数据的知识,并发现人类未曾寻找的有趣或意外的发现。

无监督学习在聚类算法中很受欢迎,即揭示数据中的组,以及关联,即预测描述数据的规则。

由于ML模型自主发现数据中的模式,因此模型可能不会像监督学习那样进行相同的分类。在猫和狗的例子中,无监督学习模型可能会标记猫和狗之间的差异、相似性和模式,但无法将它们标记为猫或狗。

然而,需要注意的是,这两种方法都提供了特定的优势,并且经常结合使用以优化输出。例如,无监督学习可以帮助预处理数据或识别可用于监督学习模型的特征。

什么是监督学习?
机器学习模型,包括监督学习和无监督学习,都需要相关的算法来完成其任务。

监督学习的优缺点

监督学习模型相较于无监督学习方法具有一些优势,但也存在局限性。监督学习的优点包括:

  • 监督学习系统更可能作出与人类相关的判断,因为人类为决策提供了基础。
  • 由于有额外的经验帮助,性能标准得以优化。
  • 能够执行分类和回归任务。
  • 用户可以控制训练数据中使用的类别数量。
  • 模型可以基于先前的经验进行预测输出。
  • 对象的类别以精确的术语标记。
  • 适用于具有明确结果和明确定义目标变量的任务,因为它涉及在已知输入和相应结果或标签的数据上训练模型。

监督学习的局限性包括:

  • 在基于检索的方法中,监督学习系统在处理新信息时存在困难。如果一个有猫和狗分类的系统遇到新数据——比如一只斑马——它必须错误地将其归入某一类别。然而,如果AI系统是生成性的——即无监督的——它可能不知道斑马是什么,但能够识别它属于一个独立的类别。
  • 监督学习通常需要大量正确标记的数据才能达到可接受的性能水平,而这种数据可能并不总是可用。无监督学习不受此问题影响,并且可以处理未标记的数据。
  • 监督模型可能耗时,因为模型在使用之前需要时间进行训练。
  • 监督学习算法无法独立学习,需要人工干预以验证输出变量。

半监督学习

在需要监督学习但缺乏高质量数据的情况下,半监督学习可以是合适的学习方法。该学习模型介于监督学习和无监督学习之间;它接受部分标记的数据,即大部分数据缺乏标签。

半监督学习的一些关键好处包括:

  • 当有大量未标记的数据可用,但标记所有数据的成本过高或困难时,半监督学习非常有用。半监督学习确定数据点之间的相关性——就像无监督学习一样——然后使用标记的数据来标记这些数据点。最后,整个模型基于新应用的标签进行训练。
  • 半监督学习可以产生准确的结果,并适用于许多现实世界的问题,其中少量标记的数据会阻止监督学习算法正常运行。一般来说,包含至少25%标记数据的数据集适合进行半监督学习。例如,面部识别非常适合半监督学习;不同人的大量图像根据相似性进行聚类,然后用标记的图片进行理解,为聚类的照片赋予身份。

半监督学习的示例包括文本分类、图像分类和异常检测。

监督学习的关键用例和示例

监督学习在各个行业中有许多用例。监督学习的一个可能用例是新闻分类。一种方法是确定每篇新闻属于哪个类别,例如商业、金融、技术或体育。为了解决这个问题,监督模型将是最佳选择。人类会向模型提供各种新闻文章及其类别,并让模型学习每个类别对应的新闻类型。这样,模型就能够根据先前的训练经验识别任何文章的新闻类别。

然而,人类可能还会得出结论,基于预定类别对新闻进行分类并不足够信息丰富或灵活,因为一些新闻可能涉及气候变化技术或行业中的劳动力问题。新闻文章数量庞大,将其分为40或50个类别可能是过于简化。相反,更好的方法可能是寻找新闻文章之间的相似性,并据此对新闻进行分组。这意味着查看新闻聚类,而不是具体类别,类似的文章将被聚在一起,而没有特定的类别。

其他常见的监督学习用例包括:

  • 预测分析。预测分析在监督学习中被广泛使用,因为模型可以在已知结果的过去数据上进行训练,以对以前未见过的数据进行预测。
  • 回归分析。在回归分析中,监督学习模型从一个或多个输入变量预测连续输出变量。这种方法通常用于预测股票价格和根据各种因素估计薪资等任务。
  • 分类任务。监督学习的主要用例之一是分类任务。分类根据预定义的类别或类预测新数据属于哪个类别。电子邮件的垃圾邮件检测、图像分类和物体识别是一些分类工作的示例。
  • 欺诈检测和风险管理。金融行业使用监督学习进行投资组合管理、欺诈检测和风险管理。例如,它用于银行欺诈检测,以识别异常活动和需要更深入研究的可疑在线交易。
  • 个性化推荐。电子商务和流媒体平台使用监督学习根据用户的过去互动和兴趣提供个性化推荐。
  • 医疗任务。监督学习在医疗领域应用于疾病诊断、患者结果预测以及根据患者数据提供个性化治疗计划和建议等任务。
  • 自动驾驶汽车。监督学习在汽车行业用于自动驾驶功能。例如,车辆与车辆、车辆与基础设施之间的通信数据用于评估道路状况、交通模式和潜在危险。
  • 语音识别。在语音识别的背景下,监督学习用于理解和处理人类语言,整合语法、句法以及音频和语音信号的结构,以理解口语。虚拟助手如Siri和Alexa,以及许多转录服务,都是由监督学习驱动的。
  • 客户情感分析。组织使用监督机器学习算法从大量数据中提取和识别相关信息——如上下文、情感和意图——进行客户情感分析。这可以帮助组织更好地理解客户互动并改善品牌参与度。
  • 信用评分。监督学习用于评估贷款申请人的信用worthiness。一个标记的数据集,包括关于过去申请人的历史信息,如信用历史、收入、就业状态和其他相关因素,用于训练机器学习算法。

了解监督学习、无监督学习、半监督学习和强化学习之间的比较。此外,探索不同类型的AI算法及其工作原理。

© 版权声明

外贸建站推广

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...