聚类和分类技术用于机器学习,信息检索,图像调查和相关任务中。

这两种策略是数据挖掘过程的两个主要部分。 在数据分析世界中,这些对于管理算法至关重要。 具体来说,这两个过程都将数据分为几组。 在当今的信息时代,这项任务非常重要,因为需要适当地促进大量数据的增长和发展。

值得注意的是,聚类和分类有助于通过数据科学解决犯罪,贫困和疾病等全球性问题。

什么是聚类?

基本上,聚类涉及根据数据的相似性对数据进行分组。它主要涉及距离度量和聚类算法,它们计算数据之间的差异并将其系统地划分。

例如,将具有相似学习风格的学生分组在一起,并与具有不同学习方法的学生分开教授。在数据挖掘中,聚类最常被称为“无监督学习技术”,因为分组是基于自然或固有特性的。

它被应用于多个科学领域,例如信息技术,生物学,犯罪学和医学。

聚类的特征:

  • 没有确切的定义
    聚类没有精确的定义,这就是为什么存在各种聚类算法或聚类模型的原因。粗略地说,这两种聚类是硬的和软的。硬集群涉及将对象标记为仅属于集群或不属于集群。相比之下,软聚类或模糊聚类指定了事物如何属于某个组的程度。

  • 难以评估
    由于其固有的不精确性,通常难以确定对聚类分析结果的确认或评估。

  • 无监督
    由于这是一种无监督的学习策略,因此分析仅基于当前功能; 因此,不需要严格的法规。

什么是分类?

分类需要为现有情况或类别分配标签; 因此,术语“分类”。 例如,表现出某些学习特征的学生被归类为视觉学习者。
分类也称为“监督学习技术”,其中机器从已经标记或分类的数据中学习。 它非常适用于模式识别,统计和生物识别。

分类特征

  • 使用“分类器”
    为了分析数据,分类器是一种已定义的算法,可将信息具体映射到特定类。 例如,分类算法将训练模型以识别某个细胞是恶性还是良性的。

  • 通过通用指标进行评估
    分类分析的质量通常通过精度和召回率来评估,这是流行的度量程序。 评估分类器的准确性和灵敏度,以识别输出。

  • 监督
    分类是一种有监督的学习技术,因为它根据可比较的特征分配先前确定的身份。 它从标记的训练集中推导一个功能。

聚类 分类
无监督数据 监督数据
不高度重视培训集 高度重视训练集
仅适用于未标记的数据 涉及未标记和标记的数据
旨在识别数据之间的相似性 旨在验证基准属于
指定所需的更改 未指定所需的改进
一个阶段 有两个阶段
确定边界条件不是最重要的 确定边界条件对于执行阶段至关重要
一般不处理预测 处理预测
主要采用两种算法 有多种可能的算法要使用
流程不那么复杂 流程更复杂

总结

  • 聚类分析和分类分析在数据挖掘过程中都被高度采用。
  • 这些技术被应用于解决全球问题必不可少的众多科学中。
  • 通常,集群处理非监督数据;因此,没有标签,而分类适用于监督数据;因此,被标记。这是聚类在分类时不需要训练集的主要原因之一。
  • 与聚类相比,与分类相关的算法更多。
  • 聚类旨在验证数据之间的相似性或异同性,而分类则侧重于确定数据的“类”或组。从涉及更多阶段的意义上讲,这使聚类过程更加关注边界条件,而分类分析则更加复杂。
欢迎任何形式的转载,但请务必注明出处,尊重他人劳动成果。
转载请注明:文章转载自 有区别网 [http://www.vsdiffer.com]
本文标题:聚类和分类
本文链接:https://www.vsdiffer.com/vs/clustering-vs-classification.html
免责声明:以上内容仅是站长个人看法、理解、学习笔记、总结和研究收藏。不保证其正确性,因使用而带来的风险与本站无关!如本网站内容冒犯了您的权益,请联系站长,邮箱: ,我们核实并会尽快处理。