聚类和分类技术用于机器学习,信息检索,图像调查和相关任务中。
这两种策略是数据挖掘过程的两个主要部分。 在数据分析世界中,这些对于管理算法至关重要。 具体来说,这两个过程都将数据分为几组。 在当今的信息时代,这项任务非常重要,因为需要适当地促进大量数据的增长和发展。
值得注意的是,聚类和分类有助于通过数据科学解决犯罪,贫困和疾病等全球性问题。
什么是聚类?
基本上,聚类涉及根据数据的相似性对数据进行分组。它主要涉及距离度量和聚类算法,它们计算数据之间的差异并将其系统地划分。
例如,将具有相似学习风格的学生分组在一起,并与具有不同学习方法的学生分开教授。在数据挖掘中,聚类最常被称为“无监督学习技术”,因为分组是基于自然或固有特性的。
它被应用于多个科学领域,例如信息技术,生物学,犯罪学和医学。
聚类的特征:
没有确切的定义
聚类没有精确的定义,这就是为什么存在各种聚类算法或聚类模型的原因。粗略地说,这两种聚类是硬的和软的。硬集群涉及将对象标记为仅属于集群或不属于集群。相比之下,软聚类或模糊聚类指定了事物如何属于某个组的程度。难以评估
由于其固有的不精确性,通常难以确定对聚类分析结果的确认或评估。无监督
由于这是一种无监督的学习策略,因此分析仅基于当前功能; 因此,不需要严格的法规。
什么是分类?
分类需要为现有情况或类别分配标签; 因此,术语“分类”。 例如,表现出某些学习特征的学生被归类为视觉学习者。
分类也称为“监督学习技术”,其中机器从已经标记或分类的数据中学习。 它非常适用于模式识别,统计和生物识别。
分类特征
使用“分类器”
为了分析数据,分类器是一种已定义的算法,可将信息具体映射到特定类。 例如,分类算法将训练模型以识别某个细胞是恶性还是良性的。通过通用指标进行评估
分类分析的质量通常通过精度和召回率来评估,这是流行的度量程序。 评估分类器的准确性和灵敏度,以识别输出。监督
分类是一种有监督的学习技术,因为它根据可比较的特征分配先前确定的身份。 它从标记的训练集中推导一个功能。
聚类 | 分类 |
---|---|
无监督数据 | 监督数据 |
不高度重视培训集 | 高度重视训练集 |
仅适用于未标记的数据 | 涉及未标记和标记的数据 |
旨在识别数据之间的相似性 | 旨在验证基准属于 |
指定所需的更改 | 未指定所需的改进 |
一个阶段 | 有两个阶段 |
确定边界条件不是最重要的 | 确定边界条件对于执行阶段至关重要 |
一般不处理预测 | 处理预测 |
主要采用两种算法 | 有多种可能的算法要使用 |
流程不那么复杂 | 流程更复杂 |
总结
- 聚类分析和分类分析在数据挖掘过程中都被高度采用。
- 这些技术被应用于解决全球问题必不可少的众多科学中。
- 通常,集群处理非监督数据;因此,没有标签,而分类适用于监督数据;因此,被标记。这是聚类在分类时不需要训练集的主要原因之一。
- 与聚类相比,与分类相关的算法更多。
- 聚类旨在验证数据之间的相似性或异同性,而分类则侧重于确定数据的“类”或组。从涉及更多阶段的意义上讲,这使聚类过程更加关注边界条件,而分类分析则更加复杂。
欢迎任何形式的转载,但请务必注明出处,尊重他人劳动成果。
转载请注明:文章转载自 有区别网 [http://www.vsdiffer.com]
本文标题:聚类和分类
本文链接:https://www.vsdiffer.com/vs/clustering-vs-classification.html
免责声明:以上内容仅是站长个人看法、理解、学习笔记、总结和研究收藏。不保证其正确性,因使用而带来的风险与本站无关!如本网站内容冒犯了您的权益,请联系站长,邮箱: ,我们核实并会尽快处理。