聚类和分类

聚类和分类技术用于机器学习，信息检索，图像调查和相关任务中。

这两种策略是数据挖掘过程的两个主要部分。在数据分析世界中，这些对于管理算法至关重要。具体来说，这两个过程都将数据分为几组。在当今的信息时代，这项任务非常重要，因为需要适当地促进大量数据的增长和发展。

值得注意的是，聚类和分类有助于通过数据科学解决犯罪，贫困和疾病等全球性问题。

什么是聚类？

基本上，聚类涉及根据数据的相似性对数据进行分组。它主要涉及距离度量和聚类算法，它们计算数据之间的差异并将其系统地划分。

例如，将具有相似学习风格的学生分组在一起，并与具有不同学习方法的学生分开教授。在数据挖掘中，聚类最常被称为“无监督学习技术”，因为分组是基于自然或固有特性的。

它被应用于多个科学领域，例如信息技术，生物学，犯罪学和医学。

聚类的特征：

没有确切的定义
聚类没有精确的定义，这就是为什么存在各种聚类算法或聚类模型的原因。粗略地说，这两种聚类是硬的和软的。硬集群涉及将对象标记为仅属于集群或不属于集群。相比之下，软聚类或模糊聚类指定了事物如何属于某个组的程度。
难以评估
由于其固有的不精确性，通常难以确定对聚类分析结果的确认或评估。
无监督
由于这是一种无监督的学习策略，因此分析仅基于当前功能；因此，不需要严格的法规。

什么是分类？

分类需要为现有情况或类别分配标签；因此，术语“分类”。例如，表现出某些学习特征的学生被归类为视觉学习者。
分类也称为“监督学习技术”，其中机器从已经标记或分类的数据中学习。它非常适用于模式识别，统计和生物识别。

分类特征

使用“分类器”
为了分析数据，分类器是一种已定义的算法，可将信息具体映射到特定类。例如，分类算法将训练模型以识别某个细胞是恶性还是良性的。
通过通用指标进行评估
分类分析的质量通常通过精度和召回率来评估，这是流行的度量程序。评估分类器的准确性和灵敏度，以识别输出。
监督
分类是一种有监督的学习技术，因为它根据可比较的特征分配先前确定的身份。它从标记的训练集中推导一个功能。

聚类	分类
无监督数据	监督数据
不高度重视培训集	高度重视训练集
仅适用于未标记的数据	涉及未标记和标记的数据
旨在识别数据之间的相似性	旨在验证基准属于
指定所需的更改	未指定所需的改进
一个阶段	有两个阶段
确定边界条件不是最重要的	确定边界条件对于执行阶段至关重要
一般不处理预测	处理预测
主要采用两种算法	有多种可能的算法要使用
流程不那么复杂	流程更复杂

总结

聚类分析和分类分析在数据挖掘过程中都被高度采用。
这些技术被应用于解决全球问题必不可少的众多科学中。
通常，集群处理非监督数据；因此，没有标签，而分类适用于监督数据；因此，被标记。这是聚类在分类时不需要训练集的主要原因之一。
与聚类相比，与分类相关的算法更多。
聚类旨在验证数据之间的相似性或异同性，而分类则侧重于确定数据的“类”或组。从涉及更多阶段的意义上讲，这使聚类过程更加关注边界条件，而分类分析则更加复杂。

欢迎任何形式的转载，但请务必注明出处，尊重他人劳动成果。
转载请注明：文章转载自有区别网 [http://www.vsdiffer.com]
本文标题：聚类和分类
本文链接：https://www.vsdiffer.com/vs/clustering-vs-classification.html
免责声明：以上内容仅是站长个人看法、理解、学习笔记、总结和研究收藏。不保证其正确性，因使用而带来的风险与本站无关！如本网站内容冒犯了您的权益，请联系站长，邮箱：，我们核实并会尽快处理。

聚类和分类

什么是聚类？

什么是分类？

总结

随机