数据处理
数据处理被定义为收集、操作和处理所收集的数据以用于所需用途。它是一项将数据从给定的形式转换为更可用和更理想的形式的任务,即使其更有意义和更有信息。使用机器学习算法、数学建模和统计知识,这整个过程可以自动化。这似乎很简单,但当它涉及到真正的大组织,如Twitter、Facebook、行政机构,如议会、教科文组织和卫生部门组织时,整个过程需要以一种非常结构化的方式进行。因此,需要执行的步骤如下。
数据清理
数据清理是修复或删除数据集中不正确的、损坏的、格式不正确的、重复的或不完整的数据的过程。它是机器学习的重要部分之一。它在建立模型中起着重要的作用。数据清理是每个人都在做的事情之一,但没有人真正谈论过。它肯定不是机器学习中最华丽的部分,同时,也没有任何隐藏的技巧或秘密可以揭开。然而,适当的数据清理可以使你的项目成功或失败。数据清理所涉及的步骤
编号 | 数据处理 | 数据清洗 |
---|---|---|
1 | 数据处理是在数据清洗之后进行的。 | 数据清洗是在数据处理之前进行的。 |
2 | 数据处理需要必要的存储硬件,如Ram | 图形处理单元等来处理数据,数据清洗不需要硬件工具。 |
3 | 数据处理框架,如Hadoop,Pig框架等 | 数据清理涉及到去除噪音数据等。没有使用特殊的框架。 |
4 | 与数据清洗相比,数据处理很困难。 | 数据清洗比数据处理更容易。 |
5 | 示例:在Hadoop集群中加载学生数据(数据存储)并检索(处理)低于60%的分数。百分比计算。 | 示例:寻找欺诈数据,如学生的年龄大于范围,百分比不超过100。检查分数是否没有被插入。如果没有,我们可以验证并放置正确的数据来代替遗漏的数据。 |
欢迎任何形式的转载,但请务必注明出处,尊重他人劳动成果。
转载请注明:文章转载自 有区别网 [http://www.vsdiffer.com]
本文标题:数据清洗和数据处理的区别
本文链接:https://www.vsdiffer.com/vs/difference-between-data-cleaning-and-data-processing.html
免责声明:以上内容仅是站长个人看法、理解、学习笔记、总结和研究收藏。不保证其正确性,因使用而带来的风险与本站无关!如本网站内容冒犯了您的权益,请联系站长,邮箱: ,我们核实并会尽快处理。