阅读 175

数据仓库有哪些工具和实用程序?

数据仓库是一种技术,主要用于收集和管理来自各种来源的数据,为业务提供有意义的业务洞察力。数据仓库专门用于支持管理决策。

简单来说,数据仓库是指与组织的操作数据库分开维护的数据库。数据仓库系统可以集成多个应用系统。它们通过支持用于分析的整合的历史信息的可靠平台来提供数据处理。

数据仓库概括和整合多维区域中的信息。数据仓库的构建包括数据清洗、数据集成和数据转换,是数据挖掘必不可少的预处理步骤。这些工具和实用程序涉及以下功能 -

数据提取

数据清洗- 数据清洗意味着通过填充缺失值、平滑噪声数据、识别和去除异常值以及去除数据中的不一致来清洗数据。

数据清洗的类型

  • 缺失值- 缺失值填充了适当的值。以下是填充值的方法。

  • 噪声数据- 噪声是测量变量中的随机误差或方差。以下是处理噪声的平滑技术,如下所示 -

    • Binning - 这些技术通过咨询其“邻居”来平滑排序的数据值,即关于噪声数据的值。排序后的值被分配到多个桶或箱中。因为分箱方法会参考值的邻域,所以它们实现了局部平滑。

    • 回归- 可以通过将记录拟合到函数来平滑数据,包括回归。线性回归涉及找到适合两个属性(或变量)的“最佳”线,以便可以使用一个属性来预测另一个。多元线性回归是线性回归的延续,其中包含两个以上的属性并且数据适合多维曲面。

    • 聚类- 聚类有助于识别异常值。相似的值被组织成集群,那些落在集群之外的值被称为异常值。

数据转换- 在数据转换中,数据被转换或合并为适合挖掘的形式。数据转换可能涉及以下内容 -

  • 平滑- 它可以消除数据中的噪声。此类技术包括分箱、回归和聚类。

  • 聚合- 在聚合中,汇总或聚合操作应用于数据。

  • 泛化- 在泛化中,低级或“原始”(原始)数据通过使用概念层次结构由更高级的概念恢复。

Load - 它可以排序、汇总、合并、计算视图、检查完整性以及构建索引和分区

刷新- 它可以将更新从数据源传播到数据仓库。


文章分类
百科问答
版权声明:本站是系统测试站点,无实际运营。本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 XXXXXXo@163.com 举报,一经查实,本站将立刻删除。
相关推荐