2023-11-11 09:59:54 3
很早以前,只有数据库,数据库就是很多数据表的集合。比如要提取2019年6月18日在淘宝购买Bose耳机的用户,只需要关联几张表就能完成。
但随着工作中需要在海量数据中做复杂分析,效率变得很低。比如要找到2019年双11和2018年双11这两天,在淘宝下单超过500元且购买了Bose耳机的用户,然后比较这两拨用户在最近2年的平均消费能力差异。这种查询需要关联查询多张表,查询两年的数据,并且从海量数据中找符合要求的消费金额和消费者,通常需要几个小时才能完成。
为了提高数据查询效率,数据仓库出现了。
数据仓库的特点:
1. 数据仓库有主题性和作业流的概念,将数据重新聚合起来,自动化完成各个作业之间的调度。 2. 数据仓库让查询效率最大化,不考虑增删改的效率。 3. 数据仓库有历史数据,数据库一般只有近期数据。 4. 数据仓库是基于数据库层面的升级。
数据仓库的建立:
1. 需求分析:确定建立数据仓库的目的,需要哪些维度的数据,以及数据表的访问情况。 2. ETL:找到需要的数据表,提取需要的字段并清洗加工转换,确保数据原料合格可用。 3. 数据结构设计:设计维度表、事实表,决定数据存储方式,是否需要数据分层。 4. 作业调度:确保多个作业之间的逻辑和执行正确。
完成以上步骤后,一个数据仓库的雏形就形成了,剩下的数据管理、计算管理等可以不断添加完善。
Linux、centOS、Ubuntu、Windows操作系统下的ECS云服务器、vps虚拟空间、建站主机到期停止异常等状态监测,宝塔面板Bt、小皮面板PHPStudy、IIS、Apache、Nginx、XAMPP、wamp建站环境意外故障监测,php+MySql、asp、java、html等建站程序运行故障监测,域名状态、SSL证书状态监测,网站301、302、404、500错误代码及网站无法访问通知提醒,全国多节点测试网站速度及网络攻击!
扫一扫,关注我们
桂ICP备2022009721号-1