Browse Source

Update Assignment6.md

merge-requests/8/head
xuesong 4 years ago
parent
commit
052d937729
1 changed files with 2 additions and 8 deletions
  1. +2
    -8
      Assignment6.md

+ 2
- 8
Assignment6.md View File

@ -29,20 +29,14 @@
## 基础知识
`数据仓库:` data warehouse(缩写DW),是用于报告和数据分析的数据管理系统。
`和SQL数据库的区别:` 传统的关系型数据库(如实验四中的MySQL)主要应用于基本的、日常的事务处理(Transaction Processing),例如银行交易,淘宝购物,订购车票等。而数据仓库系统主要应用于生产数据的整理和分析(Analytical Processing),通过扩展数据分析和可视化等工具,支持业务决策,例如流量分析、用户画像、统计建模等。
举个简单例子,淘宝前端(网页端、app端)每天的交易事务,都是用关系型数据库支持的。而每天的交易数据,会定时导入到后端的数据仓库(俗称ETL,Extract, Transform, Load),并根据特定业务逻辑重新整理,从而方便后端各个团队分析数据和做出业务决策。
`负载均衡:` load balancing,是指将用户请求按照一定的规则,分流到提供相同服务的多个服务实例上,从而减轻单点服务器的压力,是保证服务高并发高可用的技术手段之一。负载均衡和服务实例的关系可以简化为下图。
<kbd>
<img src="img/assignment5/ass5-etl.jpg">
</kbd>
`UDW云数据仓库:` 是UCloud的DW产品,基于开源软件Greenplum(底层为PostgreSQL数据库)开发的大规模并发、完全托管的PB级数据仓库服务。支持MADlib、PostGIS等扩展工具,可以方便地支持机器学习、空间地理位置应用等数据分析任务。
`MADlib:` MADlib提供了一套基于SQL的机器学习、数据挖掘和统计算法,可以在数据库引擎内大规模运行。在Greenplum中安装了MADlib插件以后,可以直接在数据仓库内进行复杂计算和数据建模等工作。
`压力测试:`
闲话少说,我们开始创建一个UDW玩玩。:ghost: :ghost: :ghost:

Loading…
Cancel
Save