当前位置: 首页>行业 >

数据开发的基础概念必知必会|世界要闻

来源: 腾讯云 | 时间: 2023-04-21 02:15:34 |

数据开发是指将数据从不同的来源整合、清洗、转换、存储和分析的过程。数据开发的目的是为了让数据更加有用,以便于企业做出更好的决策。在本文中,我们将介绍数据开发的基本概念,包括数据仓库、ETL、数据建模、数据挖掘和数据可视化等。


【资料图】

OLTP

OLTP(online transaction processing)系统, 通俗理解就是在线实时系统;

关于Transaction的一点彩蛋:

Transaction 在不同语境下,有着不同的含义。

在计算机领域,通常指数据库的事务(Transaction); 在日常生活,指交易(Transaction)。

而在早期的商业数据处理,一个写操作,通常伴随着一笔商业交易(commercial transaction) 发生, 如卖出一件商品,向供应商下单,支付雇员薪资; 后来数据库应用在不同的领域, 即使没有发生交易(transaction), transaction这个词也保留了下来。

常见的用于搭建OLTP系统的组件如: Mysql, Postgresql, Oracle 这些传统的关系型数据库。

OLAP

与OLTP相对应的, 就是OLAP(online analytics processing) , 通常用作离线分析(毕竟我们无法直接在在线系统做复杂的数据分析, 不然分分钟把在线系统搞挂)。

OLAP 系统主要用于分析海量数据, 帮助公司做出更好的商业决策, 经常听到的大数据, 数据仓库, 都是和OLAP 相关的概念。

常见的用于搭建OLAP 系统的组件有:Hadoop 全家桶, Clickhouse, Presto等组件。

数据仓库

数据仓库是一个用于存储和管理企业数据的中央存储库。它是一个面向主题的、集成的、稳定的、可变的、时间可追溯的数据集合,用于支持企业决策。数据仓库通常包括多个数据源,包括企业内部的各种系统和外部数据源。数据仓库的主要功能是将数据从不同的来源整合到一个中央存储库中,以便于企业进行分析和决策。

业界常用的数据仓库平台包括IBM InfoSphere、Microsoft SQL Server、Oracle Data Warehouse和Teradata等。

ETL

ETL是指将数据从不同的来源提取、转换和加载到数据仓库中的过程。ETL包括三个步骤:

提取(Extract):从不同的数据源中提取数据。

转换(Transform):对提取的数据进行清洗、转换和整合,以便于存储和分析。

加载(Load):将转换后的数据加载到数据仓库中。

ETL是数据开发的核心过程,它确保数据仓库中的数据是准确、一致和可靠的。

举个例子:假设一个公司有多个部门,每个部门都有自己的数据库,其中包含员工信息、销售数据和财务数据等。为了进行企业级的数据分析和决策,需要将这些数据整合到一个中央数据仓库中。这就需要使用ETL过程。

首先,需要从每个部门的数据库中提取数据。例如,从销售部门的数据库中提取销售数据,从财务部门的数据库中提取财务数据,从人力资源部门的数据库中提取员工信息等。

然后,需要对提取的数据进行转换。例如,将不同部门的员工信息进行整合,以便于进行企业级的人力资源分析。还需要对数据进行清洗,例如删除重复数据、填充缺失值等。此外,还需要将数据进行格式转换,例如将日期格式转换为标准格式,以便于进行时间序列分析。

最后,需要将转换后的数据加载到中央数据仓库中。在加载数据时,需要进行数据验证和校验,以确保数据的准确性和一致性。如果数据有错误或不一致,需要进行修复和调整。

通过ETL过程,可以将来自不同部门的数据整合到一个中央数据仓库中,以便于进行企业级的数据分析和决策。ETL过程是数据开发的核心过程,它确保数据仓库中的数据是准确、一致和可靠的。

ETL工具是一种专门用于实现ETL过程的软件工具。常用的ETL工具包括:

Talend:一款开源的ETL工具,支持多种数据源和数据转换技术。

Informatica:一款商业化的ETL工具,具有强大的数据转换和数据质量管理功能。

IBM DataStage:一款商业化的ETL工具,支持大规模数据集成和数据转换。

Microsoft SSIS:一款商业化的ETL工具,集成在SQL Server中,支持多种数据源和数据转换技术。

总之,ETL技术和工具的选择取决于具体的业务需求和数据特点。在实际应用中,需要根据实际情况选择最适合的技术和工具,以确保ETL过程的高效、准确和可靠。

数据建模

数据建模是指将数据仓库中的数据组织成一种结构化的形式,以便于分析和查询。数据建模通常使用关系型数据库模型,包括表、列和关系。数据建模的目的是为了让数据更加易于理解和使用,以便于企业做出更好的决策。

以下是几种业界常用的数据建模技术:

维度建模

维度建模是一种基于维度的数据建模技术,它将数据组织成一个星型或雪花型的结构。维度建模通常包括事实表和维度表两种类型的表。事实表包含数值型数据,例如销售额、数量和利润等。维度表包含描述性数据,例如时间、地点和产品等。维度建模的优点是简单、易于理解和使用,适用于大多数数据仓库场景。

实体关系建模

实体关系建模是一种基于实体和关系的数据建模技术,它使用实体和关系来描述数据之间的关系。实体关系建模通常使用ER图(实体关系图)来表示数据模型。ER图包括实体、属性和关系三种元素。实体表示数据对象,属性表示数据的特征,关系表示数据之间的关系。实体关系建模的优点是灵活、可扩展和可维护,适用于复杂的数据仓库场景。

模式化建模

模式化建模是一种基于模式的数据建模技术,它使用模式来描述数据之间的关系。模式化建模通常使用UML(统一建模语言)来表示数据模型。UML包括类、属性和关系三种元素。类表示数据对象,属性表示数据的特征,关系表示数据之间的关系。模式化建模的优点是灵活、可扩展和可维护,适用于复杂的数据仓库场景。

数据仓库建模

数据仓库建模是一种基于业务过程的数据建模技术,它使用业务过程来描述数据之间的关系。数据仓库建模通常包括业务过程模型和数据模型两种模型。业务过程模型描述业务过程的流程和规则,数据模型描述数据之间的关系。数据仓库建模的优点是与业务过程紧密相关,适用于需要深入理解业务过程的数据仓库场景。

总之,数据建模技术的选择取决于具体的业务需求和数据特点。在实际应用中,需要根据实际情况选择最适合的技术和工具,以确保数据建模的高效、准确和可靠。

数据挖掘

数据挖掘是指从大量的数据中发现隐藏的模式和关系的过程。数据挖掘通常使用机器学习算法和统计分析方法,以便于发现数据中的规律和趋势。数据挖掘的目的是为了帮助企业做出更好的决策,例如预测销售趋势、发现市场机会和优化业务流程等。常用的数据挖掘技术包括神经网络方法、遗传算法、决策树方法等等。

数据可视化

数据可视化是指将数据以图表、图形和其他可视化方式呈现出来,以便于理解和分析。数据可视化通常使用数据可视化工具,例如Tableau、Power BI和QlikView等。数据可视化的目的是为了让数据更加易于理解和使用,以便于企业做出更好的决策。

总结

数据开发是一个复杂的过程,它涉及到数据仓库、ETL、数据建模、数据挖掘和数据可视化等多个方面。数据开发的目的是为了让数据更加有用,以便于企业做出更好的决策。在数据开发过程中,需要使用各种工具和技术,例如SQL、Python、R和机器学习算法等。数据开发是一个不断发展和演变的领域,需要不断学习和更新知识,以适应不断变化的业务需求。

关键词:

 

热文推荐

数据开发的基础概念必知必会|世界要闻

数据开发是指将数据从不同的来源整合、清洗、转换、存储和分析的过程。数据开发的目的是为了让数据更加有用,以便于企业做出更好的决策。在本

2023-04-21

开普检测:2022年归母净利6900.92万元,拟10派5元,新能源控制设备及系统检测业务收入涨32.54%_今日观点

开普检测4月19日公告,2022年,公司实现营业收入1 56亿元,同比上涨8 4%;归母净利润6900 92万元,同比上涨7 4%;基本每股收益0 86元。本次拟

2023-04-21

济南有哪些免费景点可以游玩?_每日速读

1、大明湖大明湖,是济南三大名胜之一,素有“泉城明珠”的美誉,位于济南市历下区大明湖路271号。如此清秀动人的大明湖是繁华都市中的一处天

2023-04-21

收盘丨A股三大指数集体收跌,旅游板块大涨

收盘丨A股三大指数集体收跌,旅游板块大涨,a股,收盘,龙头股,旅游板块,半导体板块

2023-04-21

世界速讯:三大协会联合抖音直播发起行业倡议:规范发展共创线上舞台

会上,中国网络视听节目服务协会、中国网络社会组织联合会及中国演出行业协会联合抖音直播发布行业发展倡议。中国演出行业协会副会长兼秘书长

2023-04-21

重庆幼升小需要孩子的居住证吗? 全球实时

按照政策原文发布,一般是需要的。适龄儿童少年与法定监护人的合法居住证明、合法工作证明(市内户籍)和公安部门出具的流动人口居住证明(市外户

2023-04-21

【当前独家】vscode设置任务栏显示范围教程

vscode这款应用是很多开发者常用的编程开放工具之一,对于刚接触这款应用的小伙伴来说不是很清楚vscode怎么设置任务栏显示范围的,为解开小伙

2023-04-20

前沿资讯!2023年“强基计划”院校招生信息陆续公布

纵览客户端讯(河北日报记者崔丛丛)近日,2023年实行“强基计划”的高校已陆续公布了招生简章。河北省教育考试院汇总了部分

2023-04-20

​鄂城区:“粮”辰美景,春耕添“翼” 天天快消息

​鄂城区:“粮”辰美景,春耕添“翼”---4月19日上午,一架无人机在鄂城区花湖镇田间上空盘旋,进行“飞播作业”。镇农业农村办主任李从应介

2023-04-20

内蒙古“换季式”降温10℃,中西部地区有大风沙尘天气 全球微速讯

记者从内蒙古自治区气象局了解到,今天(4月20日)起,内蒙古全区迎来大幅度降温,同时中西部地区伴有大风沙尘天气,局地有沙尘暴。昨天(4月1

2023-04-20

PCB的板级电磁兼容问题

现阶段,电子系统正向高速化和高密度化飞跃发展。在电子系统的设计过程中,系统的体积越来越小,IC引脚(integratedcircuit,集成电路)却越来越多

2023-04-20

环球快看:报告:2022年中国40家上市银行净利润同比增6.96%

国际会计师事务所普华永道20日发布的“银行业快讯:2022年中国银行业回顾与展望”显示,2022年中国40家上市银行净利润同比增长6 96%,受利息收

2023-04-20

荆州海事局及时劝离碍航游泳市民确保通航安全 世界要闻

2023年4月16日下午,荆州海事局交管中心从高频监听到荆州长江公路大桥附近水域有游泳群众,当即通过CCTV视频系统查看,发现部分市民到船舶航行

2023-04-20

新疆举办大中学生武术校园比赛 全球微动态

中国教育报-中国教育新闻网讯(记者蒋夫尔)历时3天的新疆维吾尔自治区大学生、中学生“天盛杯”武术校园比赛暨选拔赛日前在新疆奎屯市体育中

2023-04-20

世界今日报丨单场25记!斯波:每次出现势头转变 雄鹿就能立刻扔进一记三分

今日NBA季后赛G2,雄鹿138-122轻取热火,大比分1-1扳平。本场雄鹿单场三分球49中25,赛后热火主教练斯波尔斯特拉接受采访,谈到对手外线投射说

2023-04-20

2023年第五届沈阳康平·张强杏花文化艺术节暨招商推介仪式启动 热议

此次“杏花节”,以“花开张强有‘杏’遇见”为主题,融入了传统文化、文艺汇演、特色游园、踏青活动等多种元素,让游客在欣赏张强镇大美杏花

2023-04-20

《信长之野望・新生 with 威力加强版》公开「攻城战」最新信息以及中文实体特典

《信长之野望・新生with威力加强版》公开「攻城战」最新信息以及中文实体特典

2023-04-20

垃圾分类经常查,执法普法两手抓

执法人员对店铺工作人员介绍了垃圾分类知识和相关法律法规,并发放了垃圾分类宣传小册子,呼吁大家积极配合做好垃圾分类工作。后续,颛桥镇综

2023-04-20

金迪克2022年净利降5成 2021上市募12亿中信证券保荐|世界速递

金迪克2022年净利降5成2021上市募12亿中信证券保荐

2023-04-20

日媒称:日本国会收到炸弹威胁信息,威胁者称“唯有恐袭才能改变日本”

【日媒:日本国会收到炸弹威胁信息】据日本《产经新闻》20日报道,日本参议院相关人士透露,参议院公关部门19日晚上收到一封电子邮件,邮件发

2023-04-20

资讯

北京推出14条秋游文化线路

金秋时节,北京市文化和旅游局以赏银杏品文化为主题,推出14条“叶落的季节——漫步北京赏银杏品文化主题线路”,邀市民和游客以步行、骑行

2021-10-27     
基因编辑发力 培育高质量人源化供体猪

此次人体试验,仅仅验证了基因编辑猪克服异种器官移植的超急性排斥反应,还需解决延迟性排斥反应、消耗性血栓等问题。但通过这次试验,能更

2021-10-27     
中国经济高质量发展步伐稳健 长期向好基本面未变

在全球疫情走势和经济走势趋于复杂的背景下,中国经济巨轮将驶向何方,举世关注。2020年10月26日至29日,党的十九届五中全会在京举行,明确

2021-10-27     
南美解放者杯决赛允许近4.5万观众入场

南美洲足联主席多明格斯25日与今年解放者杯决赛对阵的两支俱乐部负责人会晤,宣布决赛现场观众人数增加到球场容量的75%,即近4 5万人。今年

2021-10-27     
22年从警生涯 面对荣誉他说不要给我报功

9月24日,时任安徽省安庆市公安局迎江分局刑警大队大要案中队中队长周磊因在工作中激烈搏斗引发心源性猝死,倒在了工作岗位上,经医院抢救

2021-10-27     
走近冬奥|五棵松体育中心场馆“黑科技”全面上岗 助力冬

“相约北京”冰球国内测试活动将于2021年11月7日至10日在五棵松体育中心场馆举行,在疫情防控方面,场馆引入了诸多“黑科技”,为防疫安全

2021-10-27