95992828九五至尊2

概念整理,整理大数据期末考试复习提纲882828九五至尊手机版

一月 24th, 2019  |  882828九五至尊手机版

大数额简介

大数据简介

大数量的定义

Volume(数据容量)、Variety(数据类型)、Viscosity(价值密度)、Velocity(速度)、维拉city(真实性)

大数额的定义

Volume(数据容量)、Variety(数据类型)、Viscosity(价值密度)、Velocity(速度)、维·拉(Ve·ra)city(真实性)

大数据的特性

非结构性、不完备性、时效性、安全性、可信性

大数额的性质

非结构性、不完备性、时效性、安全性、可相信性

大数额处理的全经过

数码搜集与记录 –>  数据抽取、清洗、标记  –> 
数据集成、转换、简约  –>  数据解析与建模  –>  数据表达

大数据处理的全经过

多少收集与记录 –>  数据抽取、清洗、标记  –> 
数据集成、转换、简约  –>  数据解析与建模  –>  数据表达

大数量技术的表征

1.分析宏观的数量而非随机取样

2.讲究数量的错综复杂,弱化精确性

3.关爱数据的相关性,而非因果关系

大数目技术的特征

1.分析宏观的数码而非随机取样

2.青眼数量的复杂性,弱化精确性

3.关怀数据的相关性,而非因果关系

大数额的关键技术

流处理、并行化、摘要索引、可视化

大数目标关键技术

流处理、并行化、摘要索引、可视化

大数量利用趋势

细分市场、推动公司发展、大数量解析的新点子出现、大数目与云总结高度融合、大数额全体设施陆续出现、大数据安全

大数目利用趋势

分开市场、推动公司提升、大数目解析的新格局出现、大数目与云总结中度融合、大数额全部设施陆续出现、大数据安全

毋庸置疑探讨范式

先是范式(科学实验)、第二范式(科学理论)、第三范式(系统模拟)、第四范式(数据密集型统计)

毋庸置疑切磋范式

率先范式(科学实验)、第二范式(科学理论)、第三范式(系统模拟)、第四范式(数据密集型总结)

格雷(格雷(Gray))法则

1.科学计算数据爆炸式增加

2.化解方案为横向增添的体系布局

3.将总括用于数据而不是多少用于总结(把程序向数据迁移。以统计为骨干转变为以数量为骨干)

格雷(格雷(Gray))法则

1.科学总括数据爆炸式增加

2.缓解方案为横向扩展的系统布局

3.将总括用于数据而不是多少用于总结(把程序向数据迁移。以计算为主导转移为以数据为主导)

CAP理论

Consistency(一致性)、Availability(可用性)、Partition
Tolerance(分区容错性)

CAP理论

Consistency(一致性)、Availability(可用性)、Partition
Tolerance(分区容错性)

CAP定理

一个分布式系统不容许同时满意一致性、可用性、分区容错性多少个连串必要,最多只可以同时满意四个。

CAP定理

一个分布式系统不容许还要满意一致性、可用性、分区容错性多个系统须求,最五只可以同时满意五个。

CAP选择

1.屏弃分区容错,导致可扩张性不强:MySQL、Postgres

2.放任可用性,导致性能不是特地高:Redis、MongoDB、MemcacheDB、HBase、BigTable、Hypertable

3.舍弃一致性,对一致性需要低:卡桑·德拉(Cassandra)、Dynamo、Voldemort 、CouchDB

CAP选择

1.屏弃分区容错,导致可扩大性不强:MySQL、Postgres

2.放任可用性,导致性能不是特意高:Redis、MongoDB、MemcacheDB、HBase、BigTable、Hypertable

3.丢弃一致性,对一致性须要低:卡桑·德拉(Cassandra)、Dynamo、Voldemort 、CouchDB

HDFS

HDFS

HDFS目标

1.包容降价的硬件配备

2.流数目读写

3.大数据集

4.粗略的文本模型

5.强硬的跨平台包容性

HDFS目标

1.包容廉价的硬件设施

2.流数码读写

3.大数据集

4.简易的文书模型

5.强劲的跨平台包容性

HDFS主要组件(图来自克赖斯特彻奇理历史高校大数额课程李先生的课件)

882828九五至尊手机版 1

HDFS主要组件(图来源帕罗奥图理工高校大数目课程李先生的课件)

882828九五至尊手机版 2

HDFS读文件

882828九五至尊手机版 3


 

882828九五至尊手机版 4

HDFS读文件

882828九五至尊手机版 5


 

882828九五至尊手机版 6

HDFS写文件

882828九五至尊手机版 7

HDFS写文件

882828九五至尊手机版 8

HDFS容错

1.心跳检测:NameNode和DataNode之间

2.文本块完整性:记录新建文件所有块的校验和

3.集群载荷均衡:自动从负载重的DataNode上迁移数据

4.文本删除:存放在/trash下,过一段时间才正式删除。在hdfs-site.xml中配置

HDFS容错

1.心跳检测:NameNode和DataNode之间

2.文书块完整性:记录新建文件所有块的校验和

3.集群载重均衡:自动从负载重的DataNode上迁移数据

4.文书删除:存放在/trash下,过一段时间才正式删除。在hdfs-site.xml中配备

MapReduce

MapReduce

函数式编程优点

1.逻辑可证

2.模块化

3.组件化

4.便于调试

5.易于测试

6.更高的生产率

函数式编程优点

1.逻辑可证

2.模块化

3.组件化

4.简单调试

5.易于测试

6.更高的生产率

函数式编程的特色

1.未曾副成效:没有改动过函数在其成效域之外的量并被此外函数使用

2.无状态的编程:将气象保存在参数中,作为函数的附赠品来传递(不是很懂)

3.输入值和输出值:在函数式编程中,唯有输入值和输出值。函数是主题的单位。在面向对象编程中,将目的传来传去;在函数式编程中,是将函数传来传去。

函数式编程的表征

1.尚无副效能:没有改动过函数在其功用域之外的量并被别的函数使用

2.无状态的编程:将景况保存在参数中,作为函数的附赠品来传递(不是很懂)

3.输入值和输出值:在函数式编程中,唯有输入值和输出值。函数是着力的单位。在面向对象编程中,将目的传来传去;在函数式编程中,是将函数传来传去。

MapReduce流程图(图来源马那瓜大学黄宜华先生的课件)

882828九五至尊手机版 9

MapReduce流程图(图来自波尔图高校黄宜华先生的课件)

882828九五至尊手机版 10

大数量流式总括

大数据流式总括

流式数据的特征

实时性、易失性、突发性、无序性、无限性、准确性

流式数据的特点

实时性、易失性、突发性、无序性、无限性、准确性

大数量流式计算模型

数据流管理种类:固定查询、ad hoc查询

大数据流式总结:推文(Tweet) Storm、Yahoo S4

大数目流式统计模型

数据流管理种类:固定查询、ad hoc查询

大数目流式总结:推特 Storm、Yahoo S4

Storm总体架构

主节点Nimbus:负责全局资源分配、职务调度、状态监控、故障检测

从节点Supervisor:接收义务,启动或终止工作经过Worker。每个Worker内部有三个Executor。每个Executor对应一个线程。每个Executor对应一个或多少个Task。

Zookeeper:协调、存储元数据、从节点心跳音信、存储整个集群的持有意况音信、所有配置音信

Storm总体架构

主节点Nimbus:负责全局资源分配、职责调度、状态监控、故障检测

从节点Supervisor:接收职务,启动或为止工作进度Worker。每个Worker内部有多少个Executor。每个Executor对应一个线程。每个Executor对应一个或三个Task。

Zookeeper:协调、存储元数据、从节点心跳音讯、存储整个集群的装有情形新闻、所有配置音信

Storm特征

1.编程不难

2.支持多语言

3.作业级容错

4.水平扩大

5.底层使用Zero信息队列,快

Storm特征

1.编程简单

2.协助多语言

3.作业级容错

4.档次增添

5.底层使用Zero信息队列,快

Storm缺点

1.资源分配没有考虑职分拓扑的结构特征,不能适应数据负载的动态变化

2.利用集中式的作业级容错,限制了系统的可伸张性

Storm缺点

1.资源分配没有考虑义务拓扑的结构特征,不能够适应数据负载的动态变化

2.使用集中式的作业级容错,限制了系统的可伸张性

检索引擎

寻找引擎

找寻引擎的概念

基于早晚的方针、运用特定的总结机程序、从互联网上采集新闻,对音讯举行集体和处理未来,将这个新闻呈现给用户的系统叫搜索引擎。

寻找引擎的概念

按照早晚的政策、运用特定的总计机程序、从互联网上收集信息,对音讯举行团队和处理将来,将那些新闻显示给用户的系统叫搜索引擎。

寻找引擎的咬合

搜索器:搜集音讯

索引器:抽取索引

检索器:在库中搜寻,排序。

用户接口:显示

探寻引擎的咬合

搜索器:搜集信息

882828九五至尊手机版,索引器:抽取索引

检索器:在库中摸索,排序。

用户接口:浮现

查找引擎的工作经过

爬行 -> 抓取存储 -> 预处理 -> 排行

找寻引擎的干活历程

爬行 -> 抓取存储 -> 预处理 -> 名次

追寻引擎的评头品足目标

查全率、查准率、响应时间、覆盖范围、用户方便性

检索引擎的评价目标

查全率、查准率、响应时间、覆盖范围、用户方便性

大数据解析

大数目解析

多少解析的目标

对一塌糊涂的数据开展集中、萃取、提炼,进而找出所琢磨对象的内在规律,发现其市值。

数码解析的目的

对一无可取的数据举行集中、萃取、提炼,进而找出所探究对象的内在规律,发现其价值。

数量解析的意思

在混乱的数据中剖析出有价值的情节,获得对数码的认知。

多少解析的意思

在混乱的多少中剖析出有价值的情节,得到对数据的体会。

数据解析的门类

1.探索性数据解析(为了形成值得即使的视察)

2.定性数据解析(非数值型数据)

3.离线数据解析(先存于磁盘,批处理)

4.在线数据解析(实时)

数码解析的项目

1.探索性数据解析(为了形成值得借使的查看)

2.定性数据解析(非数值型数据)

3.离线数据解析(先存于磁盘,批处理)

4.在线数据解析(实时)

相关文章

Your Comments

近期评论

    功能


    网站地图xml地图