论大数据处理技术及其应用
近年来,互联网、云计算、移动计算和物联网技术迅速发展,数以亿计的网络用户、无所不在的移动设备、RFID和无线传感器时时刻刻都在产生海量的数据,并且需要处理的数据呈几何级数增长。另一方面,企业业务需求和竞争压力对海量数据处理的实时性、有效性提出了更高的要求,传统的数据处理方法往往无法适应这种变化。在这种背景下,企业需要针对“大数据”的应用特征,选取更加合适的数据处理方法与技术。
请围绕“大数据处理技术及其应用”论题,依次从以下三个方面进行论述。
1.概要叙述你参与实施的、与大数据处理相关的开发项目及你所担任的主要工作。
2.请从数据量、数据分析需求和硬件平台三个方面阐述大数据处理系统与传统数据处理系统的差异;列举并解释大数据处理系统应该具有的重要特征(至少列举四个)。
3.阐述你参与实施的项目在进行大数据处理时遇到了哪些问题,是如何解决的。
一、论文中要介绍企业的业务背景、组织结构、数据分析需求、大数据处理系统的架构、采用的技术等内容和担任的实际工作。
二、从数据量、数据分析需求和硬件平台3个方面来看,大数据处理系统与传统数据处理系统之间的差异是:
1.从数据量角度看,传统数据处理系统可以处理的数据量一般在GB或TB级,而大数据处理系统需要处理的数据量一般都在PB级。
2.从数据分析需求角度看,传统数据处理系统主要关注常规的数据分析,包括对现有数据的分析和检测。大数据处理系统主要关注数据的深度分析(Deep Analytics),期望能够对未来趋势有更多的分析和预测,以增强企业竞争力。深度分析包括移动平均线分析、数据关联关系分析、回归分析等多种复杂统计分析方法。
3.从硬件平台角度看,传统数据处理系统主要由高端服务器构成。由于数据量迅速增加,数据库规模不断增加,从而导致系统成本急剧上升。出于成本考虑,越来越多的企业将大数据处理系统的硬件平台由高端服务器转向了由中低端硬件构成的大规模集群平台。
大数据处理系统应该具有的重要特征包括:
1.高度可扩展性。数据库不能依靠一台或少数几台机器的升级(scale-up,纵向扩展)满足数据量的爆炸式增长,而是希望能方便地做到横向可扩展(scale-out)来实现此目标。因此,大数据处理系统应该支持横向大规模可扩展,并支持大规模并行处理。
2.高性能。数据量的增长并没有降低对数据库性能的要求,反而有所提高。软件系统性能的提升可以降低企业对硬件的投入成本、节省计算资源,提高系统吞吐量。大数据处理系统应该能够快速响应复杂查询与分析。
3.高度容错。一方面,大数据系统所采用硬件集群平台,随着节点数的增加会带来节点失效概率的增加。另一方面,大数据的容错性要求在查询执行过程中,一个参与节点失效时,不需要重做整个查询。在这种情况下,系统不能依赖于硬件来保证容错性,要更多地考虑软件级容错。
4.支持异构环境。由于计算机硬件更新较快,一次性购置大量同构的计算机设备是不可取的,而且也会在未来添置异构计算资源。在这种情况下,大数据处理系统需要支持异构环境,并需要通过负载均衡、任务调度等方面的设计调整并提高系统的整体处理性能。
5.较短的分析延迟。分析延迟指的是分析前的数据准备时间。在大数据时代,分析所处的业务环境是变化的,因此也要求系统能动态地适应业务分析需求。在分析需求发生变化时,减少数据准备时间,系统能尽可能快地做出反应,快速地进行数据分析。
6.易用且开放的接口。传统的关系型数据库通常采用SQL进行数据查询。SQL的优点是简单易用,但其主要用于数据的检索查询,对大数据上的深度分析来说,是不够的。原因在于:(1)其提供的服务方式依赖于数据移动来实现:将数据从数据库中取出,然后传递给应用程序,该实现方式在大数据时代代价过高;(2)复杂的分析功能SQL难以胜任。因此,除对SQL的支持外,系统还应能提供开放易用的接口,让用户自己开发需要的功能。
7.较低成本。在满足需求的前提下,需要尽量降低硬件、软件、日常维护和管理人员等综合成本的指标。
8.向下兼容性。数据仓库技术发展了30多年,产生了大量面向客户业务的数据处理工具、分析软件和前端展现工具等。这些软件已被分析人员所熟悉,是大数据时代中小规模数据分析的必要补充。因此大数据分析系统需要考虑与传统数据分析工具的兼容性。
(以上特征,只要任意给出4个即可)
三、在进行大数据处理系统开发时可能遇到的问题包括:如何对数据需求进行梳理;如何选择底层数据存储系统(包括关系型数据库、NoSQL数据库等),如何选择合适的数据处理算法与处理流程;如何对处理算法进行调整,使其适应大数据处理平台的要求;等等。
一台主机的IP地址为202.123.25.36,掩码为255.255.254.0。如果该主机需要在该网络进行直接广播,那么它应该使用的目的地址为( )
在计算机系统的日常维护工作中,应当注意硬盘工作时不能__(2)__。另外,需要防范病毒,而__(3)__是不会被病毒感觉的。
有 4 个 IP 地址:201.117.15.254、201.117.17.01、201.117.24.5 和 201.117.29.3,如果子网掩码为 255.255.248.0,则这 4 个地址分别属于3个子网;其中属于同一个子网的是()
在异步通信中,每个字符包含1位起始位、7位数据位、1位奇偶位和1位终止位,每秒钟传送200个字符,采用4相位调制,则码元速率为()。
在 Windows 中,运行( )命令得到下图所示结果。以下关于该结果的叙述中,错误的是( )。
Pinging 59.74.111.8 with 32 bytes of data:
Reply from 59.74.111.8: bytes=32 time=3ms TTL=60
Reply from 59.74.111.8: bytes=32 time=5ms TTL=60
Reply from 59.74.111.8: bytes=32 time=3ms TTL=60
Reply from 59.74.111.8: bytes=32 time=5ms TTL=60
Ping statistics for 59.74.111.8:
Packets: Sent = 4, Received = 4, Lost = 0 (0% loss),
Approximate round trip times in milli-seconds:
Minimum = 3ms, Maximum = 5ms, Average = 4ms
在ISO OSF/RM参考模型中,七层协议中的__(1)__利用通信子网提供的服务实现两个用户进程之间端到端的通信。在这个模型中,如果A用户需要通过网络向B用户传送数据,则首先将数据送入应用层,在该层给它附加控制信息后送入表示层;在表示层对数据进行必要的变换并加头标后送入会话层;在会话层加头标送入传输层;在传输层将数据分解为__(本题)__后送至网络层;在网络层将数据封装成__(3)__后送至数据链路层;在数据链路层将数据加上头标和尾标封装成__(4)__后发送到物理层;在物理层数据以__(5)__形式发送到物理线路。B用户所在的系统接收到数据后,层层剥去控制信息,把原数据传送给B用户。
在OSI/RM中,解释应用数据语义的协议层是()。
在TCP/IP协议栈中,ARP协议的作用是(),RARP协议的作用是(请作答此空)。
在地址 http://www.dailynews.com.cn/channel/welcome.htm 中,www.dailynews.com.cn 表示( ),welcome.htm 表示(请作答此空)。
在电子表格软件Excel中,假设A1单元格的值为15,若在A2单元格输入“=AND(15<A1,A1<100)”,则A2单元格显示的值为 ()