论数据挖掘技术的应用
随着信息技术的高速发展,各组织机构积累的数据量急剧增长。如何从海量的数据中提取有用的知识成为当务之急。数据挖掘(Data Mining)就是为顺应这种需要应运而生发展起来的数据处理技术,是知识发现的关键步骤。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
请围绕“论数据挖掘技术的应用”论题,依次对以下三个方面进行论述。
1. 概要叙述你参与分析和开发的软件项目以及你所担任的主要工作。
2. 数据挖掘的主要任务是什么?具体论述你在项目中使用数据挖掘技术所解决的问题。
3. 数据挖掘的方法主要有哪些?分析并讨论你所选择的数据挖掘方法,简述其具体实现过程和实际应用效果。
一、结合自己所参与的软件项目,概要介绍该项目的背景及主要内容,并明确指出在其中所承担的主要任务和开展的主要工作。
二、数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。
1. 关联分析。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阈值来度量关联规则的相关性。
2. 聚类分析。聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
3. 分类。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
4. 预测。预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测的精度和不确定性被重点关注,通常用预测方差来度量。
5. 时序模式。时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
6. 偏差分析。在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。
论文中须明确指出自己在该项目应用数据挖掘技术所要解决的具体问题是什么。
三、主要的数据挖掘方法
1. 神经网络方法
神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、BP反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以art模型、koholon模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是“黑箱”性,人们难以理解网络的学习和决策过程。
2. 遗传算法
遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在数据挖掘中被加以应用。
3. 决策树方法
决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由quinlan提出的著名的基于信息熵的id3算法。它的主要问题是:id3是非递增学习算法;id3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如 schlimmer和fisher设计了id4递增式学习算法等。
4. 粗集方法
粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。
5. 覆盖正例排斥反例方法
它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则。比较典型的算法有michalski的aq11方法等。
6. 统计分析方法
在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计(求大量数据中的最大值、最小值、总和、平均值等)、回归分析(用回归方程来表示变量间的数量关系)、相关分析(用相关系数来度量变量间的相关程度)、差异分析(从样本统计量的值得出差异来确定总体参数之间是否存在差异)等。
7. 模糊集方法
利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。
论文中必须明确指出使用了上述七种方法中的哪种或哪几种数据挖掘方法,并给出该方法的具体实现过程;分析所选择的数据挖掘方法的实现效果。
( )a method of obtaining early feedback on requirements by providing aworking model of the expected product before actually building it.
【说明】
某公司现有网络拓扑结构如图1-1所示。该网络中使用交换机SW1为三层交换机,SW2和SW3均为二层智能交换机。
【问题4】(4分)
为了对用户上网行为进行监管,需要在SW1与R1之间部署(9)。
(9)备选答案:
A.FW(防火墙) B.IDS(入侵检测系统) C.堡垒机 D.上网行为管理
随着公司各部门成员增加,某些时候部分员工获取到IP地址和真实DHCP分出来IP不一致,为了避免这种情况可以在交换机上开启(10)功能。
(10)备选答案:
A.dhcp snooping B. broadcast-suppression C. loopback-detect
阅读下列说明,回答问题1至问题5,将解答填入答题纸对应栏内。 【说明】 攻克要塞教育中心在部署计算机网络时采用了一款硬件防火墙,该防火墙带有三个以太网络接口,其网络拓扑如图3-1所示。
【问题1】(8分)
防火墙包过滤规则默认策略为拒绝,表3-1给出防火墙包过滤规则配置。若要求内部所有主机能使用IE浏览器访问外部IP地址202.117.118.23Web服务器,为表中(1)~(4)空缺处选择正确答案,填写在答题纸相应位置。(1)备选答案:A.允许 B.拒绝(2)备选答案:A.192.168.1.0/24 B.211.156.169.6/30 C.202.117.118.23/24(3)备选答案:A.TCP B.UDP C.ICMP(4)备选答案:A.E3E2 B.E1E3 C.E1E2
【问题2】(6分)
内部网络经由防火墙采用NAT方式与外部网络通信,表3-2中(5)~(7)空缺处选择正确答案,填写在答题纸相应位置。(5) 备选答案:A.192.168.1.0/24 B.anyC.202.117.118.23/24(6)备选答案: A.E1 B.E2 C.E3(7)备选答案: A.192.168.1.1 B.210.156.169.6C.211.156.169.6
【问题3】(2分)
图3-1中 (8)适合设置为DMZ区。(8)备选答案:A.区域A B.区域B C.区域C【问题4】(4分)防火墙上配置信息如图3-2所示。要求启动HTTP代理服务,通过HTTP缓存提高浏览速度,代理服务端口为3128,要使主机PC1使用HTTP代理服务,其中“地址”栏中内容应填写为 (9) ,“端口”栏中内容应填写为 (10) 。
【问题5】(4分)
NAT和HTTP代理分别工作在 (11) 和 (12) 。(11)备选答案:A.网络层 B.应用层 C.服务层(12)备选答案:A.网络层 B.应用层 C.服务层
阅读以下说明,回答问题1至问题4,将解答填入答题纸对应解答栏内。
【说明】
某企业采用PIX防火墙保护公司网络安全,网络结构如图4-1所示。
【问题1】(4分)
防火墙一般把网络区域划分为内部区域(trust区域)、外部区域(untrust区域)以及(1),其中在这个网络区域内可以放置一些公开服务器,下列(2)服务器不适合放在该区域。
空(2)备选答案:
A.Web
B.FTP
C.邮件
D.办公自动化(OA)
【问题2】(2分)
衡量防火墙性能主要参数有并发连接数、用户数限制、吞吐量等,其中最重要参数是(3),它反映出防火墙对多个连接访问控制能力和连接状态跟踪能力,这个参数大小直接影响到防火墙所能支持最大信息点数。
空(3)备选答案:
A.并发连接数
B.用户数限制
C.吞吐量
D.安全过滤带宽
【问题3】(4分)
设置防火墙接口名称,并指定安全级别,安全级别取值范围为0~100,数字越大安全级别越高。要求设置:ethemet0命名为外部接口outside,安全级别是0;ethernet1命名为内部接口inside,安全级别是100;ethernet2命名为中间接口dmz,安全级别为50。
请完成下面命令。
…
PLX#config terminal
PLX (config)#nameif ethemet0 (4) security0
PLX (config)#nameif ethernet1 inside (5)
PLX (config)#nameif ethemet2 (6) (7)
…
【问题4】(5分)
编写表4-1中规则,设置防火墙安全规则,允许外网主机133.20.10.10访问内网数据库服务器10.66.1.101,同时允许内网和外网访问DMZ区WWW服务器10.65.1.101。
阅读以下说明,回答问题一,并将解答填入答题纸对应解答栏中。 某公司用ASP 实现了用户满意度调查网页,系统几个主要文件及作用如表1所示, 网页效果如图1 所示。
用户调查数据库表info表结构如表2所示:
问题1:完成下列代码填空
备选答案:A.用户满意度调查 B. rs C. username
D. </frameset> E. dbpathF.Conn G.exec H. top.html I.info J. login.asp K.searchtext L. rs.EOF M. MoveNext N.wt1 O. rowcount
阅读下列有关网络防火墙说明,回答问题1至问题4,将答案填入答题纸对应解答栏内。
【说明】
某公司网络有200台主机、一台WebServer和一台MailServer。为了保障网络安全,安装了一款防火墙,其网络结构如图4-1所示,防火墙上配置NAT转换规则如表4-1所示。
防火墙配置遵循最小特权原则(即仅允许需要数据包通过,禁止其他数据包通过),请根据题意回答以下问题。
【问题1】(6分,每空1分)
防火墙设置缺省安全策略如表4-2所示,该策略含义为:内网主机可以访问WebServer、MailServer和Internet,Intemet主机无法访问内网主机和WebServer、MailServer。
如果要给Internet主机开放WebServerWeb服务以及MaiIServer邮件服务,请补充完成表4-3策略。(注:表4-3策略在表4-2之前生效)
【问题2】(3分,每空1分)
如果要禁止内网用户访问Internet上202.10.20.30FTP服务,请补充完成表4-4策略。
(注:表4-4策略在表4-2之前生效)
问题3】(4分,每空1分)
如果要禁止除PC1以外所有内网用户访问Internet上219.16.17.18Web服务,请补充
完成表4-5策略。(注:表4-5策略在表4-2之前生效)
【问题4】(2分,每空1分)
如果要允许Intemet用户通过Ping程序对WebServer连通性进行测试,请补充完成表4-6策略。(注:表4-6策略在表4-2之前生效)
攻克要塞一个分支机构被分配了一个C类地址192.168.36.0/24,该分支机构现在需要分配IP地址有财务、人力资源、销售、审计、计划、服务六个部门,每个部门一个子网,每个部门机器数量不超过25台。请回答以下问题。
【问题1(6分)
为给这六个部门分配IP地址,请问子网掩码是多少,每个子网有多少个地址,可以分配地址有多少?
【问题2】(3分)
给六个部门分配完地址后,还有多少剩余地址,假设地址是从192.168.36.0开始分配,请列出剩余地址段?
【问题3】(3分)
请问地址192.168.36.111网络地址是多少,该网络广播地址是多少?
【问题4】(3分)
该分支机构采用VLAN实现网段划分,请问常规做法是采用什么网络设备实现VLAN划分和互通?
试题一(23分)阅读下列说明,回答问题1至问题4,将解答填入答题纸对应栏内。 【说明】 DHCP是动态主机配置协议,这个协议用于向计算机自动提供IP地址、子网掩码和路由信息。如果由网络管理员分配局域网上客户机IP地址,则会费时费力且容易出错。因此采用DHCP自动分配地址,这时局域网上客户机会向DHCP服务器请求一个IP地址,然后DHCP服务器为每个请求客户机分配一个地址,直到分配完该范围内所有IP地址为止,已经分配IP地址必须定时地延长租用期。这确保了当客户机设备在正常地释放IP地址之前,如果该客户机突然从网络断开,被分配地址就可以归还给服务器。DHCP配置文件中option(选项)如表1-1所示。
【问题1】(5分)
请根据表1-1中选项,把(1)~(5)填写完整。【问题2】(6分)在Linux系统中有如下3个语句,请分别说出它们所执行任务名称。(1)/etc/rc.d/init.d/dhcpd start。(2)/etc/rc.d/init.d/dhcpd stop。(3)/etc/rc.d/init.d/dhcpd restart。【问题3】(8分)Dhcp客户端发出第一个数据包目标MAC地址是(6),目标IP地址是(7),源MAC地址是(8),源IP地址是(9).【问题4】(4分)简述DHCP协议分配IP地址主要过程?
试题二(13分)
阅读下列说明,回答问题1至问题5,将解答填入答题纸对应栏内。 【说明】 某一网络地址块192.168.75.0中有5台主机A、B、C、D和E,它们IP地址及子网掩码如表4-1所示。
【问题1】(5分)
5台主机A、B、C、D、E分属几个网段?哪些主机位于同一网段?【问题2】(2分)主机D网络地址为多少?【问题3】(2分)若要加入第六台主机F,使它能与主机A属于同一网段,其IP地址范围是多少?【问题4】(2分)若在网络中另加入一台主机,其IP地址设为192.168.75.164,它广播地址是多少?哪些主机能够收到?【问题5】(2分)若在该网络地址块中采用VLAN技术划分子网,何种设备能实现VLAN之间数据转发?
阅读以下说明,回答问题1至问题3,将解答填入答题纸对应解答栏内。【说明】某公司网络拓扑结构如图 3-1 所示。网络规划如表3-1所示。
【问题1】(3分,每空1分)如图3-1所示,防火墙接口GE0/0/0、GE0/0/1和GE0/0/2分属于( 1 )、( 2 )、( 3 )。(1)~(2)备选项:A.trust区域 B.untrust区域 C.DMZ区域 (1)(2)(3) 【问题2】(8分,每空2分)如图3-1所示,ISP1作为公司默认互联网出口。该公司拥有2条出口链路,要保证内网机器能够访问互联网,需要在路由器上配置( 4 ),用户希望服务器网段流量都走ISP2出去,则需要在路由器上配置( 5 ),因为服务器网段IP地址是内网地址,服务器要对Internet提供服务,需要在路由器上配置( 6 ),生产区和办公区访问互联网默认走ISP1出去,需要在路由器上配置( 7 )。(4)~(7)备选项:A.策略路由 B.缺省路由 C. 源NAT D.目NAT (4)(5)(6)(7) 【问题3】(9分,每空1分)生产区和办公区用户流量默认走ISP1出口,服务器区域流量走ISP2出口。请根据描述,将下面配置代码补充完整。R1基本配置略……[R1]interface GigabitEthernet 0/0/1[R1-GigabitEthernet0/0/1]ip address 58.60.36.2 29[R1-GigabitEthernet0/0/1]quit[R1]interface GigabitEthernet 0/0/2[R1-GigabitEthernet0/0/2]ip address ( 8 )[R1-GigabitEthernet0/0/2]quit[R1]interface GigabitEthernet 0/0/0[R1-GigabitEthernet0/0/0]ip address 192.168.200.1 24[R1-GigabitEthernet0/0/0]quit[R1]acl( 9 )[R1-acl-basic-2000]rule permit source 192.168.8.0 (10)[R1-acl-basic-2000]rule permit source 192.168.100.0 0.0.0.255[R1-acl-basic-2000]rule permit source 192.168.200.0 0.0.0.255[R1-acl-basic-2000]quit[R1]acl 2001[R1-acl-basic-2001]rule permit source 192.168.100.0 0.0.0.255[R1-acl-basic-2001]quit[R1]nat address-group 1 58.60.36.3 58.60.36.6[R1]interface GigabitEthernet 0/0/1[R1-GigabitEthernet0/0/1]nat outbound 2000 address-group 1[R1-GigabitEthernet0/0/1]quit[R1]interface GigabitEthernet 0/0/2[R1-GigabitEthernet0/0/2]nat outbound 2000[R1-GigabitEthernet0/0/2]quit[R1]ip route-static 192.168.8.0 22 ( 11 )[R1]ip route-static 192.168.100.0 24 ( 12 )[R1]ip route-static 0.0.0.0 0 58.60.36.1[R1]ip route-static 0.0.0.0 0 113.250.13.1( 13 )//把ISP2这条链路作为浮动路由,作为应急触发备份路径[R1]traffic classifier (14)[R1-classifier-c1]if-match acl 2001 [R1-classifier-c1]quit[R1]traffic behavior b1[R1-behavior-b1]redirect ip-nexthop 113.250.13.1[R1-behavior-b1]quit[R1]traffic policy p1[R1-trafficpolicy-p1]classifier c1 behavior b1[R1-trafficpolicy-p1]quit[R1]interface ( 15 )[R1-GigabitEthernet0/0/0]traffic-policy p1(16) [R1-GigabitEthernet0/0/0]quit[R1]……(8)-(15) 备选答案A.113.250.13.2 30 B.192.168.200.2 C. GigabitEthernet0/0/0 D. preference 100 E. 192.168.200.3 F. 0.0.3.255 G. 2000 H. c1I. inbound (8)(9)(10)(11)(12)(13)(14)(15)(16)