仓酷云

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1303|回复: 8
打印 上一主题 下一主题

[学习教程] MSSQL教程之数据发掘概述(又)

[复制链接]
因胸联盟 该用户已被删除
跳转到指定楼层
楼主
发表于 2015-1-16 22:26:49 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
如果WHERE子句的查询条件里使用比较操作符LIKE和REGEXP,MySQL只有在搜索模板的第一个字符不是通配符的情况下才能使用索引。比如说,如果查询条件是LIKEabc%‘,MySQL将使用索引;如果查询条件是LIKE%abc’,MySQL将不使用索引。数据
数据发掘工具是如何正确地告知你那些埋没在数据库深处的主要信息的呢?它们又是怎样作出展望的?谜底就是建模。建
模实践上就是在你晓得了局的情形下创建起一种模子,而且把这类模子使用到你所不晓得的那种情形中。好比说,假如你
想要在年夜海上往寻觅一艘陈旧的西班牙沉船,大概你起首想到的就是往找找已往发明这些宝躲的工夫和地址有哪些。那
么,经由查询拜访你发明这些沉船年夜部分都是在百慕年夜海区被发明,而且谁人海区有着某种特性的洋流,和谁人时期的航路
也有必定的特性可寻。在这浩瀚的相似特性中,你将它们笼统并归纳综合为一个普适的模子。使用这个模子,你就很有但愿在
具有大批不异特性的别的一个地址发明一件不为人知的宝躲。

固然,在数据发掘手艺乃至盘算机呈现之前,这类建模笼统的办法就已普遍地被人们所利用。在盘算机中的建模和
之前的建模办法并没有很年夜分歧,次要的差别在于盘算性能处置的信息量比起之前来加倍复杂。盘算机中可以存储已知了却
果的大批分歧情形,然后由数据发掘工具从这些大批的信息内里去伪存真,将可以发生模子的信息提掏出来。一当模子建
立好了以后,就能够使用在那些情况类似但了局还没有知的判别中了。好比,如今假定你是一个电信公司的营销主任,公司
想开展一些新的远程德律风用户,那末你是否是会漫无目标地到街上往分发告白呢?――就象漫无目标地在海上往寻宝一
样。实在,比起漫无目标地往举行宣扬来,使用你之前的贸易履历来有目标地往撮合客户会发生高很多的效力。

作为一个营销主任,你对客户的良多信息都能够懂得得一览无余:岁数、性别、信誉纪录和远程德律风利用情况。从
好的一方面来看,把握了这些客户的信息实在就是把握了良多潜伏的用户的一样的信息。成绩在于你还纷歧定懂得他们的
远程德律风利用情形(由于他们的远程德律风大概是经由过程的另外一个电信公司)。如今你的次要精神就会合在用户中谁有对照多
的远程德律风上。经由过程上面这个表格,我们能够从数据库内里笼统某些变量,创建起一个能够对此举行分类营销的模子。
 客户潜力
一样平常信息
(e.g.demographicdata)已知已知
公有信息
(e.g.customertransactions)已知待定

表2、数据发掘使用于分类营销

依据我们创立的从一样平常信息到公有信息的盘算模子,我们能够得出表二右下方表格中的信息。好比,一个电信公司的
简化模子能够是:年薪6万美圆以上的98%的客户,每月长话费80美圆以上。依据这个模子,我们就可以使用这些数据来推
断出公司如今尚不克不及明白的公有信息,如许,新客户群体就能够大致断定出来了。小型市场的试销数据关于如许的模子来
说显得极其有效。由于小局限内试销数据的发掘,可以为全体市场的分类发卖打下一个优秀的基本。表三则形貌了别的一
样数据发掘的广泛使用:展望。
 已往如今未来
静态信息和以后企图已知已知已知
静态信息已知已知待定

表3、数据发掘使用于展望

数据发掘的系统布局

现有良多数据发掘工具是自力于数据堆栈之外的,它们必要自力地输出输入数据,和举行绝对自力的数据剖析。为
了最年夜限制地发扬数据发掘工具的潜力,它们必需象良多贸易剖析软件一样,严密地和数据堆栈集成起来。如许,在人们
对参数和剖析深度举行变更的时分,高集成度就可以年夜年夜地简化数据发掘历程。下图显现了一个年夜型数据库中的初级剖析过
程。




集成后的数据发掘系统

使用数据发掘手艺,较为幻想的出发点就是从一个数据堆栈入手下手,这个数据堆栈内里应保留着一切客户的条约信息,并
且还应有响应的市场合作敌手的相干数据。如许的数据库能够是各类市场上的数据库:Sybase、Oracle、Redbrick、和其
他等等,而且能够针对个中的数据举行速率上和天真性上的优化。

联机剖析体系OLAP服务器可使一个非常庞大的终极用户贸易模子使用于数据堆栈中。数据库的多维布局可让用户
从分歧角度,――好比产物分类,地区分类,大概其他关头角度――来剖析和察看他们的买卖运营情况。数据发掘服务器
在这类情形下必需和联机剖析服务器,和数据堆栈严密地集成起来,如许就能够间接跟踪数据和并帮助用户疾速作出商
业决议,而且用户还能够在更新数据的时分不休发明更好的举动形式,并将其使用于将来的决议傍边。

数据发掘体系的呈现代表着惯例决议撑持体系的基本布局的变化。不象查询和报表言语仅仅是将数据查询了局反应给
终极用户那样,数据发掘初级剖析服务器把用户的贸易模子间接使用于其数据堆栈之上,而且反应给用户一个相干信息的
剖析了局。这个了局是一个经由剖析和笼统的静态视图层,一般会依据用户的分歧需求而变更。基于这个视图,各类报表
工具和可视化工具就能够将剖析了局展示在用户眼前,以匡助用户企图将接纳如何的举动。

发生利润的工具

有良多公司都乐成地安装了数据发掘工具。新近接纳了这类手艺的公司年夜部分都是信息麋集型公司,好比金融服务和
邮件营销体系,可是如今这类手艺已筹办好使用于各个公司中,只需公司具有年夜型数据库,而且有激烈的经由过程软件手艺
改良公司办理的希望。可是接纳数据发掘手艺,公司必需两个关头的要素,一个就是年夜型的,集成化的数据库;另外一个就
是界说完美的贸易处置程序,如许数据发掘才好严密地使用于公司数据之上。

接纳数据发掘手艺的一些乐成使用,比方一个药品公司,经由过程对它比来的营销强度和发卖了局的剖析,来决意哪种
营销举动在比来几个月内对高附加值的大夫群体影响最年夜,如许的剖析创建在合作敌手的发卖举动信息和外地安康情况的
数据体系之上。然后这个药品公司能够经由过程其办公收集,将剖析了局转达到各地的发卖代表处,发卖代表们则能够依据公
司传送的关头信息来作出响应的发卖决定,如许,在疾速变更的、静态的市场上,发卖代表们都能够依据各类特别情形的
剖析作出最优的选择。

结语
周全集成了客户、供给者和市场信息的年夜型数据堆栈招致公司内的信息呈爆炸性增加,企业在市场合作中,必要及
时而正确地对这些信息作庞大的剖析。为了加倍实时地,加倍正确地作出利于企业的决定,创建在干系数据库和联机剖析
手艺上的数据发掘工具为我们带来了一个新的起色。今朝,数据发掘工具正之前所未有的速率开展,而且扩展着用户群
体,在将来越加剧烈的市场合作中,具有数据发掘手艺势必比他人取得更疾速的反响,博得更多的贸易时机。
这能找出所有错误的99.99%。它不能找出的是仅仅涉及数据文件的损坏(这很不常见)。如果你想要检查一张表,你通常应该没有选项地运行myisamchk或用-s或--silent选项的任何一个。
蒙在股里 该用户已被删除
沙发
发表于 2015-1-19 12:43:34 | 只看该作者
其实可以做一下类比,Oracle等数据库产品老早就支持了java编程,而且提供了java池参数作为用户配置接口。但是现在有哪些系统大批使用了java存储过程?!连Oracle自己的应用都不用为什么?!
不帅 该用户已被删除
板凳
发表于 2015-1-28 07:08:22 | 只看该作者
这就引发了对varchar和char效率讨论的老问题。到底如何分配varchar的数据,是否会出现大规模的碎片?
海妖 该用户已被删除
地板
发表于 2015-2-5 19:37:02 | 只看该作者
但是随着数据量的增大,这种成本差距会逐渐减小,趋于相等。(500万数量级只相差10%左右)
山那边是海 该用户已被删除
5#
发表于 2015-2-13 09:25:50 | 只看该作者
连做梦都在想页面结构是怎么样的,绝非虚言
莫相离 该用户已被删除
6#
发表于 2015-3-3 19:49:55 | 只看该作者
个人感觉没有case直观。而且默认的第三字段(还可能更多)作为groupby字段很容易造成新手的错误。
小女巫 该用户已被删除
7#
发表于 2015-3-11 13:19:24 | 只看该作者
另一个是把SQL语句写到服务器端,就是所谓的SP(存储过程);
金色的骷髅 该用户已被删除
8#
发表于 2015-3-18 20:44:10 | 只看该作者
个人感觉没有case直观。而且默认的第三字段(还可能更多)作为groupby字段很容易造成新手的错误。
第二个灵魂 该用户已被删除
9#
发表于 2015-3-26 16:20:07 | 只看该作者
SQLServer的异构移植功能个人感觉最好了。(如果对比过SQLServer的链接服务器和Oracle的透明网关的朋友会发现SQLServer的sp_addlinkedserver(openquery)异构数据库系列比Oracle真是强太多了。)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|仓酷云 鄂ICP备14007578号-2

GMT+8, 2024-5-18 03:54

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表