TEL:400-123-4567

关于我们

大数据_数据挖掘技术分类及应用

大数据_数据挖掘技术分类及应用

详细介绍

   大数据简介

  大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

  最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

大数据_数据挖掘技术分类及应用

  大数据特征

  容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;

  种类(Variety):数据类型的多样性;

  速度(Velocity):指获得数据的速度;

  可变性(Variability):妨碍了处理和有效地管理数据的过程。

  真实性(Veracity):数据的质量

  复杂性(Complexity):数据量巨大,来源多渠道

  价值(value):合理运用大数据,以低成本创造高价值

  数据挖掘技术分类及应用   数据挖掘技术概况

  基于Internet的全球信息系统的发展使我们拥有了前所未有的丰富数据。大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。数据丰富、知识贫乏已经成为一个典型问题。Data Mining(数据挖掘)的目的就是有效地从海量数据中提取出需要的答案,实现“数据-〉信息-〉知识-〉价值”的转变过程。

  (数据挖掘)是指用非平凡的方法从海量的数据中抽取出潜在的、有价值的知识(模型或规则)的过程。该术语还有其他一些同义词:数据库中的知识发现 、信息抽取 、信息发现 、智能数据分析 、探索式数据分析( 、信息收获 、数据考古 等。

  Data Mining(数据挖掘)是数据库研究、开发和应用最活跃的一个分支,是多学科的交叉领域,它涉及数据库技术、人工智能、机器学习、神经网络、数学、统计学、模式识别、知识库系统、知识获取、信息提取、高性能计算、并行计算、数据可视化等多方面知识。

  数据挖掘技术从一开始就是面向应用的,它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。例如加拿大BC省电话公司要求加拿大SimonFraser大学KDD研究组,根据其拥有十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。这样一来,就把人们对数据的应用,从低层次的末端查询操作,提高到为各级经营决策者提供决策支持。这种需求驱动力,比数据库查询更为强大。同时,这里所说的数据挖掘,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易于被用户理解,最好能用自然语言表达发现结果。因此数据挖掘的研究成果是很讲求实际的。

大数据_数据挖掘技术分类及应用


 

  数据挖掘技术应用

  数据挖掘技术可以为决策、过程控制、信息管理和查询处理等任务提供服务,一个有趣的应用范例是“尿布与啤酒”的故事。为了分析哪些商品顾客最有可能一起购买,一家名叫 WalMart的公司利用自动数据挖掘工具,对数据库中的大量数据进行分析后,意外发现,跟尿布一起购买最多的商品竟是啤酒。为什么两件风马牛不相及的商品会被人一起购买?原来,太太们常叮嘱她们的丈夫,下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了两瓶啤酒。既然尿布与啤酒一起购买的机会最多,商店就将它们摆放在一起,结果,尿布与啤酒的销售量双双增长。这里,数字挖掘技术功不可没。一般来说,数据挖掘的应用有电信:流失;银行:聚类(细分),交叉销售;百货公司/超市:购物篮分析(关联规则);保险:细分,交叉销售,流失(原因分析);信用卡: 欺诈探测,细分;电子商务:网站日志分析;税务部门:偷漏税行为探测;警察机关:犯罪行为分析;医学:医疗保健。具体如下:

  电子政务的数据挖掘

Copyright © 2014-2019 澳门葡京 版权所有    ICP备********号