常用大数据分析方法

数据挖掘分析,最重要的是能够将数据转化为非专业人士也能够清除理解的有意义的见解。

四类分析方法

数据挖掘分析,可以被分为四类核心方法:

描述型分析:发生了什么?

是最常见的数据分析方法。在业务中,这种方法向数据分析师提供了重要指标和业务的衡量方法。

例如:每月的营收和损失账单。数据分析师可以通过这些账单,获得大量的客户数据。

了解客户的地理信息,就是“描述型分析”方法之一。利用可视化工具,能够有效的增强描述型分析所提供的信息。

诊断型分析:为什么会发生?

描述型数据分析的下一步就是诊断型数据分析。通过评估描述型数据,诊断分析工具能够让数据分析师深入的分析数据,钻取到数据的核心。良好设计的BI Dashboard能够整合:按照时间序列进行数据读入、特征过滤和钻取数据等功能,以便更好的进行数据分析。

预测型分析:可能发生什么?

预测型分析主要进行预测。针对时间未来发生的可能性,预测一个可量化的值,或者是预测可能发生的事件,或者是预估事件发生的时间点,这些都是通过预测模型来实现的。

预测模型通常会使用各种可变数据来实现预测。数据成员的多样化与预测结果密切相关。

在充满不确定性的环境下,预测能够帮助做出更好的决定。预测模型也是很多领域正在使用的重要方法。

指令型分析:需要做什么?

数据价值和复杂度分析的下一步就是指令型分析,预测下一步需要做什么。

指令模型基于对“发生了什么”、“为什么会发生”和“可能发生什么”的分析,来帮助用户决定应该采取什么措施。通常情况下,指令型分析不是单独使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。

例如:交通规划分析考量了每条路线的距离、每条路线的行驶速度、以及目前的交通管制等方面的因素,来帮助选择最好的回家路线。

九种数据分析手段

分类

分类是一种基本的数据分析方式,数据根据其特点,可将数据对象划分为不同的部分和类型,再进一步分析,能够进一步挖掘事物的本质。

回归

回归是一种运用广泛的统计分析方法,可以通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各参数,然后评估回归模型是否能够很好的拟合实测数据,如果能够很好的拟合,则可以根据自变量作进一步的预测。

聚类

聚类是根据数据的内在性质将数据分成一些聚合类,每一个聚合类中的元素尽可能具有相同的特性,不同聚合类之间的特性差别尽可能大的一种分类方法,其与分类分析不同,所划分的类是未知的,因此,聚类分析也称为无监督学习。

数据聚类是对于静态数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。

相似匹配

相似匹配是通过一定的方法,来计算两个数据的相似程度,相似程度通常会用一个百分比来衡量。相似匹配算法被用在很多不同的计算场景中,如数据清洗、用户输入纠错、推荐统计、剽窃检测系统、自动评分系统、网页搜索和DNA序列匹配等领域。

频繁项集

频繁项集是指事例中频繁出现的项的集合,如啤酒喝尿不湿,Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集,已被广泛应用在商业、网络安全等领域。

统计描述

统计描述是根据数据的特点,用一定的统计指标和指标体系,表明数据所反馈的信息,是对数据分析的基础处理工作,主要方法包括:平均指标和变异指标的计算、资料分布形态的图形表现等。

链接预测

链接预测是一种预测数据之间本应存有的关系的一种方法,链接预测可分为基于节点属性的预测和基于网络结构的预测,基于节点之间属性的链接预测包括分析节点资审的属性和节点之间属性的关系等信息,利用节点信息知识集和节点相似度等方法得到节点之间隐藏的关系。与基于节点属性的链接预测相比,网络结构数据更容易获得。复杂网络领域一个主要的观点表明,网络中的个体的特质没有个体间的关系重要。因此基于网络结构的链接预测受到越来越多的关注。

数据压缩

数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术。数据压缩分为有损压缩和无损压缩。

因果分析

因果分析方法是利用事物发展变化的因果关系来进行预测的方法,运用因果分析法进行市场预测,主要是采用回归分析方法。