业务内容

数据挖掘

数据挖掘最重要的要素是分析人员的相关业务知识和思维模式。一般来说,数据挖掘主要侧重解决四类问题:分类、聚类、关联、预测。数据挖掘非常清晰的界定了它所能解决的几类问题。

一、分类问题
分类问题属于预测性的问题,但是它跟普通预测问题的区别在于其预测的结果是类别(如A、B、C三类)而不是一个具体的数值(如55、65、75……)。
二、聚类问题 
聚类问题不属于预测性的问题,它主要解决的是把一群对象划分成若干个组的问题。划分的依据是聚类问题的核心。
三、关联问题
说起关联问题,可能要从“啤酒和尿布”说起了。有人说啤酒和尿布是沃尔玛超市的一个经典案例,也有人说,是为了宣传数据挖掘/数据仓库而编造出来的虚构的“托”。不管如何,“啤酒和尿布”给了我们一个启示:世界上的万事万物都有着千丝万缕的联系,我们要善于发现这种关联。
四、预测问题
此处说的预测问题指的是狭义的预测,并不包含前面阐述的分类问题,因为分类问题也属于预测。一般来说我们谈预测问题主要指预测变量的取值为连续数值型的情况。

工具 说明
RapidMiner 首先,RapidMiner功能强大,它除了提供优秀的数据挖掘功能,还提供如数据预处理和可视化、
预测分析和统计建模、评估和部署等功能
WEKA WEKA支持多种标准数据挖掘任务,包括数据预处理、收集、分类、回归分析、可视化和特征选取,
由于功能多样,让它能够被广泛使用于很多不同的应用——包括数据分析以及预测建模的可视化和算法当中。
Orange 有生物信息和文本挖掘,可以说是充满了数据分析的各种功能。而且,Orange的可视化编程和Python脚本如行云流水,定能让你拥有畅快的使用感。
NLTK 提供了一个语言处理工具,包括数据挖掘、机器学习、数据抓取、情感分析等各种语言处理任务。
KNIME KNIME是一个开源的数据分析、报告和综合平台,同时还通过其模块化数据的流水型概念,
集成了各种机器学习的组件和数据挖掘。同时,KNIME还为用户提供了一个图形化的界面,
以便用户对数据节点进行进一步的处理,十分贴心。

联系我们

  • 总公司 86-411-3989-5558
  • 東京分公司 050-5539-8972