当前位置: 首页» 开放共性工具» 数据分析工具

声明:本栏目意在向用户介绍部分与数据处理相关的工具,以方便用户借助这些工具处理从本网站获取的开放数据。所有工具的相关信息均来源于网络,版权归原作者或者来源机构所有,如果有涉及任何版权方面的问题,请及时与我们联系。

RapidMiner

开发者:RapidMiner公司



Rapid Miner是一个数据科学软件平台,为数据准备、机器学习、深度学习、文本挖掘和预测分析提供一种集成环境。它是领先的数据挖掘开源系统之一。该程序完全用Java编程语言编写。该程序提供了一个选项,以便用户试用大量可任意嵌套的操作符,这些操作符在XML文件中有详细说明,可由Rapid Miner的图形用户界面来构建。

Orange

开发者:卢布尔雅那大学



Orange是一个开源数据可视化、机器学习和数据挖掘工具包。Orange基于 Python和C/C++开发,提供了一系列的数据探索、可视化、预处理以及建模组件,可用于探索性数据分析和交互式数据可视化。Orange拥有漂亮直观的交互式用户界面,非常适合新手进行探索性数据分析和可视化展示;同时高级用户也可以将其作为Python的一个编程模块进行数据操作和组件开发。

Weka

开发者:新西兰怀卡托大学



怀卡托知识分析环境(Weka)是新西兰怀卡托大学开发的一套机器学习软件。该软件用Java编写。它含有一系列面向数据分析和预测建模的可视化工具和算法,附带图形用户界面。Weka支持几种标准数据挖掘任务,更具体地说是指数据预处理、聚类、分类、回归、可视化和特征选择。

R-Programming

开发者:奥克兰大学



R-programming的简称R,被广泛应用于数据挖掘、开发统计软件以及数据分析中。作为一款针对编程语言和软件环境进行统计计算和制图的免费软件,它主要是由C语言和FORTRAN语言编写的,并且很多模块都是由R编写的,具有出色的易用性和可扩展性,提供统计和制图技术,包括线性和非线性建模,经典的统计测试,时间序列分析、分类、收集等。

NLTK

开发者:由Steven Bird和Edward Loper在宾夕法尼亚大学计算机和信息科学系开发



著名的开源数据挖掘工具——NLTK,提供了一个语言处理工具,包括数据挖掘、机器学习、数据抓取、情感分析等各种语言处理任务,具有高智能性。另外,它是用Python语言编写的,用户可以直接在上面建立应用,还可以自定义小任务,十分便捷。

Spark

开发者:Apache软件基金会, 加州大学柏克莱分校AMPLab, Databricks



Apache Spark是一个开源簇运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍,即便是运行程序于硬盘时,Spark也能快上10倍速度。Spark允许用户将数据加载至簇存储器,并多次对其进行查询,非常适合用于机器学习算法。

Storm

开发者:Backtype, Twitter



Storm是一个分布式计算框架,主要由Clojure编程语言编写。最初是由Nathan Marz及其团队创建于BackType,该项目在被Twitter取得后开源。它使用用户创建的“管(spouts)”和“螺栓(bolts)”来定义信息源和操作来允许批量、分布式处理流式数据。

SPSS

开发者:IBM公司



SPSS是统计产品与服务解决方案(Statistical Product and Service Solutions)的简称,为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,有Windows和Mac OS X等版本。

共8条,分1页,当前第1页