BigData

大数据最流行的框架是hadoop.

大部分工具都属于Apache基金会的项目.

MPP

Massive Parallel Process

大规模并行处理数据库包括impala, hawq


分布式存储

hadoop hdfs


资源调度

hadoop yarn


分布式计算框架

hadoop mapreduce

Spark

流式计算框架

Storm


部署工具

Ambari

用于配置,管理,监控hadoop集群的web工具.

Bigtop

对hadoop相关软件打包,分发,测试的工具.

whirr

Cloudera Hue

Hortonworks hoya

服务编程

Zookeeper

分布式应用程序的高性能协调服务

Curator

Avro

chuckwa

用于监控大型分布式系统的数据收集系统.


交互式分析框架(Sql On Hadoop)

Facebook Presto

Hive

Hawq(Pivotal)

Hortonworks的HDP集成了HAWQ.

Impala(Cloudera)

Cloudera的CHD集成了Impala.

交互式分析框架(NoSQL On Hadoop)

HBase

Cassandra


数据管理工具

Sqoop

Flume

消息队列

Kafka

Pivotal RabbitMQ


DSL

Pig


Workflow and Lifecycle

Oozie

aurora

falcon


Security

Sentry


Data search

Solr

Nutch

Lucene


Data Analytics

Mahout

Kudu(Cloudera)


Misc

hama

giraph

crunch

hcatalog