빅데이터 분석은 보통 다음과 같은 파이프라인을 거친다. (실무로 배우는 빅데이터 기술, p.13)
각 레이어별 사용하는 도구들
수집
Flume, Logstash, Strom 등
적재
HDFS, NoSQL(HBase, MongoDB), In-memory cache (Redis, Memcached), Messaging (Kafka, RabbitMQ) 등
처리/탐색
SQL on Hadoop (Hive, Spark) 등
분석/응용
Zeppelin, Mahoutm Sqoop 등