Apache 5

[KAFKA]commitSync() 사용시 rebalance발동시 offset variable을 초기화 해야하는 이유?

아래는 oreilly의 Kafka: The Definitive Guide(카프카 핵심가이드)의 commitSync()와 rebalanceListener를 사용하여 topic을 consume하는 예시 코드이다. url : https://www.oreilly.com/library/view/kafka-the-definitive/9781491936153/ch04.html private Map currentOffsets = new HashMap(); private class HandleRebalance implements ConsumerRebalanceListener { public void onPartitionsAssigned(Collection partitions) { } public void onPartit..

빅데이터/Kafka 2019.09.30
Kafka consumer의 Automatic Commit은 중복이 생길 수 있다

https://books.google.co.kr/books?id=a3wzDwAAQBAJ&pg=PA77&lpg=PA77 Kafka: The Definitive Guide Every enterprise application creates data, whether it’s log messages, metrics, user activity, outgoing messages, or something else. And how to move all of this data becomes nearly as important as the data itself. If you’re an application architect, develop books.google.co.jp 참고 출처 - Kafka Definitive gui..

빅데이터/Kafka 2019.09.25
shell script - apache access log에서 접근 url top 10 추출하기

아래와 같은 apache access log가 존재한다고 가정하자 테스트 데이터 127.0.0.1 - - [10/Feb/2019:11:11:55 +0000] "GET / HTTP/1.1" 10.10.30.3 - - [10/Oct/2018:13:55:36 -0700] "GET /apache_pb.gif" 10.10.30.2 - - [10/Oct/2019:13:55:36 -0100] "GET /two.html" ... ... 상기 apache access log 중 log 앞에 있는 access ip를 뽑아서 top 10을 script로 뽑으려면 어떻게 해야할까? 1. cat과 awk로 ip만 추출 명령어 $ cat test_apache_log.txt|awk '{print $1}' cat과 awk를 통해 아..

개발이야기 2019.08.30
NoSQL강의) HBase 개요, 특징, client 설명 + Apache Phoenix

HBase의 특징 Apache HBase – Apache HBase™ Home Welcome to Apache HBase™ Apache HBase™ is the Hadoop database, a distributed, scalable, big data store. Use Apache HBase™ when you need random, realtime read/write access to your Big Data. This project's goal is the hosting of very large tables -- billions hbase.apache.org HBase 저장 아키텍처 ▪ HMaster : HRegionServer의 모니터링을 담당 ▪ HRegionServer : 데이터를 분산저장하는 ..

빅데이터/nosql 2019.07.23
빅 데이터 처리를 위한 아파치 Kafka 개요 및 설명

Apache Kafka LinkedIn에서 최초로 만들고 opensource화 한 확장성이 뛰어난 분산 메시지 큐(FIFO : First In First Out) → 분산 아키텍쳐 구성, Fault-tolerance한 architecture(with zookeeper), 데이터 유실 방지를 위한 구성이 잘되어 있음→ AMQP, JMS API를 사용하지 않은 TCP기반 프로토콜 사용→ Pub / Sub 메시징 모델을 채용→ 읽기 / 쓰기 성능을 중시 → Producer가 Batch형태로 broker로 메시지 전송이 가능하여 속도 개선→ 파일 시스템에 메시지를 저장하므로, 데이터의 영속성 보장→ Consume된 메시지를 곧바로 삭제하지 않고 offset을 통한 consumer-group별 개별 consume..

빅데이터/Kafka 2018.12.24