Hadoop에서 가장 많이 쓰이는 명령어로 아래와 같이 job을 수행하는 것이 있다.
/bin/hadoop jar [jar file] [arguments..]
상기와 같이 jar를 실행하게되면 hadoop은 어떤 node로 어떤 job을 보내게 되는걸까?
- Client 혹은 interface server에서 hadoop jar와 함께 command를 입력
- Client는 실행에 대한 신규 application Id를 발급받. 그리고 jar file은 HDFS의 job resource로 복사(by default 10 on large clusters)
- Cluster(각 데이터노드)에서 실행됨.
(다만 hadoop config에 local 설정을 하게 되면 해당 호스트에서 실행됨)
반응형
'빅데이터 > 하둡' 카테고리의 다른 글
HDFS cilent 사용시 HA구성된 node 연결하기 (0) | 2020.03.11 |
---|---|
pyspark에서 gzip으로 압축되어 있는 파일 읽는 방법 (0) | 2020.02.11 |
pyspark에러 ImportError: No module named XXXX (1) | 2020.02.10 |
[local hadoop]localhost port 22: Connection refused 에러 발생시 해결방법 in MacOS (0) | 2020.01.16 |
Java로 AWS s3에 간단히 file write하기(hadoop-aws 라이브러리 사용, NativeS3FileSystem) (249) | 2019.07.11 |
Hdfs dfs 명령어 정리 및 설명(ls, cat, du, count, copyFromLocal 등) (391) | 2018.12.11 |