TIL

Remote Partitioning

로컬 파티셔닝의 한계

로컬 파티셔닝은 단일 JVM 내에서 병렬 처리하므로, 다음 두 가지 물리적 한계에 부딪힌다:
- 메모리 고갈: 파티션 수가 늘어나면 단일 JVM 힙 메모리가 부족해져 OutOfMemoryError 발생
- 처리량 상한: 단일 머신의 CPU, 디스크 I/O, 네트워크 I/O 용량에 의해 최대 처리량이 물리적으로 제한
이 한계를 돌파하려면 처리를 여러 머신(JVM)으로 분산하는 수평적 확장이 필요하다

로컬 vs 원격 파티셔닝

지표	로컬 파티셔닝	원격 파티셔닝
실행 환경	단일 JVM, 다중 스레드	여러 머신에 걸친 다중 JVM
메모리/처리 능력	단일 머신으로 제한	노드 추가로 선형 확장
실행 방법	직접 메서드 호출	메시지 기반 통신
결과 수집	동기식	비동기식

아키텍처 구성요소

원격 파티셔닝은 세 가지 구성요소로 작동한다:

Manager Node: 데이터를 직접 처리하지 않고, 파티셔닝 후 StepExecutionRequest를 Message Broker를 통해 Worker에게 전송
- 로컬의 TaskExecutorPartitionHandler 대신 MessageChannelPartitionHandler를 사용
Message Broker: Manager와 Worker 간의 비동기 통신을 중개하는 미들웨어 (Kafka, RabbitMQ 등)
- 이것 없이는 원격 파티셔닝 자체가 불가능
Worker Node: 별도 JVM에서 실행되며, Broker로부터 메시지를 수신하면 Worker Step을 실행
- 메시지 수신이 스텝 실행의 트리거 역할 — 로컬 파티셔닝의 직접 메서드 호출과의 근본적 차이

Manager/Worker 구성

Manager, Worker 모두 @EnableBatchIntegration 어노테이션이 필수인데 아래 컴포넌트들이 자동 등록된다.
- RemotePartitioningManagerStepBuilderFactory
- RemotePartitioningWorkerStepBuilderFactory
원격 파티셔닝은 Spring Integration에 의존한다 — 메시지 채널과 IntegrationFlow를 통해 Broker와의 통신 파이프라인을 구성한다
- 채널(MessageChannel): Spring Integration의 핵심 추상화로, 컴포넌트 간 메시지를 전달하는 통로
  - DirectChannel: 동기식, 메시지가 들어오면 즉시 하나의 핸들러에 전달
  - QueueChannel: 비동기식, 내부 큐에 메시지를 보관하여 소비자가 가져갈 때까지 대기
- IntegrationFlow: 메시지가 채널에 들어온 후 어디로 어떻게 흘러가는지를 정의하는 파이프라인 DSL (from → handle → channel 등을 체이닝)

Manager Node

RemotePartitioningManagerStepBuilderFactory로 Manager Step을 생성한다
- 내부적으로 MessageChannelPartitionHandler를 구성하여 메시지 채널을 통해 파티션 요청을 전송
로컬 파티셔닝과의 차이: .step() 메서드가 없다 — 워커 스텝을 직접 지정할 필요가 없음
outputChannel(): StepExecutionRequest 메시지를 Broker로 내보내는 채널을 지정
IntegrationFlow: outputChannel로 들어온 메시지를 Kafka 토픽으로 전송하는 파이프라인

// Manager 설정 (@Profile("manager"), @EnableBatchIntegration)
// RemotePartitioningManagerStepBuilderFactory는 @EnableBatchIntegration이 자동 등록

@Bean
public Step managerStep() {
    return remotePartitioningManagerStepBuilderFactory
            .get("managerStep")
            .partitioner("workerStep", partitioner)
            .outputChannel(outboundRequests()) // 메시지를 내보낼 채널 지정
            .gridSize(4)
            .build();
}

@Bean
public DirectChannel outboundRequests() { return new DirectChannel(); }

@Bean // outputChannel → Kafka 토픽으로 전송하는 파이프라인
public IntegrationFlow outboundFlow(KafkaTemplate<Long, StepExecutionRequest> kafkaTemplate) {
    KafkaProducerMessageHandler<Long, StepExecutionRequest> handler =
            new KafkaProducerMessageHandler<>(kafkaTemplate);
    handler.setTopicExpression(new LiteralExpression("remote-partitioning"));
    return IntegrationFlow
            .from(outboundRequests()) // 이 채널에 메시지가 들어오면
            .handle(handler)          // Kafka로 전송
            .get();
}

Worker Node

RemotePartitioningWorkerStepBuilderFactory로 Worker Step을 생성한다
Worker에는 Job 정의가 없다 — Job은 Manager에서만 관리되고, Worker는 메시지를 수신해 스텝만 실행
inputChannel(): Broker로부터 StepExecutionRequest를 수신하는 채널을 지정 (Manager의 outputChannel과 대응)
IntegrationFlow: Kafka 토픽을 구독하여 수신된 메시지를 inputChannel로 전달하는 파이프라인

// Worker 설정 (@Profile("worker"), @EnableBatchIntegration)

@Bean
public Step workerStep() {
    return remotePartitioningWorkerStepBuilderFactory
            .get("workerStep")
            .inputChannel(inboundRequests()) // 메시지를 수신할 채널 지정
            .<Input, Output>chunk(500, transactionManager)
            .reader(reader)
            .processor(processor)
            .writer(writer)
            .build();
}

@Bean // 비동기 수신을 위해 QueueChannel 사용
public QueueChannel inboundRequests() { return new QueueChannel(); }

@Bean // Kafka 토픽 → inputChannel로 전달하는 파이프라인
public IntegrationFlow inboundFlow(ConsumerFactory<String, String> cf) {
    return IntegrationFlow
            .from(Kafka.messageDrivenChannelAdapter(cf, "remote-partitioning"))
            .channel(inboundRequests()) // 수신된 메시지를 이 채널로 전달
            .get();
}

Kafka 파티션 라우팅

Kafka의 제약: 동일 Consumer Group 내에서 한 파티션은 하나의 컨슈머만 구독할 수 있다
따라서 각 Worker가 고유한 Kafka 파티션을 구독하고, Manager는 StepExecution ID를 기반으로 적절한 Kafka 파티션에 메시지를 분배해야 한다
이 라우팅 로직은 프레임워크가 제공하지 않으므로 직접 구현해야 한다
Manager의 IntegrationFlow에서 KafkaProducerMessageHandler.setPartitionIdExpression()으로 라우팅 전략을 주입한다

// Manager의 IntegrationFlow에서 파티션 라우팅 설정
handler.setPartitionIdExpression(new FunctionExpression<>(message -> {
    StepExecutionRequest request = (StepExecutionRequest) message.getPayload();
    return request.getStepExecutionId() % partitionSize; // modulo 연산으로 분배
}));

메시지 교환 메커니즘

Manager가 전송하는 메시지

MessageChannelPartitionHandler.doHandle()은 각 파티션의 StepExecution마다 StepExecutionRequest 메시지를 생성하여 outputChannel로 전송한다
핵심 설계: 파티션 데이터 자체를 전송하지 않는다 — ExecutionContext나 StepExecution 객체가 아닌, 세 가지 식별자만 전송:
- stepName: 실행할 Worker Step의 이름
- jobExecutionId: 현재 Job의 ID
- stepExecutionId: 처리할 파티션의 StepExecution ID

Worker의 메시지 처리

StepExecutionRequestHandler.handle()이 수신된 메시지를 처리한다 (RemotePartitioningWorkerStepBuilder가 내부적으로 등록)
처리 흐름:
1. StepExecutionRequest에서 jobExecutionId와 stepExecutionId를 추출
2. JobExplorer를 통해 공유 JobRepository에서 해당 StepExecution을 조회 — 여기에 파티션의 ExecutionContext(데이터 범위 정보)가 포함되어 있다
3. stepName으로 Worker Step 빈을 찾아 step.execute(stepExecution) 실행

Manager와 Worker가 JobRepository를 공유해야 하는 이유

Manager가 메시지에 파티션 데이터를 직접 담지 않고 ID만 보내므로, Worker는 해당 ID로 JobRepository를 조회하여 ExecutionContext를 가져와야 한다
따라서 모든 노드가 동일한 JobRepository(DB)에 접근 가능해야 원격 파티셔닝이 동작한다

실행 순서와 주의사항

Worker를 먼저 실행한 뒤 Manager를 실행해야 한다 — Manager는 실행 즉시 메시지를 발송하므로, 수신 대기 중인 Worker가 없으면 메시지가 유실될 수 있다
Worker 애플리케이션은 Spring Batch Job이 아니다 — 메시지 수신 대기 리스너 역할이므로 worker 프로파일로 상시 실행 상태를 유지한다
Kafka 토픽의 파티션 수는 gridSize와 일치시켜야 각 Worker가 고유한 파티션을 할당받을 수 있다

Manager의 결과 통합(Aggregation)

Manager가 메시지를 전송한 후, Worker들의 완료 여부를 어떻게 파악하는가?
MessageChannelPartitionHandler.doHandle()은 메시지 전송 후 두 가지 전략 중 하나로 결과를 취합한다

전략 1: JobRepository 폴링 (기본값)

별도 설정이 없으면 폴링 방식이 기본 전략으로 사용된다
Manager가 pollInterval 주기로 JobRepository를 반복 조회하여, 모든 Worker StepExecution이 최종 상태(COMPLETED, FAILED 등)에 도달할 때까지 대기
설정 파라미터:
- pollInterval: 폴링 주기 (기본값 10초)
- timeout: 최대 대기 시간 (기본값 -1 = 무한 대기, 초과 시 Manager Step 실패)

// inputChannel을 설정하지 않으면 자동으로 폴링 방식 사용
@Bean
public Step managerStep() {
    return remotePartitioningManagerStepBuilderFactory
            .get("managerStep")
            .partitioner("workerStep", partitioner)
            .outputChannel(outboundRequests())
            .gridSize(4)
            .build(); // pollInterval 기본값 10초, timeout 기본값 -1(무한 대기)
}

전략 2: 메시지 기반 응답 수신

Manager Step 빌더에 .inputChannel()을 설정하면, 폴링 대신 Worker로부터 직접 응답 메시지를 수신하는 방식으로 전환된다
inputChannel을 설정하면 내부적으로 Spring Integration의 Aggregation Flow가 자동 생성된다:
1. Worker 응답 메시지가 inputChannel로 도착
2. 메시지 헤더의 correlationId(그룹 식별자)와 sequenceSize(전체 파티션 수)를 기반으로 그룹핑
3. sequenceSize만큼의 응답이 모두 도착하면 @Aggregator 메서드로 최종 집계
4. 집계된 Set<StepExecution>이 내부 채널을 통해 receiveReplies()로 전달
timeout 내에 모든 응답이 도착하지 않으면 MessageTimeoutException 발생

// Manager: .inputChannel()을 설정하면 메시지 기반 응답 수신으로 전환
@Bean
public Step managerStep() {
    return remotePartitioningManagerStepBuilderFactory
            .get("managerStep")
            .partitioner("workerStep", partitioner)
            .outputChannel(outboundRequests())
            .inputChannel(workerRepliesInputChannel()) // 이 한 줄이 폴링 → 메시지 방식 전환의 핵심
            .gridSize(4)
            .build();
}

// Worker: .outputChannel()로 완료된 StepExecution을 응답 토픽으로 전송
@Bean
public Step workerStep() {
    return remotePartitioningWorkerStepBuilderFactory
            .get("workerStep")
            .inputChannel(inboundRequests())
            .outputChannel(outboundResultChannel()) // 완료 후 StepExecution 응답 전송
            .<Input, Output>chunk(500, transactionManager)
            .reader(reader).processor(processor).writer(writer)
            .build();
}

메시지 응답 방식 구현

메시지 기반 응답을 실제로 구현하기 위해 필요한 것은 다음과 같다.
- Step 빌더 설정
- 직렬화·응답 토픽·IntegrationFlow 등 추가 인프라

StepExecution 직렬화

메시지 응답 방식에서는 Worker가 완료된 StepExecution 객체 자체를 Kafka로 전송해야 한다
그런데 StepExecution은 내부에 JobExecution과의 순환 참조를 갖고 있어 단순 JSON 직렬화로는 안정적으로 전송할 수 없다
따라서 Spring의 DefaultSerializer/DefaultDeserializer(Java 직렬화 기반)를 활용한 커스텀 Kafka Serializer/Deserializer를 구현해야 한다

// Kafka Serializer 구현 — StepExecution → byte[]
public class StepExecutionSerializer implements Serializer<StepExecution> {
    private final DefaultSerializer serializer = new DefaultSerializer();

    @Override
    public byte[] serialize(String topic, StepExecution stepExecution) {
        ByteArrayOutputStream output = new ByteArrayOutputStream();
        serializer.serialize(stepExecution, output); // Spring의 Java 직렬화 활용
        return output.toByteArray();
    }
}

// Kafka Deserializer 구현 — byte[] → StepExecution
public class StepExecutionDeserializer implements Deserializer<StepExecution> {
    private final DefaultDeserializer deserializer = new DefaultDeserializer();

    @Override
    public StepExecution deserialize(String topic, byte[] data) {
        return (StepExecution) deserializer.deserialize(new ByteArrayInputStream(data));
    }
}

application.yml 설정 변경

기존에는 Manager는 producer만, Worker는 consumer만 설정했지만, 응답 메시지를 주고받으려면 양방향 설정이 필요하다
- Manager: StepExecution 응답을 수신해야 하므로 consumer 설정 추가 (value-deserializer에 StepExecutionDeserializer 지정)
- Worker: StepExecution 응답을 전송해야 하므로 producer 설정 추가 (value-serializer에 StepExecutionSerializer 지정)

응답 전용 토픽

Worker → Manager 응답을 위한 별도 Kafka 토픽이 필요하다
이 토픽의 파티션 수는 1이면 충분
- 수신자가 Manager 한 대뿐이므로 병렬 소비가 불필요

Manager 응답 수신 채널과 IntegrationFlow

QueueChannel을 응답 수신용 채널로 정의하고, Kafka 응답 토픽에서 메시지를 받아 이 채널로 전달하는 IntegrationFlow를 구성한다

// Manager 응답 수신 구성
@Bean
public QueueChannel workerRepliesInputChannel() { return new QueueChannel(); }

@Bean // step-execution-results 토픽 → workerRepliesInputChannel
public IntegrationFlow inboundResponseFlow(ConsumerFactory<Long, StepExecution> cf) {
    return IntegrationFlow
            .from(Kafka.messageDrivenChannelAdapter(cf, "step-execution-results"))
            .channel(workerRepliesInputChannel())
            .get();
}

Worker 응답 전송 채널과 IntegrationFlow

DirectChannel을 응답 전송용 채널로 정의하고, 이 채널의 메시지를 Kafka 응답 토픽으로 내보내는 IntegrationFlow를 구성한다

// Worker 응답 전송 구성
@Bean
public DirectChannel outboundResultChannel() { return new DirectChannel(); }

@Bean // outboundResultChannel → step-execution-results 토픽
public IntegrationFlow outboundResponseFlow(KafkaTemplate<Long, StepExecution> kafkaTemplate) {
    KafkaProducerMessageHandler<Long, StepExecution> handler =
            new KafkaProducerMessageHandler<>(kafkaTemplate);
    handler.setTopicExpression(new LiteralExpression("step-execution-results"));
    return IntegrationFlow
            .from(outboundResultChannel())
            .handle(handler)
            .nullChannel(); // 단방향 전송이므로 응답 불필요
}

메시지 흐름 요약

요청: Manager → outboundRequests 채널 → IntegrationFlow → Kafka(remote-partitioning 토픽) → IntegrationFlow → inboundRequests 채널 → Worker
응답: Worker → outboundResultChannel 채널 → IntegrationFlow → Kafka(step-execution-results 토픽) → IntegrationFlow → workerRepliesInputChannel 채널 → Manager (Aggregator가 correlationId/sequenceSize로 그룹핑 후 집계)

부록: 원격 파티셔닝의 한계와 대안

한계 1: 높은 복잡성

원격 파티셔닝은 Spring Batch 지식만으로는 구현할 수 없다 — 추가로 필요한 기술 스택:
- Spring Integration: 메시지 채널 통신, 라우팅, Aggregation 등 복잡한 파이프라인 구축·관리가 필요하며 자체 학습 곡선이 가파르다
- Message Broker 운영: Kafka, RabbitMQ 등 외부 미들웨어의 설치·설정·클러스터링·모니터링·장애 대응까지 운영 부담이 추가된다
- 분산 시스템 고유 문제: 네트워크 오류, 메시지 유실, 노드 상태 관리, 분산 트랜잭션 등 단일 JVM에서는 존재하지 않던 문제들을 다뤄야 한다

한계 2: 공유 DB 강제

모든 노드가 동일한 JobRepository(DB)에 접근해야 하므로, 메모리 기반 JobRepository를 사용할 수 없다
실무에서는 단순 배치 작업에 메모리 기반 JobRepository를 사용하여 DB 의존성을 줄이는 경우가 많지만, 원격 파티셔닝을 도입하면 이 선택지가 원천 차단된다

현실적 대안: JobParameters 기반 분산 실행

원격 파티셔닝의 복잡성 없이 분산 처리를 달성하는 방법: 동일한 Job을 여러 인스턴스로 실행하되, 각각 다른 JobParameters로 처리 범위를 분할
- 파티셔닝의 ExecutionContext와 동일한 원리를 JobParameters로 적용하는 것
- 예: 인스턴스1은 startId=1, endId=10000, 인스턴스2는 startId=10001, endId=20000
이 방식의 장점:
- 단순함: Spring Integration, Message Broker 불필요 — 기존 Spring Batch 지식만으로 충분
- 독립성: 각 인스턴스가 완전히 독립적으로 실행되어 상태 공유가 불필요하므로, 메모리 기반 JobRepository도 사용 가능
- 유연성: 인스턴스 수를 조절하는 것만으로 확장/축소 가능
원격 파티셔닝이 정당화되는 유일한 경우: 분산된 Worker들의 StepExecution을 하나의 JobExecution으로 묶어 추적·관리해야 하는 요구가 있을 때
- 이 요구가 없다면 대부분 JobParameters 방식이 더 간단하고 효율적이다