QUICK REVIEW

[논문 리뷰] ReLMXEL: Adaptive RL-Based Memory Controller with Explainable Energy and Latency Optimization

Panuganti Chirag Sai, Gandholi Sarat|arXiv (Cornell University)|2026. 03. 18.

Explainable Artificial Intelligence (XAI)인용 수 0

한 줄 요약

ReLMXEL introduces a multi-agent reinforcement learning memory controller with reward decomposition to adaptively optimize latency and energy, while providing explainability of decisions.

ABSTRACT

Reducing latency and energy consumption is critical to improving the efficiency of memory systems in modern computing. This work introduces ReLMXEL (Reinforcement Learning for Memory Controller with Explainable Energy and Latency Optimization), a explainable multi-agent online reinforcement learning framework that dynamically optimizes memory controller parameters using reward decomposition. ReLMXEL operates within the memory controller, leveraging detailed memory behavior metrics to guide decision-making. Experimental evaluations across diverse workloads demonstrate consistent performance gains over baseline configurations, with refinements driven by workload-specific memory access behaviour. By incorporating explainability into the learning process, ReLMXEL not only enhances performance but also increases the transparency of control decisions, paving the way for more accountable and adaptive memory system designs.

연구 동기 및 목표

현대 메모리 시스템에서 DRAM 지연 및 에너지를 줄이고 투명하고 적응 가능한 컨트롤러의 필요성을 동기화한다.
메모리 컨트롤러 매개변수를 온라인으로 조정하는 설명 가능한 다-Agent RL 프레임워크인 ReLMXEL 제안.
DRAMSys 시뮬레이션과 설명 가능성 메커니즘을 사용하여 다양한 워크로드에서 성능 향상을 시연한다.
보상 분해가 해석 가능한 의사결정을 가능하게 하는 방법을 보여주고, 하드웨어 인 루프 및 보안에서의 향후 확장 가능성을 식별한다.

제안 방법

각 에이전트가 Q-테이블을 통해 구성 가능한 DRAM 매개변수를 조정하는 다-Agent RL 환경으로 메모리 컨트롤러를 모델링한다.
스칼라 RL 보상을 에너지, 대역폭, 지연의 각 메트릭으로 분해하고 목표 기반 보상 함수로 합산한다.
파라미터별 Q-테이블과 이psilon-greedy 정책을 사용하는 SARSA를 워밍업 탐색 기간과 트레이스-스플릿 피드백 루프와 함께 적용한다.
Minimal Sufficient Explanation(MSX)를 사용하여 보상 구성 요소 차이(RDX)를 통해 행동 선택을 정당화한다.
DDR4 DRAM, DRAMSys/DRAMPower, GEMM, STREAM, BFS, SPEC CPU 2017 워크로드의 트레이스를 사용하여 지표를 평가한다.
워크로드 패턴에 대한 적응성 입증 및 에너지, 대역폭, 지연 사이의 트레이드오프를 분석한다.

실험 결과

연구 질문

RQ1다양한 워크로드에서 적응형 RL 기반 메모리 컨트롤러가 에너지, 대역폭 및 지연을 개선할 수 있는가?
RQ2보상 분해가 성능 손실 없이 설명 가능성을 향상시키는가?
RQ3워크로드 특성이 최적 컨트롤러 매개변수 설정과 수렴에 어떤 영향을 미치는가?
RQ4설명 가능성이 메모리 제어 의사결정의 신뢰성과 투명성에 미치는 영향은 무엇인가?

주요 결과

ReLMXEL은 모든 워크로드에서 에너지, 대역폭 및 종종 지연에서 기준 메트릭을 일관되게 향상시킨다.
평균 에너지 및 대역폭 이득이 주목되며 일부 워크로드에서 지연에 미치는 영향이 최소한이다.
보상 구성 요소 분해 및 MSX를 통한 설명 가능성은 에너지 절감 대 지연/대역폭 비용 간의 해석 가능한 근거를 제공한다.
프레임워크는 워크로드 패턴에 컨트롤러 매개변수를 적응시키며 SARSA 기반 학습 체계로 견고한 성능을 달성한다.
실험은 GEMM, STREAM, BFS, SPEC 2017의 현실적 트레이스가 포함된 DDR4를 사용하고, 적응형이며 설명 가능한 메모리 제어의 실용 가능성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.