We are looking for highly motivated undergraduate interns and graduate students!
AI has been transitioning to essential everyday infrastructure. System software determines whether large models are practical at scale—it controls how efficiently hardware resources are used, how predictable runtimes are, and how easily workloads can scale across multiple machines. For example, in recent years, datacenters have evolved to support diverse, heterogeneous workloads and GPU devices. One prominent example is distributed deep learning training, which enables the development of large-scale AI models such as GPT, DALL-E, and LLaMA. These models can involve more than 530 billion parameters and rely on hundreds of GPU nodes.
At the same time, large language model (LLM) inference and serving have emerged as critical workloads that demand efficient KV-Cache management, request scheduling, and low-latency execution. As a result, optimizing infrastructure efficiency and utilization—both in training and inference—has become increasingly important. However, recent reports from major cloud providers such as Microsoft and Alibaba show that average GPU utilization rates are only 20–50%. Such low utilization indicates a significant waste of datacenter resources, underscoring the need for more effective systems strategies to improve efficiency.
Our research aims to make AI systems—spanning training, inference, and serving—faster, more affordable, energy-efficient, and reliable as models and datasets continue to grow.
GPU usage prediction, virtualization/sharing, and provisioning on heterogeneous computing infrastructure
LLM inference/serving optimization with novel scheduling and KV caching
Diffusion LLM Inference Optimization
eBPF-Based GPU Tracing and Geo-Distributed Training Optimization
Agentic AI system optimization with containerized pipeline optimization
Gyeongsik Yang, et al., “Prediction of the Resource Consumption of Distributed Deep Learning Systems”, 2022 ACM International Conference on Measurement and Modeling of Computer Systems (ACM SIGMETRICS 2022)
Wonmi Choi, et al., “Harmonia: Accurate Federated Learning with All-Inclusive Dataset”, 2024 IEEE 17th International Conference on Cloud Computing (CLOUD)
Younghun Go, et al., "Selective Preemption of Distributed Deep Learning Training", 2023 IEEE 16th International Conference on Cloud Computing (CLOUD)
Changyong Shin, et al., “Xonar: Profiling-based Job Orderer for Distributed Deep Learning”, 2022 IEEE 15th International Conference on Cloud Computing (CLOUD)
인공지능은 일상 속 필수 인프라로 자리 잡고 있습니다. 이때 시스템 소프트웨어는 대규모 모델의 실용성을 좌우하는 핵심 요소입니다. 하드웨어 자원을 얼마나 효율적으로 활용하는지, 실행 시간이 얼마나 안정적으로 예측되는지, 그리고 워크로드가 얼마나 쉽게 여러 머신으로 확장될 수 있는지를 결정하기 때문입니다. 최근 GPU 데이터센터는 다양한 형태의 워크로드와 이기종 GPU를 지원하도록 빠르게 진화해 왔습니다. 대표적인 사례가 분산 딥러닝 학습으로, GPT, DALL·E, LLaMA와 같은 초대규모 AI 모델의 개발을 가능하게 했습니다. 이러한 모델은 수백억에서 수천억 개의 매개변수를 포함하며, 수백 대의 GPU 노드에 의존합니다.
또한 최근에는 LLM 추론 및 서빙(serving) 이 핵심 인프라 워크로드로 부상하면서, KV-Cache 관리, 요청 스케줄링, 지연 시간 최적화와 같은 새로운 시스템적 도전 과제들이 등장하고 있습니다. 따라서 학습뿐 아니라 추론과 서빙 단계에서도 GPU 인프라의 효율성과 활용도를 극대화하는 최적화 전략이 필수적입니다. 하지만 마이크로소프트, 알리바바 등 주요 클라우드 기업들의 보고서에 따르면 평균 GPU 활용률은 여전히 20~50% 수준에 머물러 있습니다. 이는 고가의 데이터센터 자원이 상당히 낭비되고 있음을 보여주며, 효율성을 높이기 위한 정교한 시스템 접근이 절실함을 시사합니다.
SSLab은 학습부터 추론·서빙까지 AI 시스템을 더 빠르고, 저비용·에너지 효율적이며, 안정적으로 만드는 것을 목표로 합니다. 모델과 데이터가 커지는 시대에, 지속 가능한 AI 인프라 확장을 위한 시스템 혁신을 추구하고 있습니다.
GPU 사용량 예측, 가상화/공유 및 이종 컴퓨팅 인프라에서의 프로비저닝
새로운 스케줄링 및 키-값 캐싱을 통한 대규모 언어 모델 추론/서비스 최적화
확산형 대규모 언어 모델 추론 최적화
eBPF 기반 GPU 추적 및 지리 분산 훈련 최적화
컨테이너화된 파이프라인 최적화를 통한 에이전트형 AI 시스템 최적화
Gyeongsik Yang, et al., “Prediction of the Resource Consumption of Distributed Deep Learning Systems”, 2022 ACM International Conference on Measurement and Modeling of Computer Systems (ACM SIGMETRICS 2022)
Wonmi Choi, et al., “Harmonia: Accurate Federated Learning with All-Inclusive Dataset”, 2024 IEEE 17th International Conference on Cloud Computing (CLOUD)
Younghun Go, et al., "Selective Preemption of Distributed Deep Learning Training", 2023 IEEE 16th International Conference on Cloud Computing (CLOUD)
Changyong Shin, et al., “Xonar: Profiling-based Job Orderer for Distributed Deep Learning”, 2022 IEEE 15th International Conference on Cloud Computing (CLOUD)
System software for networking matters because modern computing is inherently connected. Every cloud service, data pipeline, and AI workload depends on timely and reliable communication. We enhance performance, isolation, and predictability through diverse approaches: 1) network virtualization that allows multiple tenants to share the same physical network without interference; 2) programmable, softwarized networks to enable the network to be managed as reconfigurable resources; and 3) kernel-level improvements to the networking stack. On the mobile side, we study flexible and high-performance networking systems by extending GPU- and software-based network stacks, particularly in emerging 6G architectures such as AI-RAN.
In summary, our goal is to design structurally isolated and well-architected networking systems that ensure resource efficiency, predictable low latency, and a high quality of experience across diverse platforms—from edge devices and datacenter infrastructure to mobile systems like 6G.
Latency and QoE guarantee for offloaded GPU computing in 6G
Zero-delay container orchestration
Programmable network virtualization
Intelligent traffic splitting/spraying in datacenters
AI-powered kernel networking optimization
Yeonho Yoo, et al., "Revisiting Traffic Splitting for Software Switch in Datacenter", 2025 ACM International Conference on Measurement and Modeling of Computer Systems (ACM SIGMETRICS 2025)
Wonmi Choi, et al. "Intelligent Packet Processing for Performant Containers in IoT", IEEE Internet of Things Journal,
Yeonho Yoo, et al. “Machine Learning-based Prediction Models for Control Traffic in SDN Systems”, IEEE Transactions on Services Computing
Gyeongsik Yang, et al., “Bandwidth Isolation Guarantee for SDN Virtual Networks”, IEEE Conference on Computer Communications (IEEE INFOCOM 2021)
네트워킹 시스템 소프트웨어가 중요한 이유는 현대 컴퓨팅이 본질적으로 네트워크 연결되어 있기 때문입니다. 모든 클라우드 서비스, 데이터 파이프라인, AI 워크로드는 시기적절하고 신뢰할 수 있는 통신에 의해 그 성능이 좌지우지됩니다다 우리는 다양한 접근 방식으로 성능, 격리성, 예측 가능성을 향상시킵니다: 1) 여러 사용자가 간섭 없이 동일한 물리적 네트워크를 공유할 수 있도록 하는 네트워크 가상화; 2) 네트워크를 재구성 가능한 리소스로 관리할 수 있도록 하는 프로그래밍 가능하고 소프트웨어화된 네트워크; 3) 네트워킹 스택에 대한 커널 수준 개선. 모바일 측면에서는 6G로 주목받는 AI-RAN 등을 통해 GPU 및 소프트웨어 기반 네트워크 스택을 확장하여 보다 유연하고 고성능의 네트워킹 시스템을 연구합니다.
요약하면, 우리는 엣지 디바이스와 데이터센터 인프라부터 6G와 같은 모바일 플랫폼에 이르기까지 다양한 시스템 전반에 걸쳐 자원 효율성, 예측 가능한 저지연성, 경험 품질(QoE) 보장 등을 제공하기 위해, 구조적으로 격리되고 명확히 설계된 네트워킹 아키텍처와 시스템 소프트웨어를 연구합니다.
6G 환경에서 GPU 오프로드 컴퓨팅의 지연 시간 및 QoE 보장
제로 지연 컨테이너 오케스트레이션
프로그래머블 네트워크 가상화
데이터센터 내 지능형 트래픽 분할/분산
AI 기반 커널 네트워킹 최적화
Yeonho Yoo, et al., "Revisiting Traffic Splitting for Software Switch in Datacenter", 2025 ACM International Conference on Measurement and Modeling of Computer Systems (ACM SIGMETRICS 2025)
Wonmi Choi, et al. "Intelligent Packet Processing for Performant Containers in IoT", IEEE Internet of Things Journal,
Yeonho Yoo, et al. “Machine Learning-based Prediction Models for Control Traffic in SDN Systems”, IEEE Transactions on Services Computing
Gyeongsik Yang, et al., “Bandwidth Isolation Guarantee for SDN Virtual Networks”, IEEE Conference on Computer Communications (IEEE INFOCOM 2021)
We also apply well-designed system software to a variety of application domains. One promising area is digital healthcare. In this domain, personal and sensitive health data are collected by edge and wearable devices, and must be stored and processed securely and privately. Since user-side platforms often have limited computational resources, designing compact and efficient systems is essential. For example, providing personalized healthcare services directly on edge or wearable devices reduces round-trip latency and bandwidth usage while maintaining privacy and regulatory compliance. This capability is crucial for timely and reliable clinical tasks.
Such application requirements highlight the importance of strong system software foundations. For instance, blockchain-based data management enhances resilience and privacy in data handling, while geo-distributed cloud management enables timely service delivery even on resource-constrained devices. Such system-level optimizations yield measurable improvements in reliability and cost efficiency in production environments.
Beyond digital healthcare, we are developing diverse applications that leverage operating systems, virtualization, and system software to build practical technologies to benefit people and society.
Blockchain-based secure and scalable data management for digital healthcare systems
Geo-distributed cloud and edge computing for low-latency medical data processing
Model lightweighting without sacrificing prediction accuracy for resource-scarce devices
Reconstruction of measurement data from limited wearables into hospital-grade diagnostic biomarkers
Lee, Junseok, et al. "Parameter-Efficient 12-Lead ECG Reconstruction from a Single Lead." International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI 2025).
Lee, Junseok, et al. "Predictive Placement of Geo-Distributed Blockchain Nodes for Performance Guarantee." 2024 IEEE 17th International Conference on Cloud Computing (CLOUD).
Jung, Seungwoo, et al. "Prediction of permissioned blockchain performance for resource scaling configurations." ICT Express 10.6 (2024)
<Cyan architecture>
<mEcgNet architecture>
우리는 또한 잘 설계된 시스템 소프트웨어를 다양한 응용 분야에 적용하고 있습니다. 그중에서도 디지털 헬스케어는 가장 유망한 분야 중 하나입니다. 이 영역에서는 개인적이고 민감한 건강 데이터가 에지 및 웨어러블 기기에서 수집되며, 이러한 데이터는 프라이버시를 보장한 상태로 안전하게 저장 및 처리되어야 합니다. 동시에, 에지 장치의 제한된 연산 자원을 고려하면 경량화되고 효율적인 시스템 아키텍처 설계가 필수적입니다.
이러한 요구사항은 곧 강력한 시스템 소프트웨어 인프라의 필요성을 부각시킵니다. 예를 들어, 블록체인 기반 데이터 관리는 데이터의 무결성과 추적 가능성을 확보해 프라이버시를 강화하며, 지리적으로 분산된 클라우드 오케스트레이션은 리소스가 제한된 장치에서도 안정적이고 시의적절한 서비스 제공을 가능하게 합니다. 이와 같은 시스템 수준의 최적화는 실제 생산 환경에서 신뢰성, 지속 가능성, 비용 효율성을 동시에 향상시키는 결과를 가져옵니다.
나아가 우리는 디지털 헬스케어를 넘어, 운영체제, 가상화, 시스템 소프트웨어 기술을 기반으로 실질적 가치를 제공하는 다양한 응용 분야를 개발하고 있습니다.
디지털 헬스케어 시스템을 위한 블록체인 기반의 안전하고 확장 가능한 데이터 관리
저지연 의료 데이터 처리를 위한 지리적으로 분산된 클라우드 컴퓨팅
자원 부족 기기에서 예측 정확도를 저하시키지 않는 모델 경량화 기술
제한된 웨어러블로부터의 측정 정보를 병원 진단 수준의 바이오마커로 복원/재구성
Lee, Junseok, et al. "Parameter-Efficient 12-Lead ECG Reconstruction from a Single Lead." International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI 2025).
Lee, Junseok, et al. "Predictive Placement of Geo-Distributed Blockchain Nodes for Performance Guarantee." 2024 IEEE 17th International Conference on Cloud Computing (CLOUD).
Jung, Seungwoo, et al. "Prediction of permissioned blockchain performance for resource scaling configurations." ICT Express 10.6 (2024)
<Cyan architecture>
<mEcgNet architecture>