About Me

Hi! I’m Wenxi Chen (陈文熙). I am currently a first-year Ph.D. student at the X-Lance Lab, Shanghai Jiao Tong University (SJTU), under the supervision of Prof. Xie Chen. I received my Bachelor’s degree in Computer Science (IEEE Pilot Class) from SJTU in 2025.

I’m generally interested in understanding & generation in speech and audio, as well as multimodal large language models. My previous projects have involved audio self-supervised learning, audio captioning and end-to-end spoken dialogue models.

Selected Publications

For the most up-to-date information, please visit my Google Scholar profile.
(* indicates equal contribution)

SAC: Neural Speech Codec with Semantic-Acoustic Dual-Stream Quantization
_{Wenxi Chen, Xinsheng Wang, Ruiqi Yan, Yushen Chen, Zhikang Niu, Ziyang Ma, Xiquan Li, Yuzhe Liang, Hanlin Wen, Shunshun Yin, Ming Tao, Xie Chen}
_{arxiv 2025}
_{paper / demo / code}

SimulS2S-LLM: Unlocking Simultaneous Inference of Speech LLMs for Speech-to-Speech Translation
_{Keqi Deng, Wenxi Chen, Xie Chen, Phil Woodland}
_{ACL 2025}
_paper

SLAM-Omni: Timbre-Controllable Voice Interaction System with Single-Stage Training
_{Wenxi Chen, Ziyang Ma, Ruiqi Yan, Yuzhe Liang, Xiquan Li, Ruiyang Xu, Zhikang Niu, Yanqiao Zhu, Yifan Yang, Zhanxun Liu, Kai Yu, Yuxuan Hu, Jinyu Li, Yan Lu, Shujie Liu, Xie Chen}
_{ACL 2025 Findings}
_{paper / demo / code}

SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs
_{Wenxi Chen*, Ziyang Ma*, Xiquan Li, Xuenan Xu, Yuzhe Liang, Zhisheng Zheng, Kai Yu, Xie Chen}
_{ICASSP 2025}
_{paper / code}

DRCap: Decoding CLAP Latents with Retrieval-augmented Generation for Zero-shot Audio Captioning
_{Xiquan Li, Wenxi Chen, Ziyang Ma, Xuenan Xu, Yuzhe Liang, Zhisheng Zheng, Qiuqiang Kong, Xie Chen}
_{ICASSP 2025 (oral)}
_{paper / code}

EAT: Self-Supervised Pre-Training with Efficient Audio Transformer
_{Wenxi Chen, Yuzhe Liang, Ziyang Ma, Zhisheng Zheng, Xie Chen}
_{IJCAI 2024}
_{paper / code}

Activities

Experience

Research Intern @ ByteDance
Seed Speech Team, Shanghai, China
Co-advised by Dongya Jia & Zhuo Chen
_{2025.12-PRESENT}

Research Intern @ Soul App
Multimodal Interaction Group, Shanghai, China
Advised by Xinsheng Wang
_{2025.07-2025.12}

Research Intern @ Microsoft Research Asia (MSRA)
General Artificial Intelligence Group & Speech Team, Beijing, China
Co-advised by Shujie Liu & Jinyu Li
_{2024.09-2025.06}

Competition

IEEE ICME 2024 Challenge Semi-supervised Acoustic Scene Classification under Domain Shift
_{Ranked 2nd, Team Leader}

DCASE Challenge 2024 Task 6: Automated Audio Captioning
_{Ranked 3rd, Team Leader}

Awards

Rongchang Science and Technology Innovation Scholarship, 2024-2025

CV

Here is my CV (Chinese).

Contact

Email: 1029713857@sjtu.edu.cn