I am a third year M.S. student at SIGS, Tsinghua University, advised by Prof. Xueqian Wang. Before that, I received my bachelor’s degree in Electrical Engineering and Automation from Xi’an Jiaotong University in Jun. 2022. My currect research interest lies in AI alignment, especially ensuring the safety of LLM and using synthetic data to help LLM self-improve.

I’m lucky to do the internship at Tencent AI Lab and Sea AI Lab, where I was advised by Peilin Zhao (赵沛霖) and Tianyu Pang (庞天宇). I collabrate with Li Shen (沈力) and Dacheng Tao(陶大程) since my first master year and will continue my research journey at Singapore.

🔥 News

2025.09: 🎉 One paper is accepted by NeurIPS 2025
2025.07: 🎉 One paper is accepted by ICML 2025 Workshop on Reliable and Responsible Foundation Models
2025.07: 🎉 I obtain my Master Degree from Tsinghua University
2025.05: 🎉 Two papers are accepted by ICML 2025
2025.02: 🎉 One paper is accepted by TMLR
2024.07: 🎉 One paper is accepted by ICML MHFAIA Workshop
2023.09: 🎉 One paper is accepted by NeurIPS 2023

📝 Publications

NeurIPS 2025

Lifelong Safety Alignment for Language Models
Haoyu Wang, Zeyu Qin, Yifei Zhao, Chao Du, Min Lin, Xueqian Wang, Tianyu Pang

Project

First Lifelong Safety Alignment framework for Large Language Models

ICML 2025

Safety Reasoning with Guidelines
Haoyu Wang^, Zeyu Qin^, Li Shen, Xueqian Wang, Dacheng Tao, Minhao Cheng

We provide insights on the poor generalization of Refusal Training.
We include guidelines to request the LLM to do safety reasoning, eliciting its latent knowledge against the jailbreak attacks.

ICML 2025

Mastering Massive Multi-Task Reinforcement Learning via MoE Decision Transformer \ Yilun Kong, Guozheng Ma, Qi Zhao, Haoyu Wang, Li Shen, Xueqian Wang, Dacheng Tao

MHFAIA Workshop ICML 2024

Step-on-feet Tuning: Scaling Self-alignment of LLMs via Bootstrapping
Haoyu Wang, Guozheng Ma, Ziqiao Meng, Zeyu Qin, Li Shen, Zhong Zhang, Bingzhe Wu, Liu Liu, Yatao Bian, Tingyang Xu, Xueqian Wang, Peilin Zhao

TMLR

Are large language models really robust to word-level perturbations?
Haoyu Wang, Guozheng Ma, Cong Yu, Ning Gui, Linrui Zhang, Zhiqi Huang, Suwei Ma, Yongzhe Chang, Sen Zhang, Li Shen, Xueqian Wang, Peilin Zhao, Dacheng Tao

NeurIPS 2023

Learning better with less: Effective augmentation for sample-efficient visual reinforcement learning
Guozheng Ma, Linrui Zhang, Haoyu Wang, Lu Li, Zilin Wang, Zhen Wang, Li Shen, Xueqian Wang, Dacheng Tao

🎖 Honors and Awards

XJTU Excellent Student Scholarship
Tsinghua Comprehensive Excellence Scholarship
Tsinghua Big Data Practice Scholarship

📖 Educations

2022.09 - 2025.06, Master, Tsinghua University.
2018.09 - 2022.06, Undergraduate, Xi’an Jiaotong University.
2015.09 - 2018.06, Xi’an Gaoxin No.1 High School, Senior High School Department.

💬 Invited Talks

2025.06, NICE Trustworthy/Safety seminar.

💻 Internships