Jian Yang

Currently, I am an Associate Professor (Tenure-Track) at Beihang University (2025.07-Present). I obtained my B.S. degree and Ph.D. at Beihang University, as a joint Phd student between Beihang University and Microsoft Research Asia (MSRA), supervised by Prof. Zhoujun Li and Dr. Ming Zhou. Previously, I was a Research Scientist (Alibaba Star Project) at Alibaba Qwen Team, focusing on Large Language Models (LLMs), including code, post-training, and reasoning and serving as AC for ARR (ACL, EMNLP NAACL) and NeurIPS, Senior Program Committee (SPC) SPC for AAAI (AIA Track).
I am actively looking for research interns and candidate students on LLM-related research topics. Please feel free to email me jiayang@buaa.edu.cn if you are interested.

Work Experience:
• Microsoft Research Asia (Mentor: Dongdong Zhang and Shuming Ma): 2018-2023
• Ubiquant: 2023
• Alibaba Qwen: 2023-2025.07
• Beihang University: 2025.07-Present

● Large Language Models

Pre-training: Qwen Technical Report, Qwen2 Technical Report, Qwen2.5 Technical Report, etc
Post-training: RoleLLM (ACL Findings 2024), xCoT (AAAI 2025), etc
Code: Qwen2.5-Coder, UniCoder (ACL 2024), OWL (ICLR 2024), CodeArena, ExecRepoBench, xCoder, McEval (ICLR 2025), MdEval, etc
Multimodal: Simplevqa, etc
Evaluation : KORBench (ICLR 2025), TableBench (AAAI 2025), SuperGPQA，CryptoX, etc

● Natural Language Processing

Understanding: CROP (Finding of EMNLP 2022)
Generation: GanLM (ACL 2022), GTrans (TASLP 2022)

News

[1/2025] Two papers are accepted to ICLR 2025.

Technical Report [Full List]

(* equal contribution, ^# corresponding author)

CodeArena: Evaluating and aligning codellms on human preference, arXiv:2412.05210, 2024.
Jian Yang, Jiaxi Yang, Ke Jin, Yibo Miao, Lei Zhang, Liqun Yang, Zeyu Cui, Yichang Zhang, Binyuan Hui, Junyang Lin.
Qwen technical report, 2024.
Qwen2 technical report, 2024.
Qwen2.5 technical report, 2024.
Qwen2.5-coder technical report, 2024.
Binyuan Hui*, Jian Yang*, Zeyu Cui*, Jiaxi Yang*, Dayiheng Liu, Lei Zhang, Tianyu Liu, Jiajun Zhang, Bowen Yu, Keming Lu, Kai Dang, Yang Fan, Yichang Zhang, An Yang, Rui Men, Fei Huang, Bo Zheng, Yibo Miao, Shanghaoran Quan, Yunlong Feng, Xingzhang Ren, Xuancheng Ren, Jingren Zhou, Junyang Lin.
Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey, arXiv:2412.18619.
Liang Chen, Zekun Wang, Shuhuai Ren, Lei Li, Haozhe Zhao, Yunshui Li, Zefan Cai, Hongcheng Guo, Lei Zhang, Yizhe Xiong, Yichi Zhang, Ruoyu Wu, Qingxiu Dong, Ge Zhang, Jian Yang, Lingwei Meng, Shujie Hu, Yulong Chen, Junyang Lin, Shuai Bai, Andreas Vlachos, Xu Tan, Minjia Zhang, Wen Xiao, Aaron Yee, Tianyu Liu, Baobao Chang.
Xlm-t: Scaling up multilingual machine translation with pretrained cross-lingual transformer encoders, arXiv:2012.15547, 2024.
Shuming Ma, Jian Yang, Haoyang Huang, Zewen Chi, Li Dong, Dongdong Zhang, Hany Hassan Awadalla, Alexandre Muzio, Akiko Eriguchi, Saksham Singhal, Xia Song, Arul Menezes, Furu Wei.
Multilingual Machine Translation Systems from Microsoft for WMT21 Shared Task, WMT, 2021.
Jian Yang, Shuming Ma, Haoyang Huang, Dongdong Zhang, Li Dong, Shaohan Huang, Alexandre Muzio, Saksham Singhal, Hany Hassan Awadalla, Xia Song, Furu Wei.

Publications [Full List]

(* equal contribution, ^# corresponding author)

xcot: Cross-lingual instruction tuning for cross-lingual chain-of-thought reasoning, AAAI 2025.
Linzheng Chai, Jian Yang^#, Tao Sun, Hongcheng Guo, Jiaheng Liu, Bing Wang, Xiannian Liang, Jiaqi Bai, Tongliang Li, Qiyao Peng, Zhoujun Li
Tablebench: A comprehensive and complex benchmark for table question answering, AAAI 2025.
Xianjie Wu, Jian Yang^#, Linzheng Chai, Ge Zhang, Jiaheng Liu, Xinrun Du, Di Liang, Daixin Shu, Xianfu Cheng, Tianzhen Sun, Guanglin Niu, Tongliang Li, Zhoujun Li
McEval: Massively Multilingual Code Evaluation, ICLR, 2025.
Linzheng Chai*, Shukai Liu*, Jian Yang*^#, Yuwei Yin, Ke Jin, Jiaheng Liu, Tao Sun, Ge Zhang, Changyu Ren, Hongcheng Guo, Zekun Wang, Boyang Wang, Xianjie Wu, Bing Wang, Tongliang Li, Liqun Yang, Sufeng Duan, Zhoujun Li
Kor-bench: Benchmarking language models on knowledge-orthogonal reasoning tasks, ICLR, 2025.
Kaijing Ma, Xinrun Du, Yunran Wang, Haoran Zhang, Zhoufutu Wen, Xingwei Qu, Jian Yang, Jiaheng Liu, Minghao Liu, Xiang Yue, Wenhao Huang, Ge Zhang
Unicoder: Scaling code large language model via universal code, ACL 2024.
Tao Sun*, Linzheng Chai*, Jian Yang*^#, Yuwei Yin, Hongcheng Guo, Jiaheng Liu, Bing Wang, Liqun Yang, Zhoujun Li
Mac-sql: A multi-agent collaborative framework for text-to-sql, COLING 2025.
Bing Wang, Changyu Ren, Jian Yang, Xinnian Liang, Jiaqi Bai, Linzheng Chai, Zhao Yan, Qian-Wen Zhang, Di Yin, Xing Sun, Zhoujun Li
Owl: A large language model for it operations, ICLR 2024.
Hongcheng Guo, Jian Yang^#, Jiaheng Liu#, Liqun Yang, Linzheng Chai, Jiaqi Bai, Junran Peng, Xiaorong Hu, Chao Chen, Dongfeng Zhang, Xu Shi, Tieqiao Zheng, Liangfan Zheng, Bo Zhang, Ke Xu, Zhoujun Li
Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones?, EMNLP Finding 2024.
Zhe Yang, Yichang Zhang, Tianyu Liu, Jian Yang, Junyang Lin, Chang Zhou, Zhifang Sui
RoleAgent: Building, Interacting, and Benchmarking High-quality Role-Playing Agents from Scripts, NeurIPS 2024.
Jiaheng Liu, Zehao Ni, Haoran Que, Tao Sun, Noah Wang, Jian Yang, Hongcheng Guo, ZY Peng, Ge Zhang, Jiayi Tian, Xingyuan Bu, Ke Xu, Wenge Rong, Junran Peng, Zhaoxiang Zhang
RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models, ACL Finding 2024.
Zekun Moore Wang, Zhongyuan Peng, Haoran Que, Jiaheng Liu, Wangchunshu Zhou, Yuhan Wu, Hongcheng Guo, Ruitong Gan, Zehao Ni, Jian Yang, Man Zhang, Zhaoxiang Zhang, Wanli Ouyang, Ke Xu, Stephen W. Huang, Jie Fu, Junran Peng
TiNID: A Transfer and Interpretable LLM-Enhanced Framework for New Intent Discovery, ICLR 2024.
Shun Zhang, Chaoran Yan, Jian Yang^#, Wei Zhang, Changyu Ren, Tongliang Li, Jiaqi Bai, Zhoujun Li
New Intent Discovery with Attracting and Dispersing Prototype, COLING 2024.
Shun Zhang, Jian Yang^#, Jiaqi Bai, Chaoran Yan, Tongliang Li, Zhao Yan, Zhoujun Li
Mt4crossoie: Multi-stage tuning for cross-lingual open information extraction, ESWA 2024.
Tongliang Li, Zixiang Wang, Linzheng Chai, Jian Yang^#, Jiaqi Bai, Yuwei Yin, Jiaheng Liu, Hongcheng Guo, Liqun Yang, Zhoujun Li.
Towards Real-world Scenario: Imbalanced New Intent Discovery, ACL 2024.
Shun Zhang, Chaoran Yan, Jian Yang^#, Jiaheng Liu, Ying Mo, Jiaqi Bai, Tongliang Li, Zhoujun Li.
TiNID: A Transfer and Interpretable LLM-Enhanced Framework for New Intent Discovery, ECML 2024.
Shun Zhang, Chaoran Yan, Jian Yang^#, Wei Zhang, Changyu Ren, Tongliang Li, Jiaqi Bai, Zhoujun Li.
m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt, COLING 2024.
Jian Yang, Hongcheng Guo, Yuwei Yin, Jiaqi Bai, Bing Wang, Jiaheng Liu, Xinnian Liang, Linzheng Cahi, Liqun Yang, Zhoujun Li
C-ICL: Contrastive In-context Learning for Information Extraction, ICLR 2024.
Ying Mo, Jiahao Liu, Jian Yang^#, Qifan Wang, Shun Zhang, Jingang Wang, Zhoujun Li#
RoNID: new intent discovery with generated-reliable labels and cluster-friendly representations, DASFAA 2024.
Shun Zhang, Chaoran Yan, Jian Yang^#, Changyu Ren, Jiaqi Bai, Tongliang Li, Zhoujun Li
mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view Contrastive Learning, IJCAI 2023.
Ying Mo, Jian Yang^#, Jiahao Liu, Qifan Wang, Ruoyu Chen, Jingang Wang, Zhoujun Li^#.
High-resource language-specific training for multilingual neural machine translation, IJCAI 2022.
Jian Yang, Yuwei Yin, Shuming Ma, Dongdong Zhang, Zhoujun Li#, Furu Wei.
UM4: unified multilingual multiple teacher-student model for zero-resource neural machine translation, IJCAI 2022.
Jian Yang, Yuwei Yin, Shuming Ma, Dongdong Zhang, Shuangzhi Wu, Hongcheng Guo, Zhoujun Li#, Furu Wei.
PAEG: Phrase-level Adversarial Example Generation for Neural Machine Translation, COLING 2022.
Juncheng Wan*, Jian Yang*, Shuming Ma, Dongdong Zhang, Weinan Zhang, Yong Yu, Zhoujun Li.
Multilingual agreement for multilingual neural machine translation, ACL 2021.
Jian Yang, Yuwei Yin, Shuming Ma, Haoyang Huang, Dongdong Zhang, Zhoujun Li#, Furu Wei.
Smart-start decoding for neural machine translation, NAACL 2021.
Jian Yang, Shuming Ma, Dongdong Zhang, Juncheng Wan, Zhoujun Li#, Ming Zhou.
Alternating language modeling for cross-lingual pre-training, AAAI 2020.
Jian Yang, Shuming Ma, Dongdong Zhang, Shuangzhi Wu, Zhoujun Li#, Ming Zhou.
Improving neural machine translation with soft template prediction, ACL 2020.
Jian Yang, Shuming Ma, Dongdong Zhang, Zhoujun Li#, Ming Zhou.

To be updated