Fix bibliography citation errors and hallucinations (#211)

natolambert · claude · web-flow · commit 32726e49454e · 2026-01-17T08:34:30.000-08:00
Co-authored-by: Claude Opus 4.5 &lt;noreply@anthropic.com&gt;
diff --git a/chapters/14-reasoning.md b/chapters/14-reasoning.md
@@ -220,7 +220,7 @@ STaR effectively approximates the policy gradient algorithm, but in practice fil
 TRICE [@hoffman2023training] also improves upon reasoning by generating traces and then optimizing with a custom Markov chain Monte Carlo inspired expectation maximization algorithm. 
 VinePPO [@VinePPO] followed these and used a setup that shifted closer to modern reasoning models. 
 VinePPO uses a PPO-based algorithm with binary rewards for math question correctness, training on GSM8K and MATH.
-Other work before OpenAI's o1 and DeepSeek R1 used code execution as a feedback signal for training [@gehring2024rlefgroundingcodellms], [@xudpoppo] or verification for theorem proving (called Reinforcement Learning from Verifier Feedback, RLVF, here) [@amit2024models]. 
+Other work before OpenAI's o1 and DeepSeek R1 used code execution as a feedback signal for training [@gehring2024rlefgroundingcodellms], [@xu2024dpo] or verification for theorem proving (called Reinforcement Learning from Verifier Feedback, RLVF, here) [@amit2024models]. 
 Tülu 3 expanded upon these methods by using a simple PPO trainer to reward completions with correct answers -- most importantly while maintaining the model's overall performance on a broad suite of evaluations.
 The binary rewards of Tülu 3 and modern reasoning training techniques can be contrasted to the iterative approach of STaR or the log-likelihood rewards of Quiet-STaR.
 
diff --git a/chapters/bib.bib b/chapters/bib.bib
@@ -128,7 +128,7 @@ @article{bai2022constitutional
 
 @article{dubey2024llama,
   title={The llama 3 herd of models},
-  author={Dubey, Abhimanyu and Jauhri, Abhinav and Pandey, Abhinav and Kadian, Abhishek and Al-Dahle, Ahmad and Letman, Aiesha and Mathur, Akhil and Schelten, Alan and Yang, Amy and Fan, Angela and others},
+  author={Grattafiori, Aaron and Dubey, Abhimanyu and Jauhri, Abhinav and Pandey, Abhinav and Kadian, Abhishek and Al-Dahle, Ahmad and Letman, Aiesha and Mathur, Akhil and Schelten, Alan and Yang, Amy and Fan, Angela and others},
   journal={arXiv preprint arXiv:2407.21783},
   year={2024}
 }
@@ -138,7 +138,7 @@ @article{rafailov2024direct
   author={Rafailov, Rafael and Sharma, Archit and Mitchell, Eric and Manning, Christopher D and Ermon, Stefano and Finn, Chelsea},
   journal={Advances in Neural Information Processing Systems},
   volume={36},
-  year={2024}
+  year={2023}
 }
 
 @article{lambert2024t,
@@ -171,8 +171,9 @@ @inproceedings{chu2025sft
 
 @inproceedings{park2024disentangling,
   title={Disentangling length from quality in direct preference optimization},
-  booktitle = {Annual Meeting of the Association for Computational Linguistics (ACL)},
+  booktitle = {Findings of the Association for Computational Linguistics: ACL 2024},
   author={Park, Ryan and Rafailov, Rafael and Ermon, Stefano and Finn, Chelsea},
+  pages = {4998--5017},
   year = {2024}
 }
 
@@ -406,13 +407,12 @@ @inproceedings{Vaswani2017AttentionIA
   url={https://api.semanticscholar.org/CorpusID:13756489}
 }
 
-@article{Bahdanau2014NeuralMT,
+@inproceedings{Bahdanau2014NeuralMT,
   title={Neural Machine Translation by Jointly Learning to Align and Translate},
   author={Dzmitry Bahdanau and Kyunghyun Cho and Yoshua Bengio},
-  journal={CoRR},
-  year={2014},
-  volume={abs/1409.0473},
-  url={https://api.semanticscholar.org/CorpusID:11212020}
+  booktitle={International Conference on Learning Representations (ICLR)},
+  year={2015},
+  url={https://arxiv.org/abs/1409.0473}
 }
 
 @article{team2024gemma,
@@ -485,11 +485,14 @@ @article{olmo20242
   year={2024}
 }
 
-@article{seed2025seed,
-  title={Seed-thinking-v1. 5: Advancing superb reasoning models with reinforcement learning},
-  author={Seed, ByteDance and Yuan, Yufeng and Yue, Yu and Wang, Mingxuan and Zuo, Xiaochen and Chen, Jiaze and Yan, Lin and Xu, Wenyuan and Zhang, Chi and Liu, Xin and others},
-  journal={arXiv preprint arXiv:2504.13914},
-  year={2025}
+@misc{seed2025seed,
+  title={Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning},
+  author={ByteDance Seed and Jiaze Chen and Tiantian Fan and Xin Liu and Lingjun Liu and Zhiqi Lin and Mingxuan Wang and Chengyi Wang and Xiangpeng Wei and Wenyuan Xu and Yufeng Yuan and Yu Yue and Lin Yan and Qiying Yu and Xiaochen Zuo and Chi Zhang and Ruofei Zhu and Zhecheng An and Zhihao Bai and Yu Bao and Xingyan Bin and Jiangjie Chen and Feng Chen and Hongmin Chen and Riwei Chen and Liangqiang Chen and Zixin Chen and Jinsong Chen and Siyan Chen and Kaiyuan Chen and Zhi Chen and Jin Chen and Jiecao Chen and Jinxin Chi and Weinan Dai and Ning Dai and Jiahui Dai and Shihan Dou and Yantao Du and Zhengyin Du and Jianhui Duan and Chen Dun and Ting-Han Fan and Jiazhan Feng and Junda Feng and Ziyuan Feng and Yuwei Fu and Wenqi Fu and Hanjie Fu and Hao Ge and Hongyi Guo and Mingji Han and Li Han and Wenhao Hao and Xintong Hao and Qianyu He and Jerry He and Feng He and Wen Heng and Zehua Hong and Qi Hou and Liang Hu and Shengding Hu and Nan Hu and Kai Hua and Qi Huang and Ziyue Huang and Hongzhi Huang and Zihao Huang and Ting Huang and Wenhao Huang and Wei Jia and Bin Jia and Xiaoying Jia and Yuhua Jiang and Haobin Jiang and Ziheng Jiang and Kaihua Jiang and Chengquan Jiang and Jianpeng Jiao and Xiaoran Jin and Xing Jin and Xunhao Lai and Zheng Li and Xiang Li and Liyi Li and Hongkai Li and Zheng Li and Shengxian Wan and Ya Wang and Yunshui Li and Chenggang Li and Niuniu Li and Siyu Li and Xi Li and Xiao Li and Aoyan Li and Yuntao Li and Nianning Liang and Xinnian Liang and Haibin Lin and Weijian Lin and Ye Lin and Zhicheng Liu and Guanlin Liu and Guanlin Liu and Chenxiao Liu and Yan Liu and Gaohong Liu and Juncai Liu and Chundian Liu and Deyi Liu and Kaibo Liu and Siyao Liu and Qi Liu and Yongfei Liu and Kang Liu and Gan Liu and Boyi Liu and Rui Long and Chenwei Lou and Weiqiang Lou and Xiang Luo and Yao Luo and Caiping Lv and Heyang Lv and Bole Ma and Qianli Ma and Hongzhi Ma and Yiyuan Ma and Jin Ma and Wenchang Ma and Tingting Ma and Chen Mao and Qiyang Min and Zhe Nan and Guanghan Ning and Jinxiang Ou and Haojie Pan and Renming Pang and Yanghua Peng and Tao Peng and Lihua Qian and Lihua Qian and Mu Qiao and Meng Qu and Cheng Ren and Hongbin Ren and Yong Shan and Wei Shen and Ke Shen and Kai Shen and Guangming Sheng and Jinlong Shi and Wenlei Shi and Guang Shi and Shuai Shuai Cao and Yuxin Song and Zuquan Song and Jing Su and Yifan Sun and Tao Sun and Zewei Sun and Borui Wan and Zihan Wang and Xiaohui Wang and Xi Wang and Shuguang Wang and Jun Wang and Qinlong Wang and Chenyuan Wang and Shuai Wang and Zihan Wang and Changbao Wang and Jiaqiang Wang and Shihang Wang and Xuwu Wang and Zaiyuan Wang and Yuxuan Wang and Wenqi Wang and Taiqing Wang and Chengzhi Wei and Houmin Wei and Ziyun Wei and Shufa Wei and Zheng Wu and Yonghui Wu and Yangjun Wu and Bohong Wu and Shuang Wu and Jingqiao Wu and Ning Wu and Shuangzhi Wu and Jianmin Wu and Chenguang Xi and Fan Xia and Yuqiao Xian and Liang Xiang and Boren Xiang and Bowen Xiao and Zhen Xiao and Xia Xiao and Yongsheng Xiao and Chao Xin and Shulin Xin and Yuwen Xiong and Jingjing Xu and Ziwen Xu and Chenyin Xu and Jiayi Xu and Yifan Xu and Wei Xu and Yufei Xu and Shikun Xu and Shipeng Yan and Shen Yan and Qingping Yang and Xi Yang and Tianhao Yang and Yuehang Yang and Yuan Yang and Ximing Yang and Zeyu Yang and Guang Yang and Yifan Yang and Xuesong Yao and Bairen Yi and Fan Yin and Jianian Yin and Ziqiang Ying and Xiangyu Yu and Hongli Yu and Song Yu and Menghan Yu and Huan Yu and Siyu Yuan and Jun Yuan and Yutao Zeng and Tianyang Zhan and Zheng Zhang and Yun Zhang and Mofan Zhang and Wang Zhang and Ru Zhang and Zhi Zhang and Tianqi Zhang and Xinyi Zhang and Zhexi Zhang and Sijun Zhang and Wenqiang Zhang and Xiangxiang Zhang and Yongtao Zhang and Yuyu Zhang and Ge Zhang and He Zhang and Yue Zhang and Renjie Zheng and Ningxin Zheng and Zhuolin Zheng and Yaowei Zheng and Chen Zheng and Xiaoyun Zhi and Wanjun Zhong and Cheng Zhong and Zheng Zhong and Baoquan Zhong and Xun Zhou and Na Zhou and Huan Zhou and Hang Zhu and Defa Zhu and Wenjia Zhu and Lei Zuo},
+  year={2025},
+  eprint={2504.13914},
+  archivePrefix={arXiv},
+  primaryClass={cs.CL},
+  url={https://arxiv.org/abs/2504.13914}
 }
 
 @article{li2022branch,
@@ -993,7 +996,7 @@ @article{wu2024fine
   author={Wu, Zeqiu and Hu, Yushi and Shi, Weijia and Dziri, Nouha and Suhr, Alane and Ammanabrolu, Prithviraj and Smith, Noah A and Ostendorf, Mari and Hajishirzi, Hannaneh},
   journal={Advances in Neural Information Processing Systems},
   volume={36},
-  year={2024}
+  year={2023}
 }
 
 @article{chen2024learning,
@@ -1322,7 +1325,7 @@ @inproceedings{kim2023prometheus
   title={Prometheus: Inducing fine-grained evaluation capability in language models},
   author={Kim, Seungone and Shin, Jamin and Cho, Yejin and Jang, Joel and Longpre, Shayne and Lee, Hwaran and Yun, Sangdoo and Shin, Seongjin and Kim, Sungdong and Thorne, James and others},
   booktitle={The Twelfth International Conference on Learning Representations},
-  year={2023}
+  year={2024}
 }
 
 @article{cobbe2021gsm8k,
@@ -1606,7 +1609,7 @@ @inproceedings{li2023remax
   title={Remax: A simple, effective, and efficient reinforcement learning method for aligning large language models},
   author={Li, Ziniu and Xu, Tian and Zhang, Yushun and Lin, Zhihang and Yu, Yang and Sun, Ruoyu and Luo, Zhi-Quan},
   booktitle={Forty-first International Conference on Machine Learning},
-  year={2023}
+  year={2024}
 }
 
 @article{team2025kimi,
@@ -1946,12 +1949,12 @@ @article{franken2024self
 
 @inproceedings{yuan2025selfrewardinglanguagemodels,
       title={Self-Rewarding Language Models},
-  booktitle = {Annual Meeting of the Association for Computational Linguistics (ACL)}, 
+  booktitle = {International Conference on Machine Learning (ICML)},
       author={Weizhe Yuan and Richard Yuanzhe Pang and Kyunghyun Cho and Xian Li and Sainbayar Sukhbaatar and Jing Xu and Jason Weston},
-      year = {2025},
+      year = {2024},
       archivePrefix={arXiv},
       primaryClass={cs.CL},
-      url={https://arxiv.org/abs/2401.10020}, 
+      url={https://arxiv.org/abs/2401.10020},
 }
 
 @article{bercovich2025llamanemotron,
@@ -2552,14 +2555,6 @@ @article{amit2024models
   year = {2024}
 }
 
-@inproceedings{xudpoppo,
-  author={Shusheng Xu and Wei Fu and Jiaxuan Gao and Wenjie Ye and Weilin Liu and Zhiyu Mei and Guangju Wang and Chao Yu and Yi Wu},
-  title={Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study},
-  year={2024},
-  cdate={1704067200000},
-  url={https://openreview.net/forum?id=6XH8R7YrSk},
-  booktitle={ICML}
-}
 
 @misc{wang2025ragenunderstandingselfevolutionllm,
   title={RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning},
@@ -2760,11 +2755,14 @@ @article{shridhar2023distilling
   publisher={Association for Computational Linguistics}
 }
 
-@article{hsieh2023distilling,
-  title={Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes},
-  author={Hsieh, Cheng-Yu and Li, Chun-Liang and Yeh, Chih-Kuan and Nakhost, Hootan and Fujii, Yasuhisa and Ratner, Alexander and Krishna, Ranjay and Lee, Chen-Yu and Pfister, Tomas},
-  journal={arXiv preprint arXiv:2305.02301},
-  year={2023}
+@inproceedings{hsieh2023distilling,
+  title={Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes},
+  author={Hsieh, Cheng-Yu and Li, Chun-Liang and Yeh, Chih-kuan and Nakhost, Hootan and Fujii, Yasuhisa and Ratner, Alex and Krishna, Ranjay and Lee, Chen-Yu and Pfister, Tomas},
+  booktitle={Findings of the Association for Computational Linguistics: ACL 2023},
+  year={2023},
+  url={https://aclanthology.org/2023.findings-acl.507/},
+  doi={10.18653/v1/2023.findings-acl.507},
+  pages={8003--8017}
 }
 
 @article{gerstgrasser2024model,
@@ -2826,9 +2824,9 @@ @inproceedings{huang2025math
 
 @inproceedings{hendrycks2020measuring,
   title={Measuring massive multitask language understanding},
-  booktitle = {Conference of the North American Chapter of the Association for Computational Linguistics (NAACL)},
+  booktitle = {International Conference on Learning Representations (ICLR)},
   author={Hendrycks, Dan and Burns, Collin and Basart, Steven and Zou, Andy and Mazeika, Mantas and Song, Dawn and Steinhardt, Jacob},
-  year = {2025}
+  year = {2021}
 }
 
 @article{mallen2023llm_memorization,
@@ -2999,17 +2997,16 @@ @misc{gao2023evalharness
 
 @inproceedings{gu2024olmes,
   author    = {Gu, Yuling and Tafjord, Oyvind and Kuehl, Bailey and Haddad, Dany and Dodge, Jesse and Hajishirzi, Hannaneh},
-  title     = {{OLMES: A Standard for Language Model Evaluations}
-  booktitle = {Conference of the North American Chapter of the Association for Computational Linguistics (NAACL)},},
+  title     = {{OLMES: A Standard for Language Model Evaluations}},
+  booktitle = {Findings of the North American Chapter of the Association for Computational Linguistics (NAACL)},
   year = {2025}
 }
 
-@inproceedings{liang2023helm,
+@article{liang2023helm,
   author    = {Liang, Percy and Bommasani, Rishi and Lee, Tony and Tsipras, Dimitris and Soylu, Dilara and Yasunaga, Michihiro and Zhang, Yian and Narayanan, Deepak and Wu, Yuhuai and Kumar, Ananya and Newman, Benjamin and Yuan, Binhang and Yan, Bobby and Zhang, Ce and Cosgrove, Christian and Manning, Christopher D. and R\'e, Christopher and Acosta-Navas, Diana and Hudson, Drew A. and Zelikman, Eric and Durmus, Esin and Ladhak, Faisal and Rong, Frieda and Ren, Hongyu and Yao, Huaxiu and Wang, Jue and Santhanam, Keshav and Orr, Laurel J. and Zheng, Lucia and Y\'uksekg\"on\"ul, Mert and Suzgun, Mirac and Kim, Nathan and Guha, Neel and Chatterji, Niladri S. and Khattab, Omar and Henderson, Peter and Huang, Qian and Chi, Ryan and Xie, Sang Michael and Santurkar, Shibani and Ganguli, Surya and Hashimoto, Tatsunori and Icard, Thomas and Zhang, Tianyi and Chaudhary, Vishrav and Wang, William and Li, Xuechen and Mai, Yifan and Zhang, Yuhui and Koreeda, Yuta},
-  title     = {{Holistic Evaluation of Language Models}
-  booktitle = {Annual Meeting of the Association for Computational Linguistics (ACL)},},
+  title     = {Holistic Evaluation of Language Models},
   journal   = {Transactions on Machine Learning Research},
-  year = {2025},
+  year = {2023},
   doi       = {10.1111/nyas.15007},
   note      = {Also available as arXiv:2211.09110}
 }