1、持續優化開源RL量化模型,能夠根據實際優化目標確定方案,并且在強化學習各類方法中持續迭代。
2、負責深度強化學習(DRL)算法的研究、設計與工程實現,涵蓋單智能體與多智能體場景;
3、開發并迭代經典與前沿算法(如 DQN、PPO、SAC、TD3、A3C、MAPPO 等),提升樣本效率與收斂速度;
4、搭建端到端訓練與評估量化交易的流水線,包括環境接口封裝、數據采集、指標監控與超參調優;
5、設計能夠在模擬量化交易和真實交易場景中進行算法驗證與性能優化;
1、計算機相關專業碩士及以上學歷
2、熟練掌握大模型continue pretrain, SFT, RLHF等優化模型方法,能夠獨立開展相關研發工作,有大模型RL agent應用落地經驗者優先;
3、持續跟蹤RL領域的最新進展,并結合自身業務能提出見解,拓展業務邊界;
4、扎實的代碼功底和工程開發能力,精通Linux 平合下的C++/Python 語言開發,熟練掌握 llama-factory,verl等訓練框架;對AGNET-TARS, Camel等agent框架有深入理解;
5、目標感強,善于分析和發現問題,拆解簡化,有較好的溝通和推動能力;
6、優先考慮在 ACL、 EMNLP、NAACL、 NeurlPS、 ICLR、ICML 等會議發表論文的候選人。
7、ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比賽獲獎者優先。
在求職過程中如果遇到扣押證件、收取押金、提供擔保、強迫入股集資、解凍資金、詐騙傳銷、求職歧視、黑中介、人身攻擊、惡意騷擾、惡意營銷、虛假宣傳或其他違法違規行為。請及時保留證據,立即向平臺舉報投訴,必要時可以報警、起訴,維護自己的合法權益。
