發(fā)放方式:每月15日?????
1、持續(xù)優(yōu)化開(kāi)源RL量化模型,能夠根據(jù)實(shí)際優(yōu)化目標(biāo)確定方案,并且在強(qiáng)化學(xué)習(xí)各類(lèi)方法中持續(xù)迭代。
2、負(fù)責(zé)深度強(qiáng)化學(xué)習(xí)(DRL)算法的研究、設(shè)計(jì)與工程實(shí)現(xiàn),涵蓋單智能體與多智能體場(chǎng)景;
3、開(kāi)發(fā)并迭代經(jīng)典與前沿算法(如 DQN、PPO、SAC、TD3、A3C、MAPPO 等),提升樣本效率與收斂速度;
4、搭建端到端訓(xùn)練與評(píng)估量化交易的流水線,包括環(huán)境接口封裝、數(shù)據(jù)采集、指標(biāo)監(jiān)控與超參調(diào)優(yōu);
5、設(shè)計(jì)能夠在模擬量化交易和真實(shí)交易場(chǎng)景中進(jìn)行算法驗(yàn)證與性能優(yōu)化;
1、計(jì)算機(jī)相關(guān)專(zhuān)業(yè)碩士及以上學(xué)歷
2、熟練掌握大模型continue pretrain, SFT, RLHF等優(yōu)化模型方法,能夠獨(dú)立開(kāi)展相關(guān)研發(fā)工作,有大模型RL agent應(yīng)用落地經(jīng)驗(yàn)者優(yōu)先;
3、持續(xù)跟蹤RL領(lǐng)域的最新進(jìn)展,并結(jié)合自身業(yè)務(wù)能提出見(jiàn)解,拓展業(yè)務(wù)邊界;
4、扎實(shí)的代碼功底和工程開(kāi)發(fā)能力,精通Linux 平合下的C++/Python 語(yǔ)言開(kāi)發(fā),熟練掌握 llama-factory,verl等訓(xùn)練框架;對(duì)AGNET-TARS, Camel等agent框架有深入理解;
5、目標(biāo)感強(qiáng),善于分析和發(fā)現(xiàn)問(wèn)題,拆解簡(jiǎn)化,有較好的溝通和推動(dòng)能力;
6、優(yōu)先考慮在 ACL、 EMNLP、NAACL、 NeurlPS、 ICLR、ICML 等會(huì)議發(fā)表論文的候選人。
7、ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比賽獲獎(jiǎng)?wù)邇?yōu)先。
在求職過(guò)程中如果遇到扣押證件、收取押金、提供擔(dān)保、強(qiáng)迫入股集資、解凍資金、詐騙傳銷(xiāo)、求職歧視、黑中介、人身攻擊、惡意騷擾、惡意營(yíng)銷(xiāo)、虛假宣傳或其他違法違規(guī)行為。請(qǐng)及時(shí)保留證據(jù),立即向平臺(tái)舉報(bào)投訴,必要時(shí)可以報(bào)警、起訴,維護(hù)自己的合法權(quán)益。
