English

学术报告

翱翔学生百家讲坛:Multi-Armed Bandits

2019年06月03日  

翱翔学生百家讲坛:Multi-Armed Bandits

2019年6月3上午,翱翔学生百家讲坛活动在计算机学院105报告厅举行。本次讲坛的主讲人是现于麻省理工学院(MIT)攻读电子工程与计算机科学系(EECS)博士学位的孟祥琳博士,孟祥琳于牛津大学数学系先后获得数学专业本科和硕士的一等学位,现从师John N. Tsitsiklis教授和Munther A. Dahleh教授在信息与决策系统实验室(LIDS)研究网络化系统的风险。本次论坛由计算机学院党委副书记徐方暖老师主持,参加论坛的有计算机学院辅导员周颖、高云两位老师。

ab9ca4a3d4ba3cc61d651d3da709e97

首先,孟祥琳博士为我们简单讲解了多臂老虎机(MAB)问题。多臂老虎机是一个常见的强化学习问题,其主要解决的问题就是对于一个有着K个臂的老虎机,在用户不知道每一个臂的回报率情况下,怎样使得用户的回报率最大化。

其次,孟博士为我们介绍了解决多臂老虎机问题的几种常见算法。她先介绍了解决该问题的第一种算法:Stochastic Bandits,以及两种常见算法:UCBETC,接着详细说明了以上两种算法的思想、算法流程以及算法的优劣,并且对比了两种算法之间的性能差异;然后,孟博士又介绍了解决该问题的第二种算法:Adversarial Bandits,并且从该方法的基本模型入手,全面的为我们讲解了该方法的思路,以及在该方法中常见的Exp3算法。紧接着孟博士又为我们简单介绍了基于前面几种算法的几个常见的变种:Bayesian priorGlobal constraintsComplex decisionStructured rewardsPolicy sets等。

IMG_20190603_103602

最后,孟祥琳博士为本次讲座做了深入的总结,加深了同学们对这些常见算法的理解。讲座结束之后,同学们积极提问,问题涉及计算机学科相关前沿技术发展、人工智能技术等多个方面。孟博士非常热情地回答了同学们的提问,还和同学们分享了自己对计算机相关学科发展前景的看法,同学们获益匪浅。

 

 

撰稿人:张勇

审稿人:徐方暖


下一条:澳洲国立大学Dr.Ramesh Sankaranarayana学术报告

关闭