斯坦福大学在读博士生金滢：无重叠的政策学习-悲观主义和广义经验伯恩斯坦不等式

发布人

报告摘要
Offline policy learning aims at utilizing observations collected a priori (from either fixed or adaptively evolving behavior policies) to learn an optimal individualized decision rule that achieves the best overall outcomes for a given population. Existing policy learning methods rely on a uniform overlap assumption, i.e., the propensities of exploring all actions for all individual characteristics must be lower bounded. As one has no control over the data collection process, this assumption can be unrealistic in many situations, especially when the behavior policies are allowed to evolve over time with diminishing propensities for certain actions. 

In this work, we propose Pessimistic Policy Learning (PPL), a new algorithm that optimizes lower confidence bounds (LCBs) -- instead of point estimates -- of the policy values. In our theoretical analysis, we develop a new self-normalized type concentration inequality for inverse-propensity-weighting estimators, generalizing the well-known empirical Bernstein&#39;s inequality to unbounded and non-i.i.d.~data. We complement our theory with an efficient optimization algorithm via Majorization-Minimization and policy tree search, as well as extensive experiments that demonstrate the efficacy of PPL.

嘉宾简介
Ying Jin is a fifth-year PhD candidate in the Department of Statistics at Stanford University, advised by Professors Emmanuel Candès and Dominik Rothenhäusler. Her research interests include conformal prediction, selective inference, distribution robustness, and data-driven decision-making.

直播分享时间：2024年4月27日

打开封面下载高清视频观看高清视频视频下载器

斯坦福大学在读博士生金滢：无重叠的政策学习-悲观主义和广义经验伯恩斯坦不等式

有问必答 | 如何向上社交 | 社恐i人社交方法 | 社交需要攻击性

研究生毕业入职苹果啦｜一个果粉的终极梦想

【烨】(3) 伯恩斯坦不等式 | 无聊的《高维概率》课程

宾夕法尼亚大学任之湄助理教授：共形对齐——为何时信任大模型提供理论保证

一手的蚊子？这种情况下要不要叫醒室友？

北京师范大学张博宇教授：行为决策中的物质激励、个人信念和社会影响评估

牛津不再是我的梦校，而是母校｜应用数学全系第一考进牛津

专访转码的美女学霸

【Proof-Trivial】机器学习与数据科学中的【理论】与【算法】【北京大学 文再文】

杨超越B站视频的分析与启示

CSC国家公派留学——不同身份和国家奖学金标准 | 哪个国家给的钱最多？

北京大学耿直教授：因果推断：混杂因素、替代指标、因果网络

【做科研最重要的是什么】被导师散养未必是坏事

【官方双语】GPT是什么？直观解释Transformer | 深度学习第5章

我被MIT哈佛CMU录取了！计算机博士申请季纪实

中国人民大学黄丹阳副教授：基于K-S统计量的聚类算法及在银行卡交易数据上的应用

北京大学在读博士生熊子瑜：基于电话销售语音数据的客户购车意向甄别模型

北京大学王汉生教授：深度学习中的统计学习

复旦大学杨莹研究员：流数据的在线非参数模型

UNSW-ISTM PhD Video Interview | Yun ZHANG

宾夕法尼亚大学苏炜杰副教授：统计学如何推进大型语言模型——水印技术与公平性对齐

北京大学王汉生教授：开学第一课 | 统计学研究什么？

哈佛大学陈侃博士：部分识别治疗效果的差异效应方法

Geoffrey Hinton都柏林大学演讲cut：记忆不是存储，而是重新构建

上海财经大学伍书缘助理研究员：高维多类别逻辑回归的类别并行算法

北京大学在读本科生李柄辉：鲁棒泛化性或需指数级大模型

北京大学张志华教授：机器学习基础

香港大学在读博士生黄绯青：RNN和LSTM有长期记忆吗?

收到啦！量子计算研究所的全奖博士offer！

【佳佳子】2018年，邹佳佳在贵州当“支教”的珍贵照片。原微博已经无法查看。

姚顺雨-语言智能体博士答辩 Language Agents: From Next-Token Prediction to Digital Automation

中国人民大学王霞教授：区分时变因子模型

ChatGPT辅助的R语言编程：01-线性回归

女，24，爱国，但决定留在欧洲了。

北京大学王汉生教授：数据思维：从数据分析到商业价值

[闲聊] 港城新进助理教授：我可不是个push的老板（摊手）| FAI-Chat 马梓业

宾夕法尼亚州立大学李润泽教授：超高维数据的特征筛选：方法与应用

宾夕法尼亚大学李洪哲教授：迁移学习在基因组学中的应用

中央财经大学李丰副教授：基于狄利克雷过程的无限预测组合

突发！哥大学生凌晨攻占教学楼

【Proof-Trivial】机器学习与数据科学中的【理论】与【算法】【北京大学文再文】