伦敦政治经济学院朱进博士：强化学习的变量选择方法

发布人

报告摘要
In real-world applications of reinforcement learning, it is often challenging to obtain a state representation that is parsimonious and satisfies the Markov property without prior knowledge. Consequently, it is common practice to construct a state which is larger than necessary, e.g., by concatenating measurements over contiguous time points. However, needlessly increasing the dimension of the state can slow learning and obfuscate the learned policy. We introduce the notion of a minimal sufficient state in a Markov decision process (MDP) as the smallest subvector of the original state under which the process remains an MDP and shares the same optimal policy as the original process. We propose a novel sequential knockoffs (SEEK) algorithm that estimates the minimal sufficient state in a system with high-dimensional complex nonlinear dynamics. In large samples, the proposed method controls the false discovery rate, and selects all sufficient variables with probability approaching one. As the method is agnostic to the reinforcement learning algorithm being applied, it benefits downstream tasks such as policy optimization. Empirical experiments verify theoretical results and show the proposed approach outperforms several competing methods in terms of variable selection accuracy and regret.

嘉宾简介
朱进，伦敦政治经济学院博士后，于中山大学获得博士学位。主要研究领域包括强化学习和高维数据分析，相关成果发表在 PNAS、JASA、JMLR、ICML、AISTATS 等期刊和会议。


直播时间分享：2024年11月2日

打开封面下载高清视频观看高清视频视频下载器

伦敦政治经济学院朱进博士：强化学习的变量选择方法

国产大模型陷入技术迷局与 商业困境！市面所见模型主要分两类：其一为基础通用大模型，像文心一言、通义千问等大厂力作！其二则是行业专用模型，在政务、医疗、金融等细分

【医学统计学】纯知识点整理

【中英】11个被你误解的大脑冷知识

最简便Ai声音克隆！F5-TTS本地声音克隆软件，一键克隆自己声音生成，完全免费，支持win系统使用

线性回归及应用

强化学习底层原理讲解！AI学习如何上下楼梯（深度强化学习）！真的通俗易懂！建议收藏！——（人工智能、深度学习、机器学习算法、神经网络、计算机视觉）

【2024汽车年会】大数据和人工智能：从系统辨识到AI建模 从最优控制到强化学习

人工智能 AI 四小龙的兴衰! 商汤、旷视、依图等一批 15 年前后崛起的 A I 创业公司，似乎一夜之间就没了声！响

涩涩模型下载网站！！！全攻略！！！你想要的全都有

简单粗暴！1小时理解大模型预训练和微调！了解四大LLM微调方法，大模型所需NLP基础知识，基于人类反馈的强化学习、P-Tuning微调、Lora-QLora

【统计相关性】——张颢（清华大学）

强推！这可能是B站最系统的（Python＋机器学习＋深度学习）系列课程了，上海交大和腾讯联合出品！人工智能|神经网络|AI

厦门大学在读博士生高天辰：基于多层学术网络的统计文献引用量预测

15分钟快速上手，如何为RAG选择一款合适的embedding模型？（附教程）

【精华35分钟】这应该是全网AI Agent讲解得最透彻的教程了，从什么是Agent到创建自己的Agent智能体！一次搞懂！大模型/LLM

吹爆！不愧是李宏毅老师！2024公认最详细的【强化学习教程】通俗易懂！导师不教你的，李宏毅老师亲自教你，这还不赶紧学起来!!!人工智能|强化学习|机器学习

北大发布多模态大模型LLaVA-o1（已更名为LLaVA-CoT）推理计算Scaling新思路

CV强化论文分享20241025-01

斯坦福大学《在不确定性下的决策Stanford AA228/CS238 Decision Making Under Uncertainty》deepseek

在Qwen2.5基础上训练的最强表格模型诞生，适配excel、csv和数据库等结构化数据，查询、分析、可视化、建模无压力

三分钟一键部署Ollama！解压即用！从安装到微调，只要五步，免费开源 AI 助手 Ollama ，带你从零到精通，保姆级新手教程，100%保证成功！

强化学习魅力时刻

多伦多大学孙强副教授：用统计学让AI变得可信

这应该是你能找到的讲解最系统全面的【强化学习】教程！北大出身王树森教授从零到一保姆式教学，小白也能很好懂！

手撕 AlphaGo Zero

30分钟学会Qwen2.5-3B本地部署LightRAG，完胜GraphRAG！从模型部署到源码解读，带你全流程解析，速度快，效果好，落地部署更方便！！！

Recitation 7: Internal and External Validity

喂饭教程！25分钟本地部署Qwen2大模型：配置、微调、部署+效果展示，带你训练自己的行业大模型！

人工智能这样学！同济大佬三小时带你轻松掌握【强化学习】入门及实战，全程大白话讲解，主打一个通俗易懂！

数理统计第三版（韦来生等著）习题分析（公众号同步）

Qwen2.5-Coder接入Cursor，顶尖大模型在个人电脑帮你写代码！ | 本地运行集成代码开发器LLM丨一站式搞定低代码开发全流程！

630上苏大数学值不值！老张教你判断数学专业

如何从零快速学习SPSS问卷数据分析

电哥11.23完整版超高清

自研多模态RAG系统实践分享+基于VLLM+LLMs+RAG+Agent等组合技术+精确获取答案

【Agent+RAG】10小时博士精讲AI Agent(人工智能体)系列—提示工程、文本大模型、GPT...

Little Busters Swim Ring Poke Pop and Rip

Diffusion Policy 结合 PPO 模仿+强化 （下）

【全126集】目前B站最系统的Transformer教程！入门到进阶，全程干货讲解！拿走不谢！（神经网络/NLP/注意力机制/大模型/GPT/RNN）

Lec9: 强化学习的概率论基础Review（世界是确定的，条件概率，条件期望，towering property）

国产大模型陷入技术迷局与商业困境！市面所见模型主要分两类：其一为基础通用大模型，像文心一言、通义千问等大厂力作！其二则是行业专用模型，在政务、医疗、金融等细分

【2024汽车年会】大数据和人工智能：从系统辨识到AI建模从最优控制到强化学习

Diffusion Policy 结合 PPO 模仿+强化（下）