V
主页
中国人民大学王菲菲副教授:基于贝叶斯联合动态主题模型的文本间语义关系识别
发布人
嘉宾简介 王菲菲,中国人民大学统计学院副教授,北京大学光华管理学院统计学博士。研究上关注文本挖掘及其商业应用、社交网络分析、大数据建模等,研究论文发表于Journal of Econometric, Journal of Business and Econometric Statistics, Journal of Machine Learning Research, 中国科学(数学)等国内外高水平期刊上。主持并参与了国家自科基金项目、教育部社科重大项目、国家重点研发项目等多个课题。曾获中国人民大学教师青年基本功大赛二等奖、课外教学优秀奖等。 相关文章 https://arxiv.org/abs/2111.10846 报告摘要 Topic evolution modeling has received significant attentions in recent decades. Although various topic evolution models have been proposed, most studies focus on the single document corpus. However in practice, we can easily access data from multiple sources and also observe relationships between them. Then it is of great interest to recognize the relationship between multiple text corpora and further utilize this relationship to improve topic modeling. In this work, we focus on a special type of relationship between two text corpora, which we define as the ``lead-lag relationship". This relationship characterizes the phenomenon that one text corpus would influence the topics to be discussed in the other text corpus in the future. To discover the lead-lag relationship, we propose a joint dynamic topic model and also develop an embedding extension to address the modeling problem of large-scale text corpus. With the recognized lead-lag relationship, the similarities of the two text corpora can be figured out and the quality of topic learning in both corpora can be improved. We numerically investigate the performance of the joint dynamic topic modeling approach using synthetic data. Finally, we apply the proposed model on two text corpora consisting of statistical papers and the graduation theses. Results show the proposed model can well recognize the lead-lag relationship between the two corpora, and the specific and shared topic patterns in the two corpora are also discovered.
打开封面
下载高清视频
观看高清视频
视频下载器
中国人民大学黄丹阳教授:大规模网络随机块模型的子采样谱聚类
中国人民大学黄丹阳副教授:基于K-S统计量的聚类算法及在银行卡交易数据上的应用
复旦大学林晓蕾青年副研究员:用于 I 期剂量探索试验的贝叶斯样本量规划
北京大学王汉生教授:开学第一课 | 统计学研究什么?
北京大学耿直教授:因果推断:混杂因素、替代指标、因果网络
宾夕法尼亚州立大学李润泽教授:超高维数据的特征筛选:方法与应用
中国人民大学王霞教授:区分时变因子模型
斯坦福大学在读博士生金滢:无重叠的政策学习-悲观主义和广义经验伯恩斯坦不等式
复旦大学在读博士生李哲:随机块模型下大规模网络的分布式社团检测算法
中央财经大学姜富伟教授:经济叙事下的通胀预测
北京师范大学师资博士后亓颢博:深度神经网络的因子归一化方法
北京大学王汉生教授:数据思维:从数据分析到商业价值
中国人民大学黄丹阳副教授:开学第一课 | 学会拥抱不确定性
香港大学在读博士生黄绯青:RNN和LSTM有长期记忆吗?
付灏达教授:生成式AI的最新进展与突破以及在制药设计中的应用
上海财经大学张耀武教授:高维数据中的非线性关系和独立性检验
中国人民大学在读博士闫引桥:空间转录组学研究中的贝叶斯整合区域分割方法
第三届美团商业分析精英大赛亚军作品:助力“闪电仓”老品去库存——临期食品动态定价与管理策略
香港理工大学蒋滨雁副教授:动态网络的双向异质性模型
复旦大学朱雪宁副教授:带缺失的矩阵型时间序列的网络自回归
中国人民大学周静副教授:一种用于肺腺癌病理亚型识别的集成3D CNN模型
上海科技大学汪时嘉助理教授:复杂模型的近似贝叶斯加速计算方法
【数据科学】上海财经大学林颖倩助理教授:具有部分线性可加性的变换协整模型
中央财经大学李丰副教授:基于狄利克雷过程的无限预测组合
<中英字幕> 3 种逆天切片器设置 (切片器文件夹|用切片器实现高亮显示|默认选中日期)
北京大学王汉生教授:大规模社交网络数据的典型特征与相关性应用
第三届美团商业分析精英大赛季军作品:腰部博主的广告投放价值研究——基于博主的历史动态和视频信息数据
ChatGPT辅助的R语言编程:03-逻辑回归
中国科学院张新雨研究员:一种关于泊松回归的模型平均方法
北京大学在读博士李雪曈:基于稀有事件的分布式逻辑回归
【数据科学】加州大学河滨分校马舒洁教授:基于神经网络的因果推断
ChatGPT辅助的R语言编程:02-方差分析
复旦大学郁文教授:用于生存分析的NFM(Neural Frailty Machines)
狗熊会在线项目研发总监常莹:开学第一课 | 从-4岁开始你的职业生涯
中央财经大学潘蕊教授:统计学科引文网络的动态社区发现
德克萨斯农工大学倪羊助理教授:逆向工程单细胞基因调控网络的贝叶斯因果发现
北京大学王汉生教授:基于大规模社交网络数据的空间自回归模型的最小二乘估计
北京大学王汉生教授:深度学习中的统计学习
华东师范大学周勇教授:大数据统计学习理论与分布式计算及其应用
不同数据源使用同一切片器的课后问题讲解(透视表,删除重复值,数据模型,多表联动)