2014年7月加入微软亚洲研究院,现为机器学习组的副研究员。2009年本科毕业于北京师范大学数学专业,2014年博士毕业于北京大学信息科学技术学院,期间曾于2011-2013年在美国密歇根大学交流访问。他的主要研究方向包括大规模机器学习、深度学习以及在自然语言处理、网络分析、社交媒体和信息检索等方面的应用。唐建博士于2014年获得国际顶级机器学习会议ICML的最佳论文。他的主要研究成果发表在国际顶级机器学习以及数据挖掘会议上包括ICML、KDD、WWW、AAAI、CIKM 。
演讲题目:木桶原理:发现主题建模的最短板
摘要:统计主题模型如LDA已经被广泛运用到机器学习、数据挖掘、生物信息等多个领域。这些模型在不同的数据集、情境和任务上都取得了不同程度的成功。但是,到目前为止还缺乏严格的理论研究来系统得分析主题模型的学习行为。尽管主题模型已经被广泛熟知以及运用,数据的特性以及模型的参数如何影响主题建模效果还尚不清楚。我们的研究工作系统得分析了影响主题建模效果的因素,弥补了理论与实际之间的差距。 我们严格的证明了当数据不断增长时主题的后验分布收敛速率,并且在合成和实际数据上进行了大量的实验论证,证明了定理的正确性。 基于这些理论与实验分析,我们为主题模型的用户关于如何确定合适的训练数据集以及如何确定最优的模型参数提供了具体的指导意见。