华雯

中国人民大学在读博士生。2010年获中国人民大学信息学院计算机科学与技术专业工学学士学位,2012年参与中国人民大学与澳大利亚昆士兰大学联合培养博士生项目,曾在Teradata、微软亚洲研究院、昆士兰大学等地进行长期的交流访问。主要研究方向包括数据库管理、数据挖掘、智能信息检索、语义网技术、图结构管理与查询等。曾在数据库与数据挖掘领域的各类重要会议上发表多篇学术论文,如SIGMOD、ICDE、WSDM、APWeb等,2015年作为第一作者荣获ICDE最佳论文奖。

演讲题目:让计算机理解互联网时代“快餐式”语言

摘要:大数据环境下短文本数据量的急剧增长为文本挖掘工作及其应用带来了新的机遇,准确且快速的短文本理解技术能有效地支持各种Web应用,如实体浏览、语义检索、查询推荐等等。然而,短文本的特性也为理解工作带来了新的挑战。首先,短文本中往往包含大量的拼写及语法错误,这使得传统的自然语言处理工具并不适用于处理短文本;其次,短文本中有限的信息量也使得现有的主题建模算法无法从中收集到足够的统计信息;另外,诸如微博服务之类的短文本应用平台的个性化、动态性及实时性要求也在一定程度上增加了短文本理解的难度。在该项目中,我们尝试利用上下文语义相关性,短文本作者的实时兴趣等因素来提高短文本理解的准确性,同时保证其效率。