刘轶

 现任Intel大数据高级软件工程师,Apache Hadoop项目committer。致力于Hadoop 生态系统底层分布式文件系统HDFS和资源/任务调度管理框架YARN的开源贡献,以及基于Apache Spark 的数据分析处理平台的贡献。是Hadoop分布式文件系统透明加密和可扩展属性的作者,以及HDFS Erasure Coding 的主要贡献者之一。对于开源大数据平台(Hadoop/Spark)和生态系统有比较深入的理解,多次在国内外大数据会议上做过技术演讲。

演讲题目:针对Spark上大规模机器学习的参数服务器架构

摘要:这个演讲会介绍我们为Apache Spark上的分布式机器学习,实现参数服务器(Parameter Server)架构的支持,以支撑众多大型互联网公司的大规模机器学习系统和应用的搭建。Parameter Server提供专用的分布式NoSQL系统,分布式数组和矩阵的操作,以及对分布式机器学习的支持;以解决大规模的机器学习(比如Deep neural network, LDA, logistic regression等)中的可扩展性,内存瓶颈以及计算性能等问题。