13日下午的“Hadoop生态系统”分会场上,来自奇虎360系统部大数据团队的李振炜先生向大家分享了如何去完成基于SparkSQL的海量数据仓库设计与实践。▲奇虎360系统部大数据团队李振炜
奇虎360系统部大数据团队是早期把Spark应用到生产环境的团队之一,目前维护集群的总结点数超过8k,单集群最大节点3k+。每天支撑稳定运行的Spark任务,包括SparkSQL, Spark MLLib, Spark Streaming 超过10w。该团队扩展了SparkSQL大量的语法,并且优化执行过程,提高查询效率。并且对现有Spark MLLib算法性能做了优化,并根据业务需求实现大量新算法。同样完成了Spark对TensorFlow,Mxnet,Caffe等深度学习框架的集成。
SparkSQL近年来以更强的性能优势正逐渐取代Hive在数据仓库领域强势地位,360公司内部完成了hive作业向Spark迁移,修复了大量的Bug,优化了内核,显著提升执行效率,每天可支撑5万SQL作业的稳定运行。