贵州银燕地板总经销

贵州银燕地板|贵阳木地板|贵州木地板|贵阳地板批发|贵州地板加盟|贵阳地板销售|贵州银燕木业|贵阳地板供应|银燕地板|银燕地板批发|银燕地板实木地板批发|银燕地板强化地板批发

联系方式
  • 联系人:金先生
  • 电话:18798793285
  • 邮件:327852587@qq.com
  • 手机:18798793285
  • 传真:18285199976
站内搜索
 
产品分类
友情链接
您当前的位置:首页 » 新闻中心 » 干货满满!360李振炜分享SparkSQL海量数据库设计实现
新闻中心
干货满满!360李振炜分享SparkSQL海量数据库设计实现
发布时间:2017-05-14        浏览次数:865        返回列表
 5月11日,第八届中国数据库技术大会(DTCC 2017)在北京国际会议中心盛大开幕。本届DTCC大会以“数据驱动·价值发现”为主题,作为国内最受关注,规模最大的数据库技术大会,已吸引近5000名IT人士到会交流。到13日,会议已经持续了3天,但现场热度仍然不减,参会嘉宾依旧兴致盎然。笔者曾听一友人说,常沉下心来搞技术的人,也许看似木讷,但心中总会燃着一股不灭的火焰。今日一见,果然如此。

13日下午的“Hadoop生态系统”分会场上,来自奇虎360系统部大数据团队的李振炜先生向大家分享了如何去完成基于SparkSQL的海量数据仓库设计与实践。▲奇虎360系统部大数据团队李振炜

奇虎360系统部大数据团队是早期把Spark应用到生产环境的团队之一,目前维护集群的总结点数超过8k,单集群最大节点3k+。每天支撑稳定运行的Spark任务,包括SparkSQL, Spark MLLib, Spark Streaming 超过10w。该团队扩展了SparkSQL大量的语法,并且优化执行过程,提高查询效率。并且对现有Spark MLLib算法性能做了优化,并根据业务需求实现大量新算法。同样完成了Spark对TensorFlow,Mxnet,Caffe等深度学习框架的集成。

SparkSQL近年来以更强的性能优势正逐渐取代Hive在数据仓库领域强势地位,360公司内部完成了hive作业向Spark迁移,修复了大量的Bug,优化了内核,显著提升执行效率,每天可支撑5万SQL作业的稳定运行。