本站已关停,现有内容仅作科研等非赢利用途使用。特此声明。
查看: 945|回复: 0
打印 上一主题 下一主题

【活动】杭州GDG 开源搜索和海量数据处理沙龙活动总结

[复制链接]
跳转到指定楼层
1#
发表于 2014-8-24 16:27:39 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
活动主题:搜索和海量数据处理沙龙
活动时间:2014年8月23日 14:00-17:00
活动地点:西湖区通普路 贝塔咖啡活动人数:40余人
活动照片链接https://plus.google.com/events/gallery/cpslheteuhe93fd5fpjiahbvp3s

活动概述
此次沙龙是针对开源的大数据搜索引擎elasticsearch如何来构建每日处理TB级以上的海量数据处理平台技术交流,话题涉及到分布式搜索的技术架构,同等量级的MQ选型、优化经验交流,现场参加人员根据现实案例中每日数TB级的实时日志处理所遇到的性能瓶颈展开激烈的分析和问题探讨,大胆设想各抒己见,现场氛围异常活跃。

参加活动的嘉宾主要有:
来自阿里的ODPS数据平台运维组、CDN平台运维组 以及SLS日志平台组核心开发人员和BIGLog创业团队、杭州GDG该领域兴趣成员,浙大研究数据挖掘领域的学生等40余人


活动流程和总结
1、Zooboa为此次活动做开场白,详细介绍了杭州GDG的背景、现状以及往届活动的主题范围,让大家了解到GDG组织能给到大家带来的学习交流机会的多样性,并邀请大家加入和继续关注杭州GDG。

2、随后zooboa对elasticsearch、logstash、kibana架构和应用的场景做了介绍,并引出现实案例中所碰到的问题,从架构的合理性、性能的监测、MQ选型等方面分析,让大家参与讨论:


David PanHongHui Ding等热心成员总结了很多经验,在他们的生产场景下,大量日志数据通过UDP传输始终会保持1%的数据丢失率,但是如果采用TCP传输,虽然能够保证完整性,但又会增大网络延迟和资源的消耗,应该根据用户对数据的重要性而选择可接受的数据传输方式。

另外Redis在遇到数据输入大于输出的情况下,很快就导致内存耗光而崩溃,正常的应用环境下,应该让Redis保持0缓冲,只有当后端出现问题时,才让Redis发挥缓冲池的作用。而在固定单一来源和单一消费者的场景下,不建议使用Redis等MQ,这样反而增加了故障点。

在处理海量日志数据时,网络传输的延迟,传输的数据未进行压缩,以及使用短连接极易导致数据丢失,应该在集群的每个节点内,部署性能监测探针,监控出瓶颈产生的根源,这样才能对症下药。评估资源消耗后,尽可能让集群中每一个机器都充分发挥计算资源,这需要在架构上做出适当的调整。

3、活动结束时,大家互留联系方式方便以后继续就相关问题交流学习。


QQ Photo20140824112644_compressed.jpg (234.94 KB, 下载次数: 0)

QQ Photo20140824112651_compressed.jpg (274.66 KB, 下载次数: 0)

QQ Photo20140824112658_compressed.jpg (278.27 KB, 下载次数: 0)

QQ Photo20140824112704_compressed.jpg (238.43 KB, 下载次数: 0)

QQ Photo20140824112711_compressed.jpg (263.53 KB, 下载次数: 0)






ChinaGDG.com
回复

使用道具 举报

*滑动验证:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表