2015双11聚石塔云资源弹性升级保障,为了更好的保障服务商双11资源安全稳定,聚石塔对云资源的物理环境进行了充分的扩容,建议 ISV提前评估日常资源负载, 结合聚石塔提供的压测建议,自主进行云主机、数据库、带宽的扩容升级。
策略:
弹性升级预案:
为了提升今年服务商应用的压测质量,2015年8月下旬举行服务商压测大赛,验证软件系统是否能够达到用户提出的性能指标,同时发现软件系统中存在的性能瓶颈,最后起到优化系统的目的。
活动对象:企业ERP、进销存OMS、订单处理、奇门(ERP&WMS)
活动时间: 2015年8月25号-2015年9月25号
报名方式: 大赛官网
参赛规则:
大赛采取小组形式,按组与组之间的比赛评选结果。
激励政策:
大赛组委会根据服务商报名情况以及性能压测报告成绩,优先甄选出10款软件质量优异的服务商最终进入天猫双十一官方全链路压测。奖项设置全链路协同奖及软件质量卓越奖(共10名)::官方全链路压测参与资格+荣誉证书+对外媒体宣传公示。
评分模型:
采用系统有效稳定能力模型,通过服务商系统处理能力和稳定能力两个维度进行综合评分。系统处理不稳定时长将是一个重要的参考指标。ECS高危基线,RDS高危基线,出现任一不满足上述基线条件情况,视为不稳定状态。
压测产品介绍及使用文档: 下载地址 (提取码:KPMOHx)
在双11期间,商家订单量增加为日常的数10倍,对后台的电商业务系统的稳定性要求也极为苛刻,任何的中断都可能带来不可挽回的损失,在此情况下,聚石塔后台团队根据本年度服务商&自研型商家后台系统的情况,有针对性的提出了和后台系统的整体灾备方案。
2015年9月,聚石塔上海机房也即将开通投入使用,这也让2015年双11聚石塔的保障方案当中可以加入异地灾备方案,保障系统总体稳定度,杭州机房如果出现较大的负载压力的情况下,可以将主要的业务处理逻辑放入上海机房进行处理,不耽误双11期间的订单处理,在商家业务后台系统的基础保障前提下,让商家业务系统在双11期间更加稳定、可靠,同时提升系统整体可用性,如出现机房断电、断网等极端情况能够实现系统无缝快速切换,真正实现商家后台业务系统异地多活、数据同步,在未来让专门为双11准备的系统灾备方案也成为日后商家后台业务系统的常态,以阿里巴巴成熟的技术方案输出到各个合作伙伴。
2015双11聚石塔服务商&自研型商家灾备方案包含4个层面,包含异地灾备、系统热备、系统冷备、本地订单处理。灾备方案的每一层的整体可用性、可靠性从下至上依次递增,异地灾备方案则可以帮助商家彻底解决在双11大促期间系统不稳定的问题,异地灾备方案是2015年双11提供给服务商&商家的重点保障计划和方案,诚邀各位服务商&TOP商家参与到聚石塔整体灾备方案的制定、执行当中。
以下是各层方案的详细介绍:
随着2015年9月聚石塔上海机房的投入使用,ISV&自研型商家可以选择上海的聚石塔云资源给一些对稳定性要求比较高的商家&品牌商进行部署,以实现在双11期间的整体稳定性。
同时异地灾备方案按照功能以及部署方式上进行划分可以分为两个方面:店铺均衡异地灾备方案、云资源均衡异地灾备方案。
以下是店铺均衡异地灾备方案总体架构图:
订单同步:按照机房故障的程度不同,订单同步服务数据同步有两种方式:
TOP API获取:2015双11前TOP上线异地多活的方案,只要与之对接,即可实现后端数据的无缝切换,前端掉用方无感知。
以下是云资源均衡异地灾备方案的总体构架图:
将商家的服务商后台系统&自研型商家后台系统部署至备份服务器上(可以是不同机房、集群、可用区):
以下分别是系统热备和系统冷备方案的总体构架图:
系统热备构架方案:
系统冷备构架方案:
ISV&自研型商家也可根据商家对稳定性的要求提供商家本地订单处理的软件,即使在断网的情况下,只要有订单数据可进行订单的处理,将处理后的订单直接进行打单操作或者导出提供到后端的WMS系统当中,以便直接进行发货。
2015双11服务商提供给商家的保障方案当中,可以联合卖家服务市场,将保障服务打包进行售卖,打包的服务类型可以包含以下的种类:
在双11期间当聚石塔VM发现高危漏洞时,需要按照此预案进行安全事件处理,保障聚石塔ECS的可用性以及安全性。
在双11前一天开始,为保障双十一聚石塔ECS的高可用性,需要打开云盾的漏洞扫描功能。漏洞的发现途径有:
外部上报漏洞和云盾扫描发现漏洞,会先经过阿里巴巴集团安全工程师检查,确认属于安全漏洞后加入iSOC生态安全平台通知服务商紧急修复,iSOC生态安全平台登陆地址:http://isoc.alibaba.com/(请使用应用主账号登陆查看和修复漏洞);
漏洞修复方法需要按照iSOC生态安全平台中漏洞知识库中的修复方案修复;
在修复过程中存在任何问题及时通过“高危漏洞修复群”反馈,群号:692229099
对于目标机器中的流量指标、连接数指标、发包数指标中任一指标超出阈值,都需要按照此DDOS安全策略进行防御。请服务商关注聚石塔控制台中ECS监控;
当通过监控报警发现网络异常时,由阿里巴巴集团安全部安全工程师做流量分析,作出是否是DDOS攻击的判断,当确定为攻击时,自动/手动启动清洗策略,当流 量正常后,关闭清洗策略。
聚石塔ECS被入侵信息来源途径有:
关于云盾扫描发现的webshell,由安全工程师初步判断是否存在恶意代码,并会紧急联系服务商安全接口人提供服务器管理员账号密码,登陆服务器检查,当检查发现文件属于服务商人为上传藏代码导致时,要求服务商安全技术支持立即隔离删除,弱判断为被黑客入侵保留的后门文件时,需要服务商协助排查服务器登陆管理日志,并修复服务器密码和应用密码为强密码;
ECS资源条件允许情况下将被入侵资源调用向备用资源迁移,并初始化被入侵服务器。
如果服务商发现服务器中存在可疑文件,或可疑登陆账号,可疑通过“高危漏洞修复群”向小二柳畅
反馈排查;
双 11期间聚石塔资源需集中保障交易稳定运行,当订单量瞬间爆激增的时间段,日志统计量会同步上升,此时御城河安全整改中日志回传功能需要占用较大,可以选择临时将日志临时写入ECS服务器本地磁盘,待服务器CPU和内存资源降低时,再将日志通过异步回传接口回传到淘宝;
今年聚石塔不封网,但是双十一ISV开放的系统,建议稳定运行2周以上,且经历过促销活动的峰值压测考验,不建议临时换系统或更新版本等风险操作。除非严重的故障,否则不提倡随意更新软件版本,双十一前后一周进行“封版”,即尽可能不要在双十一前后进行系统升级(2015年11月4号至2015年11月18号)。
11月9日RDS的保障操作,为了节省流量关闭rds mysqlpcap、sqldump sql日志采集。停止RDS实例的备份,停止实例的空间检测,保障用户实例不会因容量空间突增而被锁定。