文档中心 > 双11保障服务商白皮书

聚石塔保障

更新时间:2015/10/08 访问次数:10114

云资源弹性升级

image
2015双11聚石塔云资源弹性升级保障,为了更好的保障服务商双11资源安全稳定,聚石塔对云资源的物理环境进行了充分的扩容,建议 ISV提前评估日常资源负载, 结合聚石塔提供的压测建议,自主进行云主机、数据库、带宽的扩容升级。
image
策略:

  • 系统提前进行压力测试,评估资源需求。压测大赛获奖ISV可获得弹性升级优惠(见1.2章节全链路压测). 压测后进行SQL优化,应用优化等。
  • RDS实现高规格实例,支持48G/96G

弹性升级预案:

  • 弹性升级服务在卖家服务市场打包售卖

全链路压测

为了提升今年服务商应用的压测质量,2015年8月下旬举行服务商压测大赛,验证软件系统是否能够达到用户提出的性能指标,同时发现软件系统中存在的性能瓶颈,最后起到优化系统的目的。
image

活动对象:企业ERP、进销存OMS、订单处理、奇门(ERP&WMS)
活动时间: 2015年8月25号-2015年9月25号
报名方式: 大赛官网
参赛规则:
大赛采取小组形式,按组与组之间的比赛评选结果。

  • A组:订单管理(ERP、OMS、打单工具 )
  • B组:兼具订单管理和仓储管理能力(ERP&WMS&奇门)

激励政策:
大赛组委会根据服务商报名情况以及性能压测报告成绩,优先甄选出10款软件质量优异的服务商最终进入天猫双十一官方全链路压测。奖项设置全链路协同奖及软件质量卓越奖(共10名)::官方全链路压测参与资格+荣誉证书+对外媒体宣传公示。
评分模型:
采用系统有效稳定能力模型,通过服务商系统处理能力和稳定能力两个维度进行综合评分。系统处理不稳定时长将是一个重要的参考指标。ECS高危基线,RDS高危基线,出现任一不满足上述基线条件情况,视为不稳定状态。
压测产品介绍及使用文档: 下载地址 (提取码:KPMOHx)

系统灾备方案

灾备方案背景

在双11期间,商家订单量增加为日常的数10倍,对后台的电商业务系统的稳定性要求也极为苛刻,任何的中断都可能带来不可挽回的损失,在此情况下,聚石塔后台团队根据本年度服务商&自研型商家后台系统的情况,有针对性的提出了和后台系统的整体灾备方案。
2015年9月,聚石塔上海机房也即将开通投入使用,这也让2015年双11聚石塔的保障方案当中可以加入异地灾备方案,保障系统总体稳定度,杭州机房如果出现较大的负载压力的情况下,可以将主要的业务处理逻辑放入上海机房进行处理,不耽误双11期间的订单处理,在商家业务后台系统的基础保障前提下,让商家业务系统在双11期间更加稳定、可靠,同时提升系统整体可用性,如出现机房断电、断网等极端情况能够实现系统无缝快速切换,真正实现商家后台业务系统异地多活、数据同步,在未来让专门为双11准备的系统灾备方案也成为日后商家后台业务系统的常态,以阿里巴巴成熟的技术方案输出到各个合作伙伴。

系统灾备方案

灾备方案总体框架

2015双11聚石塔服务商&自研型商家灾备方案包含4个层面,包含异地灾备、系统热备、系统冷备、本地订单处理。灾备方案的每一层的整体可用性、可靠性从下至上依次递增,异地灾备方案则可以帮助商家彻底解决在双11大促期间系统不稳定的问题,异地灾备方案是2015年双11提供给服务商&商家的重点保障计划和方案,诚邀各位服务商&TOP商家参与到聚石塔整体灾备方案的制定、执行当中。
以下是各层方案的详细介绍:
image

  • 异地灾备:将服务商后台系统&商家后台系统部署在杭州、上海两地的机房当中,前端使用HA的方案进行业务系统的切换,后端则采用底层数据同步的机制保证两地机房数据一致,数据延迟保持在可控范围以内;
  • 系统热备:将同一个商家的服务商后台系统&商家后台系统部署至备份服务器上(可以是不同机房、集群、可用区),前端通过VIP、SLB、域名解析等负载均衡方案实现系统热切换,后端采用数据双写方案保证系统底层数据一致性;
  • 系统冷备:将同一个商家的服务商后台系统&商家后台系统部署至备份服务器上(可以是不同机房、集群、可用区),当出现故障后,通过人为调整前端流量入口实现备用系统的切换,后端数据则需迁移至备份系统以实现系统的整体切换,切换时间根据不同数据量大小则有所不同;
  • 本地订单处理:如系统灾备方案全部失效,商家也可提前准备运行至本地的备用系统进行订单的处理,将处理完成后的订单交由后端WMS系统或者直接进行发货处理。

异地灾备

随着2015年9月聚石塔上海机房的投入使用,ISV&自研型商家可以选择上海的聚石塔云资源给一些对稳定性要求比较高的商家&品牌商进行部署,以实现在双11期间的整体稳定性。
同时异地灾备方案按照功能以及部署方式上进行划分可以分为两个方面:店铺均衡异地灾备方案、云资源均衡异地灾备方案。

  • 店铺均衡异地灾备方案:
    该方案适用于多店铺的品牌商商家,通过杭州、上海两地机房的部署,实现一部分店铺在杭州机房进行处理数据,一部分店铺在上海机房进行处理数据;如果一地的机房出现任何的问题,可以将这一机房的店铺迅速迁移至另一机房进行处理,反之亦然。
    数据来源:双11期间,最主要的数据为订单数据,聚石塔内的用户主要分为两种渠道获取,分别是订单同步、TOP API获取:
    • 订单同步:
      通过聚石塔控制台可以按照店铺维度灵活设置不同店铺的数据推送的目的RDS,出现问题时可以快速实现数据源的切换;
    • TOP API获取:
      2015双11前TOP上线异地多活的方案,只要与之对接,即可实现后端数据的无缝切换,前端掉用方无感知;

以下是店铺均衡异地灾备方案总体架构图:
image

  • 云资源均衡异地灾备方案:
    该方案是基于聚石塔前端应用层、后端数据层所提供的系统切换方案以及数据同步方案构建出的异地灾备方案,需要将ISV&自研型商家的业务系统同时部署在杭州、上海两地的机房当中。
    如果一地的机房出现任何的问题,导致商家订单无法处理,可以通过聚石塔前端SLB负载均衡快速的切换到另一机房进行订单处理,同时数据层通过RDS所提供的异地同步方案保证两地机房RDS数据一致。
    数据来源:与店铺均衡异地灾备方案一样,云资源均衡异地灾备的数据来源也分为两种渠道:
    • 订单同步:按照机房故障的程度不同,订单同步服务数据同步有两种方式:

      • 通过聚石塔控制台可以按照店铺维度灵活设置不同店铺的数据推送的目的RDS,出现问题时可以快速实现数据源的切换;
      • 通过聚石塔RDS所提供的数据同步机制,后台自动同步数据;
    • TOP API获取:2015双11前TOP上线异地多活的方案,只要与之对接,即可实现后端数据的无缝切换,前端掉用方无感知。

以下是云资源均衡异地灾备方案的总体构架图:
image

系统热备&系统冷备

将商家的服务商后台系统&自研型商家后台系统部署至备份服务器上(可以是不同机房、集群、可用区):

  1. 热备方案要求服务商将主系统和备份系统的数据同时写入,实现双写功能,以保证主库和备份库的数据完全一致,以便系统实现快速切换;
  2. 冷备方案则不要求数据同时写入,但是需要提前将应用部署至备份服务器,当出现问题时,需要将主库的数据迁移至新库,迁移时长和数据量成正比;

以下分别是系统热备和系统冷备方案的总体构架图:
系统热备构架方案:
image
系统冷备构架方案:
image

本地订单处理

ISV&自研型商家也可根据商家对稳定性的要求提供商家本地订单处理的软件,即使在断网的情况下,只要有订单数据可进行订单的处理,将处理后的订单直接进行打单操作或者导出提供到后端的WMS系统当中,以便直接进行发货。

保障服务售卖

2015双11服务商提供给商家的保障方案当中,可以联合卖家服务市场,将保障服务打包进行售卖,打包的服务类型可以包含以下的种类:

  • 服务商驻场
  • 云资源弹性升级
  • 灾备方案—异地灾备
  • 灾备方案—热备&冷备

重点商家保障

  • 保障群体:服务商重点商家;
  • 保障内容:
    • 系统灾备方案:全部实现这部分商家的异地灾备方案,匹配专门的应急响应小组,以快速处理问题或者进行系统切换;
    • TOP API调用:全部实现TOP平台异地多活的接入,根据appkey优先保证其可用性、系统延迟;
    • 弹性升级:重点商家弹性资源单独评估,督促服务商对其进行升级,有条件的商家需要跟其他商家的系统进行隔离,避免相互影响。

安全策略

在双11期间当聚石塔VM发现高危漏洞时,需要按照此预案进行安全事件处理,保障聚石塔ECS的可用性以及安全性。

系统漏洞修复

在双11前一天开始,为保障双十一聚石塔ECS的高可用性,需要打开云盾的漏洞扫描功能。漏洞的发现途径有:

  • 外部上报;
  • 云盾扫描发现;
  • 服务商安全自检发现。

外部上报漏洞和云盾扫描发现漏洞,会先经过阿里巴巴集团安全工程师检查,确认属于安全漏洞后加入iSOC生态安全平台通知服务商紧急修复,iSOC生态安全平台登陆地址:http://isoc.alibaba.com/(请使用应用主账号登陆查看和修复漏洞);
漏洞修复方法需要按照iSOC生态安全平台中漏洞知识库中的修复方案修复;
在修复过程中存在任何问题及时通过“高危漏洞修复群”反馈,群号:692229099

DDOS安全预案

对于目标机器中的流量指标、连接数指标、发包数指标中任一指标超出阈值,都需要按照此DDOS安全策略进行防御。请服务商关注聚石塔控制台中ECS监控;
当通过监控报警发现网络异常时,由阿里巴巴集团安全部安全工程师做流量分析,作出是否是DDOS攻击的判断,当确定为攻击时,自动/手动启动清洗策略,当流 量正常后,关闭清洗策略。

服务器入侵应急预案

聚石塔ECS被入侵信息来源途径有:

  • 云盾扫描webshell发现;
  • 发现可疑高危漏洞,经安全人员检查发现被入侵;
  • 服务商安全自检发现可疑登陆行为或可疑文件;

关于云盾扫描发现的webshell,由安全工程师初步判断是否存在恶意代码,并会紧急联系服务商安全接口人提供服务器管理员账号密码,登陆服务器检查,当检查发现文件属于服务商人为上传藏代码导致时,要求服务商安全技术支持立即隔离删除,弱判断为被黑客入侵保留的后门文件时,需要服务商协助排查服务器登陆管理日志,并修复服务器密码和应用密码为强密码;
ECS资源条件允许情况下将被入侵资源调用向备用资源迁移,并初始化被入侵服务器。
如果服务商发现服务器中存在可疑文件,或可疑登陆账号,可疑通过“高危漏洞修复群”向小二柳畅反馈排查;

御城河安全整改降级方案

双 11期间聚石塔资源需集中保障交易稳定运行,当订单量瞬间爆激增的时间段,日志统计量会同步上升,此时御城河安全整改中日志回传功能需要占用较大,可以选择临时将日志临时写入ECS服务器本地磁盘,待服务器CPU和内存资源降低时,再将日志通过异步回传接口回传到淘宝;

注意事项

今年聚石塔不封网,但是双十一ISV开放的系统,建议稳定运行2周以上,且经历过促销活动的峰值压测考验,不建议临时换系统或更新版本等风险操作。除非严重的故障,否则不提倡随意更新软件版本,双十一前后一周进行“封版”,即尽可能不要在双十一前后进行系统升级(2015年11月4号至2015年11月18号)。
11月9日RDS的保障操作,为了节省流量关闭rds mysqlpcap、sqldump sql日志采集。停止RDS实例的备份,停止实例的空间检测,保障用户实例不会因容量空间突增而被锁定。

备案保障

  • 备案介绍
    您需要使用聚石塔的账号密码登录控制台(cloud.tmall.com)-资源管理-弹性计算-云主机概览-备案。
    创建备案号后,前往阿里云备案注册并进行备案操作。(每个备案许可号只允许使用一次!每个IP只有5个免费备案许可号!)

FAQ

关于此文档暂时还没有FAQ
返回
顶部