铁路部铁路售票网站12306.cn IT从业者勿以常态经验臆测极端变态情况

因为看到多人吐槽铁路部售票网站12306.cn之烂、采购中标价格之高,所以一时兴起,好奇这个订票到底难不难,就查阅了信息。

但这个问题太专业了,即便是IT从业者,没接触过“海量事务高速处理系统”/High Performance Distributed Transaction Processing高性能分布式交易处理系统,理解也会有偏差,即便接触过大量数据并发处理的程序员或者是架构师之类,又有几个能有机会遇到1分钟需要有10万笔交易的并发数据处理?
没经历过就凭自己的点微薄经验信口开河,很可能失之毫厘、谬之千里。IT从业者都难以判断,那业外人士就更难以理解了!

有几个数据值得注意:

  1. 2012年临近中秋+十一假期,12306网站日点击量达到14.9亿次
  2. 12306网站 每秒PV高峰时上千万
  3. 12306.cn 一天最高售票188万多张票
  4. 2011-12-12淘宝双12 凌晨1st分内,淘宝网瞬间涌入高达270万人,一小时内成交278万笔4.75亿
  5. 淘宝一天最多能上三千万笔的交易,但一分钟的峰值最多也就5.5万笔,平均的流量也就2万多,火车票一般放号出来最多20分钟就卖光了,一分钟接近10万笔交易,比淘宝的瞬时流量大多了,
    【这几个数据来源有的不同,但相互可以印证:12306每分钟瞬时交易数=188万/20分钟≈10万笔交易/分钟;淘宝交易数278万/60分=4.6万笔】
    【数据来源 基本在下面】

多查找些资料,就会发现,这个中国式铁路售票系统还真不简单!看到有人说什么只要免费地由老师给学生布置作业就能够完成任务,这些就纯属无知者无畏地胡扯,这样很搞笑吗?很有意思吗?

罗慕遥,.net程序员出生,进入网页游戏行业,随后…
11 票,来自 mo Land、逍遥、黄美婷 更多
中央拨款1000万建网站,部长给副部长500万建网站,副部长给秘书100万建网站,秘书给外包公司50万建网站,外包公司转包一家技术公司10万建网站,技术公司给校领导5万建网站,校领导给主任1万建网站,主任给了计算机老师5000建网站,老师给学生布置作业建网站。于是乎,神奇的铁道部购票网站隆重诞生了!
zhihu.com/question/20015484/answer/13675935

Ricky,崇尚简单即为美,360无线PM。寻找潜在…
2 票,来自 mo Land、孙保儒
单就网站不包括服务来说,其成本撑死不过5W,这个报价还是专业公司的报价,小公司或工作室也就1W多吧
http://www.zhihu.com/question/20015484/answer/13673488

几点看法:

  1. 要搞定这个问题,是需要时间在实践中积累的,12306的一个严重问题就是它是类似突变出的产物,不是在实战中成长起来的。让腾讯在1年内立马达到亿人在线,它肯定问题多多;让淘宝1年内就做出每分钟处理5万笔交易,它肯定再测试也立马崩溃。
  2. 外行以及伪内行的很多吐槽,很无知很浅薄,但在当前中国很主流很有市场。
  3. 铁道部最初舍弃外国方案采用自家设计是否恰当?
    谁又能事先料到这个问题会如此严重?假若成功了人们又会评论省钱了+支持民族产业,但失败了人们就会辱骂。而现在人们就是要当事后诸葛。
    现在铁道部欲推倒重来,重建全新的售票系统,又有人在吐槽了,这是多大的浪费,是不是又有猫腻。

王津THU的比喻很不错,12306售票系统的海量负载导致的问题变复杂甚至变性,在其它领域也可看到,一个载重1000吨的大件运输车和一个55吨的重卡是极度不同的,一个人开了小汽车开重卡也是极度不同的(刹车就很不同),开一个小卖铺与开一间大超市的库存管理也是相当不同的,打篮球时大个子与小个子的战术也是相当不同的。也就是说,本来是同一件事,只是程度/量的巨大差别,会导致事情的以性质都发生巨大改变。面对这种情况,以常态的经验臆测超级变态时的情况,就会判断严重失误。

后记:有时间继续考察学习。

★相关资料与分析评论

@中国铁路 : 【针对近期12306网上购票难的情况 铁路部门表示歉意】近日正处在中秋和“十一”黄金周售票的高峰期,12306网站日点击量达到14.9亿次,在网上发售客票超过今年春运最高值,导致出现网络拥堵、重复排队等现象。对此,铁路部门表示歉意。weibo.com/chineserailways

 

透过12306五大焦点看高性能高并发系统-IT168http://t.cn/zOLFkHF
12306购票系统的出现是目前IT界的一大难题,12306的仓促上线使得这些问题“并发”,最终导致“爆机”,而反观淘宝、亚马逊以及Facebook等,无一不是经过多年的技术积淀后才勉强能够应付,而12306正式上线运营至今不过短短半年多时间而已

12306系统开始售票那一瞬间,必然有成千上百万的人一拥而上。尽管从铁道部发布的数据来看,其最高的一天一共卖出了188万多张票,这个数据放在一天来看的话,确实不多。但是如果是在短短几分钟之内呢?那整个系统承受的压力自然不言而喻。-IT168http://t.cn/zOLFkHF

 

由12306.cn谈谈网站性能技术
2012年1月16日 陈皓
http://coolshell.cn/articles/6470.html

春运前夕抢票且票量供远小于求这种业务模式是相当变态的,让几千万甚至上亿的人在某个早晨的8点钟同时登录同时抢票的这种业务模式是变态中的变态。几十分钟内,一个网站能接受几千万的访问量,这很恐怖。据说12306高峰访问是10亿PV,集中在早8点到10点,每秒PV高峰时上千万 via酷壳

酷壳 @左耳朵耗子【程序员,酷壳博主(CoolShell.cn)】:集中式的卖票很难搞定,在各个省市建分站,分开卖票,是能让现有系统性能有质的提升的最好方法。为了那么一两个星期而搞那么大的系统,而其它时间都在闲着,有些可惜了,这也就是铁路才干得出来这样的事了。

 

@金山 【新浪微博开放平台认证开发者,围脖投票、地震寻人报平安应用作者】  : 声援12306同仁《12306根本没有解决方案,只有优化方法》,看你们辛苦工作却饱受质疑,冒被拍砖之危险特撰此文,希望能熄广大群众之愤火,特别是希望众IT志士能展其所长,对12306提出优化建议。@王津THU
转发(505) | 评论(176) 9月21日11:53 来自新浪微博 weibo.com/kangjinshan
http://weibo.com/1639733600/yCSD7EViX

 

@战鹰QBQ:淘宝的交易量是大,一天最多能上三千万笔的交易,但一分钟的峰值最多也就5.5万笔,平均的流量也就2万多,火车票一般放号出来最多20分钟就卖光了,一分钟接近10万笔交易,比淘宝的瞬时流量大多了,更不要说淘宝根本不用考虑同一件商品并发购买缺货的问题,卖重复了淘宝退货就可以了。

 

@王津THU【清华大学Web与软件技术研究中心电子商务研究室主任、高级架构师 王津】  : 有些事情,末学澄清一下:“海量事务高速处理系统”是一种非常特别的系统,应用的场合很少,中国目前研究这种系统的人不多,有真正的实践经验的人更少。多年前末学本人在接触这种系统之前也无法想象“到了某个时刻”系统的性能下降之剧烈乃至崩溃。恳请大家不臆测不轻视类似12306系统的难度。
转发(1743) | 评论(842) 1月11日16:54 来自新浪微博
http://weibo.com/2484714107/y0i3b53dd

@王津THU  : 当系统设计负载很高的时候,构架会发生重大的改变,可能变得我们都不认识了,即便在机械设计领域也是如此。此图是一辆载重900吨的卡车,车长42.8米、宽7米,有64个车轮。它两端各有一个驾驶室,里面都有一台电脑。若不是亲眼所见,很难相信会有这样的卡车。
海量事务高速处理系统对比运梁大卡车
转发(160) | 评论(42) 1月14日19:30 来自新浪微博

北邮高志鹏【北京邮电大学 网络与交换技术国家重点实验室 教师】:12306崩溃有理。想想京东或者淘宝的限时抢购,如此商业的系统虽未崩溃但是已经无法处理交易。 (1月16日 11:08)http://weibo.com/drallen

@周洪波-TSP【福田北斗物联网公司总经理】: 的确,海量数据处理这个词在中国被用烂了,这个系统和数据挖掘、查询类的海量数据处理不一样。它是一个High Performance Distributed Transaction Processing高性能分布式交易处理系统,数据处理不是核心,交易(Transaction)处理是核心。 (1月16日 11:13)

 

2011-12-12淘宝双12成交额达43.8亿元
(女装超10亿 家居5亿 3C4.8亿 男装超4亿 母婴3.7亿 鞋类超3亿 化妆品超3亿 内衣超2.2亿 全球购超1.3亿 本地化生活服务8k万 淘宝外卖1万单 电影票1万张)
凌晨1st分内,淘宝网瞬间涌入高达270万人,一小时内成交278万笔4.75亿 @21世纪网 http://t.cn/StjfoR

百度知道页面在Google Chrome浏览器中变成动态网页 视频

拍摄时间:2012-9-15 8-21-48
2012.9.15 08:26上传至优酷 http://v.youku.com/v_show/id_XNDUwNTE5MDEy.html

百度知道网页顶部右侧显示账户信息的横条(类似于Wordpress的Admin Bar管理员工具条),15日莫名其妙重复着快速向左滑动,并伴随着其它所有网页内容整体下滑。

55380855  六级 HI1 | 我的知道  | 消息 | 百度首页

是百度网站BUG,还是彩蛋?或者是一时浏览器兼容问题导致Chrome显示异常,前几日发现的用Google Chrome访问百度知道贴吧跳回百度首页(2012/09/15),即疑似只是百度误杀,不久Chrome访问百度产品即正常显示。

看起来,百度员工/技术上也并不靠谱,或许百度公司雇佣了大批量的临时工。

★ 百度知道变动态的事件激发因素:Chrome缩放大于100%

Update 2012-9-28 0:13:02

ericcheung1003 11小时前 来自优酷
u.youku.com/user_show/id_UMTQwOTU5NTgw.html
经过反复测试,最终确定问题发生的条件为,用chrome访问百度知道,登陆了百度账号,百度hi提示有未读消息且chrome显示比例调节为100%以上的显示比例(不含100%),就会出现这种情况,反复测试IE及其他使用IE内核的浏览器均无此问题,从这个理论上讲,可能是chrome问题,但是chrome浏览其他网页均无问题,从这个角度讲,又有可能是百度问题。虽然不明白个中缘由,但个人认为这是个很小的技术问题,难道因为两家公司不合就不给解决了?

高人!当我把Chrome缩放调至125%刷新百度知道页面,知道页面变动态又重现了,百度账户 条快速向左滑动

★百度系列文章目录

百度疯了还是抽风:用Google Chrome访问百度知道贴吧跳回百度首页
作者: xuexx 日期: 2012/09/15
http://www.xuexx.com/archives/2107

百度统计账号无法登录”用户名或密码错误请注意登录方式是否正确”
作者: xuexx 日期:     2012/09/10
http://www.xuexx.com/archives/2051

奇虎360与百度3B搜索大战:流氓对决
作者: xuexx 日期:     2012/08/30
http://www.xuexx.com/archives/1934

百度二级域名 百度联盟爱公益平台
作者: xuexx 日期: 2012/08/10
http://www.xuexx.com/archives/1740

知乎与百度知道对比比较:超链接
作者: xuexx 日期: 2012/07/23
http://www.xuexx.com/archives/1572

百度联盟账号恢复关闭分账权限 备案才能添加计费网站
作者: xuexx 日期: 2012/07/22
http://www.xuexx.com/archives/1561

Google Facebook百度域名注册商马克猫MarkMonitor与DtecNet
作者: xuexx 日期: 2012/07/07
http://www.xuexx.com/archives/1460

百度疯了还是抽风:用Google Chrome访问百度知道贴吧跳回百度首页

  • @胡嵩【美丽说无线事业部总经理】  : 在chrome和firefox里面直接访问百科内页,会跳转到百度首页。 这是3B大战殃及池鱼么?
    转发(35) | 评论(11) 8月31日10:17 来自新浪微博
    回复@抽象虚函数:看来有半个月了都,我竟然没发现。 //@抽象虚函数:qq浏览器,谷歌浏览器,猎豹浏览器,safari,opera,极速浏览器,均会跳转到百度首页。
  • @表情许【不要看到二维码就想到微信,头像跟约炮没半点关系。】 : 现在chrome下搜索结果点开百度知道多了一步跳首页,别把chrome内核的浏览器都干了,你们倒是找点其他事做啊。
    转发(1) | 评论 9月6日00:11 来自新浪微博
  • @停留下来歇歇脚  : 我靠啊!点击收藏夹的百度贴吧,直接跳到首页,怎么回事???我用的谷歌chrome浏览器(版本 23.0.1262.0)@百度 @百度贴吧 @李铁军
    转发(1) | 评论(1) 9月14日16:50 来自新浪微博
  • @生活要潇洒 : 为什么用Chrome搜索问题,进入百度知道的时候也是跳转到百度首页???百度连Chrome也不放过了?还是百度服务器出问题了?
    转发(1) | 评论(2) 9月14日15:33 来自新浪微博

百度疯了使用Google Chrome浏览器访问百度知道贴吧跳回百度首页百度疯了!
使用Google Chrome浏览器+Google搜索,在从谷歌搜索结果中进入百度知道,弹出带“点击这里继续访问您选择的百度知道结果”链接(点击可进入搜索结果)的百度首页!
链接为baidu.com/search/ressafe.html
而测试使用IE无影响,即是因Chrome而非Google搜索导致链接重定向到百度首页。
转发(1)| 收藏| 评论(1)今天07:53 来自微博桌面

通过Google浏览器Chrome进入百度产品百度知道已不再重定向至百度首页,只是百度出BUG?只是百度抽抽风?不像个中国顶级网站的做派啊!
转发| 收藏| 评论 2012-9-15 20:30 来自微博桌面

百度统计账号无法登录"用户名或密码错误请注意登录方式是否正确"

@百度统计 从晚上开始就莫名其妙地无法登录,提示“用户名或密码错误,请注意登录方式是否正确”,前天还用地好好的,用户名与密码、登录方式与以前都绝对一模一样。
百度统计站长账号用户名或密码错误,请注意登录方式是否正确

使用“找回密码”,提示:“密码已经发送到您注册的邮箱,请24小时内查收并完成修改!”

收到baiduask的“密码找回邮件”:

发件人:baiduask@baidu.com
主题:密码找回邮件
Date:  Mon, Sep 10, 2012 08:42 AM
尊敬的用户55380855您好:
   您在2012-09-10 08:42:14使用了找回密码功能,请点击下面的链接完成密码找回流程,如果无法正确打开页面,请将完整地址复制到浏览器地址栏。
注意:该链接将在24小时后失效,请及时完成找回密码流程。
谢谢   
cas.baidu.com/?controller=user&action=repwd&key=
©2012 Baidu 使用百度前必读

使用@百度统计 找回密码功能修改密码,输入小写字母+数字的组合,提示“密码不符合规范,必须是大小写字母加数字的组合”,难道说必须又有大写字母又有小写字母,不至于吧?
百度统计账号密码不符合规范,必须是大小写字母加数字的组合

@百度统计 天哪,在使用大写字母+小写字母+数字的组合修改密码时,居然成功了“密码修改成功,请点击此链接登陆”,百度不会这样搞吧?太不可思议了!
百度统计大写字母+小写字母+数字的组合修改密码

出来的链接居然是百度联盟,使用新修改的“大写字母+小写字母+数字组合改密码”倒是可登录成功,但登录后账户是空白的,我记得我以前是有过使用的。更重要的是,我是要修改的和要进入的是@百度统计
出来的链接居然是百度联盟

还好,使用新修改的“大写字母+小写字母+数字组合新密码”,倒是可以成功登录@百度统计 账号了。这过程真太让人难以理解了,百度不至于逼着用户使用大写字母+小写字母+数字组合的密码吧?我担心我的百度账号因此密码也改了,因为本来就共用一个ID
大写字母+小写字母+数字组合新密码登录百度统计账号

再看一个IT从业都使用百度统计的悲催经历:

前段时间,公司准备用用百度的统计,想想n年前我就有百度联盟的帐号了,拿过来直接体验下吧,用以前的帐号登录进去,就提示我“用户名或密码错误,请注意登录方式是否正确”,我哪知道什么还分什么登录方式?于是找回密码,并且按照找回密码的链接,输入新密码,原来还必须要大小写英文字符加数字,麦噶,我想我知道为什么会输错密码了,大概是密码设置太过于复杂,没有记住吧。不过至少已经重设了,那就继续体验吧!在经过这么折腾过后,再次登录的时候,还是提示我同样的错误,所以就此打住,不再准备体验了但我还非常郁闷啊,于是就想发发牢骚,去投诉一下,结果找了半天,诺大一个百度,居然没有在线投诉的地方,只有一个“提建议”的地方,那好吧,这个也凑合,于是把我遇到的问题提交上去(看来真是无聊透顶了!!!),很快,第二天就收到署名lihuadong的人发来的邮件,出于对这封邮件的感动,看完后再按照邮件的说法再走了一遍,最后还是失败告终,看来我的智商还是太低,没能理解百度的产品的使用流程,做为一个业内人员,我太惭愧太内疚了,到现在都不好意思再打开一下百度。再回过头来想想,为什么很多即使大骂腾讯的人,都会在打开电脑后第一时间去登录qq呢?因为腾讯懂得偷心,他们知道为用户考虑,节省用户的脑细胞,你只需要几年十几年只记住一个号码,只需要设置一个你能够记得住的密码(我的qq到现在都还是一位数的密码),就可以使用他们提供的绝大多数功能,不再需要记住那么多超长的网址,不再频繁地登录登出,最主要的是,那些抄袭过来的你在其他地方可以体验到的东西,他们会针对用户体验做得更好。既然这样为什么不被同业者咬牙切齿呢?
原标题:也谈谈我对腾讯“抄袭”的认识 posted on 2010-07-28 18:28 Julin Rain
博客园 http://www.cnblogs.com/cisky/archive/2010/07/28/1786528.html

但我的疑问

  1. 我从前不是大写字母+小写字母+数字组合的密码,但一直在用、没问题
  2. 我不大相信一家网站会强迫用户必须使用大写字母+小写字母+数字组合的密码,不用就不能登录
  3. 这到底是百度账户管理系统的BUG,还是百度有意为之?

总而言之,一个解决方法:改密码!

网站统计流量来源外部链接220.191.158.69:10008/adstyle_msn.html

网站疑遭索引垃圾Referer spam,在网站统计中看到一个外部链接 http://220.191.158.69:10008/adstyle_msn.html?adid=201632&tcca=MDU3NzY1NTEwMTQx&urip=2062453295&orlu=
aHR0cDovL3d3dy54dWV4eC5jb20vYXJjaGl2ZXMvMTY2Mw==
&spid=2942193372&area=6&ts=1346823388&aorlu=
aHR0cDovL3QuYnVtaW5nLm5ldC96emh4L2luZGV4empwdC5odG1s&p1arm=
210&p2arm=300&p3arm=0&p4arm=5&p5arm=3&p6arm=1&appd=0&hasCount=1&hasWhiteUser=0

当打开该链接后,又回到原网站,但在网页右下脚,出现弹窗广告:网站统计外部链接索引垃圾http://220.191.158.69:10008/adstyle_msn.html弹窗广告

直接打开Referrer log spamming的IP地址220.191.158.69,提示需要身份验证:服务器220.191.158.69:80要求用户输入用户名和密码
服务器220.191.158.69:80要求用户输入用户名和密码

在搜索引擎中使用Site语法,只可见该IP有160条类似弹窗广告链接:
220.191.158.69:10007/adstyle_tc.html
220.191.158.69:10013/adstyle_th.html
220.191.158.69:10005/adstyle_pf.html
220.191.158.69:10003/adstyle_th.html
220.191.158.69:10003/adstyle_hf.html
220.191.158.69:10007/adstyle_tc.html

通过IP查询工具得知:220.191.158.69 浙江省杭州市 电信

★分析

因为在过去在Google Blogger中遇到过奇怪的来源链接,然后搜索了解过,知道有Referer spam这种存在,但是,我还从未见过中文的垃圾流量来源——Blogger上的垃圾流量都是英文的。

★几月前的旧文:blogger网站来源统计中的Referer spam

blogger网站来源统计中的Referer spam如bestbxcleaner savegco-antivir personal-scanera best-aruchecker bestbxcleaner adf.ly tinyurl

2012年5月14日

在google blogger后台的“统计信息|流量来源”中,经常有看到一些奇怪的站点。
引用的网址:

  • http://www3.bestbxcleaner.com/?y7i35k=nazSl3KgmJ6nms7roJmXh%2BLZ3rZsmpVqn5abqaeYrIc%3D
  • http://www4.savegco-antivir.com/?92d7i5=XafNm6ZqqZqqi9PWrF6RpJrd6tWvbGObbKJp15WmlZ%2BH
  • http://www3.personal-scanera.com/?8sjg=XOjTy62aqKyjlM3faqCVh%2BLZ3p5opNCcoJnWqdOhkZA%3D
  • http://www4.best-aruchecker.com/?7mlwvblk4=W%2BLV27OXoqRoiNHmsVqTmOnX1KLGnMenmaGfrKuYpY8%3D
  • http://www3.bestbxcleaner.com/?5d4zd=Wdmd3qGXm6yoiOTWqZKTlNnmoaGXq5yXyqfZmKqUz4k%3D
  • http://adf.ly/79fa8
  • http://adf.ly/7AgFq
  • http://tinyurl.com/Free100USDGoogleAdwords
  • http://tinyurl.com/Tips100KTwitterFollowers

引用的站点:
www3.bestbxcleaner.com
www4.savegco-antivir.com
www3.personal-scanera.com
www4.best-aruchecker.com
adf.ly
tinyurl.com

在尝试打开这些网址时,基本都失败。搜索也难以找到有用的中文信息。这个问题困惑我好久。我的blogger没什么流量,看起来往往就数它们的流量大。
今天,凭我的三脚毛的英文知识+有道词典,看了些英文资料,主要是英文维基百科和Nitecruzr的blogger(blogging.nitecruzr.net),有了一些粗略的认识。

1.这种手段是一种黑帽SEO(Blackhat SEO)技术。通称Referer spam.
2.它是“垃圾索引Spamdexing”的一种。
Spamdexing有两类,内容垃圾content spam和链接垃圾link spam.
这种奇怪流量来源,是属于Spamdexing中的link spam的一种,叫做“Referrer log spamming(来源记录垃圾信息)”
Referrer log spamming,又叫做Referer spam,log spam or referer bombing
3.这种垃圾来源信息,对于spammer(垃圾信息制造者),可能有两方面的好处。
3.1如果网站的流量来源统计信息公开,即可以给spammer的网站做反向链接,即可以提高网站的网页排名PR.(PageRank)
3.2链接指向站点可能会带有木马病毒,使点击者中毒。这点要严重注意!但是否属实,我也不清楚。
4.Referer spam是种错误拼写,长期误用也就将错就错了,正确的是Referrer spam.
5.英文维基的Spamdexing词条说,对Referer spam的一个解决方法是把网站统计不公开。但我觉得似乎这只能是不会提高spammer的站点的PR,而Referer spam照样存在。
6.网站统计日志(Stats logs)中因为Referer Spam显示出的流量和引用站点网页数字,都是虚假的,事实上没有这些引用的网址或网站。
7.Nitecruzr称:google blogger中的自带统计中的这些垃圾链接、来源,只要不去点击就没关系,而所能做的最好的办法,也就是不去点击,暂时还没什么有效的去除方法,因为它们和正常的访问没什么两样。还是就是,通过第三方统计,可以获得准确全面的统计。
详见:http://blogging.nitecruzr.net/2011/11/referer-spam-does-not-represent-real.html
8.英文有限,可能很多理解有偏差,Referer的恰当翻译也没找见。

越发的感觉到,英文好是多么的有优势,在获取信息方面。
虽然我们中文互联网发展很快现在也很庞大,但信息质量与英文互联网相去甚远。
简单来说,如果把英文维基的些词条翻译成中文,做成一个网站,肯定会是一个流量很好的网站。因为很多英文资料,中文并没有对应的信息。但显然,一来这很侵权,二来这个工作量也很庞大。
想来,翻译外文文章是不少人和网站的一个创造有价值的原创中文信息的好方法。

全文:http://1.snowson.sinaapp.com/?p=280