金融其它运维

漫谈运维:半神半仙亦民工

这里只谈运维工程师所要做的细节工作,让人们知道运维工程师到底都在做些什么,至于上级所要做的,只是提一下,不做参考。

以下是个人观点,我说的只是我自己的想法,也是我发展的目标。你可以有异议,我们是来交流的。你对的我肯定会向你学习。因为我也在摸索。运维工程师至少要能做以下的工作:

1,网络工程师的工作

你至少要能配置CISCO 6509以下的设备,熟悉各种网络协议,否则网络出问题的时候你会傻掉。

2,系统工程师的工作

你至少要理解各种系统服务,在出问题的情况下要迅速解决问题,而不是等系统工程师来解决。

3,安全工程师的工作

我不要求你一定要会各种网络编程,但是在服务器收攻击的情况下,没有防火墙的情况下,做一些简单的处理工作。

4,存储工程师的工作

至少要熟悉各个厂商的设备,各种备份和还原的办法

5,测试工程师的工作

在新版本上线之前,你至少要协同测试工程师做测试工作,因为你是运维人员,不了解程序架构导致无法解决故障,你也有一份责任。

6,研发人员的工作

运维工具都需要自已开发,熟悉开发语言,需要有过实际开发经验,否则工作会非常痛苦,我深有体会。

7,英语  

不想说了,我的最大痛苦就在这里

8,好的沟通者

不出问题时候你可以打游戏睡觉,出问题的时候要能和项目人员沟通,快速解决问题,而不是推;我知道有很多人能推责任,你可以做替死鬼,但是离开这个工作你还能找到更好的;把责任推到别人身上的人,下次出问题的时候,绝对没人帮你。你要能和各个兄弟部门关系非常的密切,出了问题有兄弟帮你担责任;也要能非常扯皮,没事在会议上把别人都搞定。

9,库房管理员

数万台服务器让你来管理,任何丢失或者损坏都是不负责任和失职的表现。

10,运动员

不要回家就睡觉,有空还是运动下吧;在服务器down机的时候,机房恰巧就你一个人,机柜没有空间,你需要更换一台HP 585 4U的服务器,满配约80公斤的服务器,你怎么做?

11,责任心

这个我不想说什么,这是你的职业精神。

12,组织者

给你2个啥都不会的民工,再给你2000台服务器,要求你2天把服务器装完,你咋办?

13,1-7条中,你必须有一条非常精通,是这个行业的专家。否则过了32岁,没有公司要你。

大家看了肯定觉得这个人是神仙,但是这必须是你慢慢能做到的,至少是我6年来运维经验的一点总结。

因为现在的公司都在用招聘民工的钱招聘神仙,其次我也是想让各位看看,运维工程师要担负多少责任。

我去面试过的一些公司都说,你什么都会,什么都不精。我说对,正是需要我们这些什么都会的人领导什么都精的人。

我这句话没有贬低大牛的任何意思,只是当时一个临场的发挥。虽然说完就知道这个面试白来了,但是我还是想为广大的运维工程师出口气。

不怕千招会,就怕一招精。这仍旧是我给大家的建议。

最后给大家最后最大最重要的建议,做什么工作都可以,千万别做SA。

我把SA的定义成:speediness answer而不是system admin。为什么?你可以想象一下哪些工作需要快速响应。网络工程师需要,机房网络骨干交换机故障,整个机房所有服务器无法连接,需要快速响应不?系统工程师需要,系统出问题了,要快速响应不?安全工程师需要,服务器被攻击了,要快速响应不?存储工程师需要,公司核心存储有问题了,要快速响应不?

你可以做研发,出了问题可以测试,可以想办法慢慢解决;你可以做DBA,出了问题可以推到网络工程师或者系统工程师身上,说不是DB连接问题;你可以做测试工程师,你说有问题这个东西就可以不上线……在出问题的时候,倒霉的就是SA,所以不要再争论SA包含哪些工作,SA就是一个倒霉的快速响应者,你想,哪个SA 24小时不开手机?哪个SA 晚上可以舒服的睡觉或者安心的出去度假?走在路上一听到和自己手机短信铃声一样的,利马下意识的抓出自己的手机看看是不是服务器报警;晚上和老婆 XXOO00,一个电话过来,立马停下,抓出手机看流量图;包里放着笔记本,但是因为还要开机,太慢,拿着手机上putty ping或者telnet机器……

这就是大家羡慕的SA ,你也不要抱怨自己做了SA,生活就是这样。所以不要再争论哪些xxx员应该归属于SA,系统管理员或是运维工程师,如果想做这行,就安生的当一个“快速响应者”,这是你的职业,也是你需要做到的。作为一个SA,你肯定经历过通宵好几天加班做事,你肯定经历过饭买来已经忘记了吃,你肯定经历过几天加班没睡觉,着个沙发坐下就失去知觉睡倒……没有经历过不能说你不好,只能说你管理的机器太少。

我公司是每月发21天工资,某两月我一月发了44天工资一月发了47天工资,创全公司建司7年来加班记录……项目做完自然也就落了个部门通告表扬,然后的结果就是健康情况急剧下滑,然后就是某天晚上在机房内加班一通宵,穿着短裤进机房,然后一个通宵被机柜下面的冷风吹了个关节炎……这就是做SA的代价。
参与38

36同行回答

科莱恩特科莱恩特技术经理建设银行
确实运维太难啦上下不讨好显示全部
确实运维太难啦
上下不讨好收起
银行 · 2010-10-15
浏览960
allwayallway网站架构师allway
写的非常好显示全部
写的非常好收起
IT其它 · 2010-10-15
浏览953
wangxian169wangxian169系统管理员陕西四博互联通信有限公司
楼主,说出了我们的心声,描述的出神入化,支持你!!!显示全部
楼主,说出了我们的心声,描述的出神入化,支持你!!!收起
电信设备制造商 · 2010-10-13
浏览950
myguangzhoumyguangzhou技术经理Uniwise
据说运维要经常加班?很痛苦显示全部
据说运维要经常加班?很痛苦收起
互联网服务 · 2010-10-13
浏览942
yulu4314yulu4314技术支持长春
运维,心惊肉跳的活!显示全部
运维,心惊肉跳的活!收起
系统集成 · 2010-10-13
浏览942
yinxinyinxin系统管理员银信长远
四,安装系统和布线好了,面对几千台服务器开始装系统,我不知道你会怎么想……全部是1U服务器有什么办法安装系统?(我们公司穷,买不起刀片;而且电信不配合,要是上刀片,电路你们自己拉线,价钱还是原来的价钱;最重要的……我们公司以人为本,宁愿多养个人也不愿意买个好服务器让人失业),而且...显示全部
四,安装系统和布线

好了,面对几千台服务器开始装系统,我不知道你会怎么想……

全部是1U服务器有什么办法安装系统?(我们公司穷,买不起刀片;而且电信不配合,要是上刀片,电路你们自己拉线,价钱还是原来的价钱;最重要的……我们公司以人为本,宁愿多养个人也不愿意买个好服务器让人失业),而且不允许GHOST,因为你这是服务器,不是网吧……GHOST出来的系统,我不知道谁用过,爽不。我自己是郁闷郁闷到了,莫名问题的时候,你就知道GHOST还是靠不住的。

其次,我们公司安全部要求:必须得一台一台安装,先安装光板的系统(比如没有SP的WIn2000),然后手工打SP4补丁,不能网络打补丁。于是我们就光盘堆成山。最扯淡的,为了快,我做了一个补丁共享的服务器,所有的补丁CP的本地来打。结果忘记拔网线,导致人家说我们是插了网线打补丁,有中毒的危险,需要重装。我直接崩溃……

办法1,你可以1台1台慢慢装,反正这么多机器,你可以管公司要更多的时间。但是我们公司一般是机器到了,最多2-3天就要要,一向是那种计划不如变化快的没有计划没有进度管理的“小”公司,项目组拿着鸡毛当令箭,牛x哄哄的公司。郁闷!

这个时候前期的准备就比较重要了(我公司多用windows2003),因为首先我要装一个光系统,再打驱动,再打补丁,再安装远程控制软件。一台机器装完大约要1小时多点。那么机器多了怎么办?光盘不够怎么办?等等问题就来了。

我的办法是,我一看TMD全部是DVD,IBM的机器直接佩combo,公司给我们发的全部是CD,娘的,典型的没有最慢只有更慢,出了问题闲你慢的领导班子。于是只好自己出钱买了DVD,用软件把RAID,网卡,显卡其他驱动做到光盘里,需要安装的软件也直接做成自动安装的方式,补丁也刻录到光盘里(我们要求补丁必须单打,不能安装集成补丁的ISO,shit),这样弄,你只用把光盘往光驱里一丢,分区一分,就可以下一台机器了。然后等你在去关注这个机器的时候,已经可以设置IP插网线了。灵感来自番茄花园。吼吼。

当然这时候你最好是买个KVM,16口的KVM,一次准备16张光盘就可以用一套键盘鼠标操作16台机器。当然啦,KVM是可以级联的,我最牛一次一次一套键盘安装166台机器。郁闷的是,塞光盘塞死,插KVM线插死,配置IP配死,有时候还会弄错……

办法2,你可以用NETKVM去远程安装,但是你插那些NETKVM的线路,2000个插下来,爽不?然后你继续扎KVM和网线的时候,看着和瀑布一样的网线和KVM线交错在一起。估计直接崩溃。远程KVM有的牛x的是可以分发ISO的,就是传说中的远程分发安装。可以自己买一个研究研究了,我们公司以人为本,从来不买这类高科技。

办法3,我犯贱时候发明的:我们的机器全部是RAID1,于是我安装一台raid1的机器,系统全部安装好,然后拔掉一个硬盘,插上一个新硬盘自动恢复镜像,基本10来分钟恢复好一个硬盘,插到机器上去。这样,还是比装系统来的快。当然啦,型号是一模一样的……

办法4,HP的ILO2功能,实现远程分发。前提你得一台一台配置好BIOS里的ILO2。也是蛮痛苦的。 IBM和DELL现在也都有这个功能,但是你在分发以前,还是得一台一台机器插上网线,配置好BIOS的IP,痛苦。然后把操作系统和机器的驱动程序和后续的软件全部做到一张DVD里,让他自动运行。然后所有的服务器远程运营这一个ISO,最好多弄几台,否则一台机器弄的慢死。

办法5,绝对最简单的办法!!!就是买机器前,让厂家给你在硬盘里灌好系统,和你买笔记本一样,打开是个安装完成需要你输入序列号的系统。但是弱点是后续的软件需要自己装。因为服务器厂商是不会帮你安装别的软件的。

还有更多的办法,只是暂时没想到,大家也可以谈论自己的办法。互相交流嘛。(51CTO编辑注:其实现在已经有很多无人值守安装系统的管理软件,比如KickStart和现在流行的Cobbler,都是不错的批量安装工具,而且都是开源的。现在都追求自动化,希望越来越多的运维们将不必面对一台一台装机的困扰)

所以我喜欢linux,可以用N种办法安装系统。

windows就是个让IT人当装机男,挨踢人当民工。

好了系统装好了,电源线和网线连接完,和瀑布一样的。这时候还是尽量把他扎一下吧。

否则机器通风不畅,会导致热死。

简单办法就是电源线扎一边,网线扎一边。有钱的公司可以买个网线序号标,没钱就自己拿胶布标。

你可以随便扎,或者和给你老婆梳头一样,好好扎。哈哈

插交换机的时候,从上往下,从1-24往后,这样网络异常,数一下就知道了。

想来想去这里也没啥值得关注的地方。所以就几行带过。

五,资产统计

假如你的机器只有2000台反而好容易管理了,但是现在我要管理的全国IDC有31个,平均每个机房有不同品牌服务器1500台。

一共大约有45000台的样子(我的资产管理系统里的数字,不包含交换机,防火墙等)

这时候怎么办?

每季度和财务小MM一起出去旅游盘点IDC资产,幸福啊……(我们财务小mm很PL的哦)

到了机房就是我一个人干活点资产,小mm带着大口罩,披着双层的放辐射服……

可怜我们这些干活的,短裤背心,IDC里一呆就是好几个月(IDC办公室就在机房边上……),不知道精子被辐射杀死多少……

1,必须有资产管理系统,虽然这个其实是个很简单的数据库,但是你可以把每一台机器的品牌,硬件信息,操作系统信息,购买年限,质保年限等,你非常关注的东西做一个详细记录,并配发同一的资产编号。

比如我们的资产号,FWQ-123456

服务器-123456,这是一个总的资产号,这个服务器哪怕搬到美国,也是这1个资产,直到丢失,或者抛弃,都是这一个资产,永远不会变。

比如我现在的板凳就是一个资产号是:服务器-000010的一个4U服务器,配置是P2 300*2  256M内存 16G硬盘×4

购买时间是1999年10月,从中维修过1次,升级过1次,在哈尔滨机房-广州机房-河南机房-北京网通机房-上海公司内部测试机房-上海库房服役过。

有历史吧…….

2,送到机房

看过我这个服务器去过的地方,羡慕不?见证我们公司的发展史。9年过去了,终于成了我的板凳……

服务器在购买合同确定以后,就应该按照配置记录资产,并且在财务备案,资产编号一定和财务记录相同。这样这个服务器走到哪里,都有备案和记录。现在要把这个服务器送到某个机房去,搬着走吧……汗

送到机房,我们要给服务器按照财务给的表格粘贴资产编号,选个顺眼的地方,不会磨损的地方。

一般是机器正面某个地方,然后是机器屁股后面某个地方,然后机器侧面把手的地方,粘贴3个,以防掉了就烦了。

然后在粘贴这个机器的应用资产号和IP标签:

应用资产号举例:FWQ-SH-XX-B31-WEBSERVER  意思是:服务器-上海-xx机房-B列31号机柜-web服务器

IP标签举例:外123.234.123.234内10.0.0.1。这2个标签你可以分开也可以在一张标签上写清楚。

并且在安装服务器的时候。把FWQ-SH-XX-B31-WEBSERVER-123-234  把这个作为你的HOSTS信息,windows里叫做计算机名

这样远程上来都非常清晰自己在哪个服务器上,出问题时候也非常容易找到这个机器,不要闲麻烦,一切的麻烦都是为了以后快速的解决down机问题而做的。

当然啦,甚至在密码管理上你也可以用这个规则来设置密码,但是最好规则别让别人知道了……

3,把这些信息全部录入你的资产管理系统

系统无非服务器名,IP信息,用途,机架位置,或者是否在使用一类的,我就不多讲了

4,资产系统软件交互,也可以说是监控系统。

企业可以开发一个软件,在装机的时候安装到服务器上。然后资产管理系统定时去取服务器上的信息,比如网络流量,CPU内存硬盘负载一类的东西,这样你的资产管理系统又变成了一个监控系统;

当然啦,你也可以在资产系统里集成一个远程桌面管理系统,自动载入用户名和密码,还有随机码,就可以登录系统。省的还得管理服务器密码。

然后用户的访问权限不同,看到的节面权限就不同。

比如说,监控人员没有登录权限,或者IDC人员没有登录权限一类。权限分配你自己研究好了。

5,还是IDC的工作。

话题继续回到我和财务小mm去盘点(你公司比较大的话,你可以多派几个人分开去各个地方……)

小mm一看我们机房服务器黑压压的一片,铺天盖地的,直接无语。为啥,因为要拿着资产表一个一个核对,面对几千个机器,直接晕倒。

虽然按照资产管理系统里导出的信息,机柜号,IP号,机器从上到下的顺序都非常精确,但是你一个一个核对,还是慢。

怎么办?

库房管理的工作用上了,哈哈。你买服务器或者买笔记本电脑的时候有没有注意到箱子上的条码?

那个条码非常清楚的记录了这个机器的详细信息。所以黑莓手机或者NOKIA手机(别的我没用过)都有扫描条码的功能……好像与主题无关……

那么剩下的就简单了。

去买个这种条码标签的打印机,编辑成自己需要的条码,一个一个贴好,上面有你所有需要盘点的信息……

比如我们是从资产到机柜号到服务器名字到内外网IP都要盘点……小崩溃

打印出来贴上去。然后买个扫描枪,和超市那种一样,不过你要买有存储功能的,否则你要端着笔记本去扫描,SB了。

然后我和财务mm本来需要一个人念号码一个人核对(你要直到在机房里大喊资产号,喊一天的结果是啥,自己想),现在一个人拿一个扫描枪,按照规则一个一个扫描。完成后把数据导出后重新整理分析。直接和数据库核对(当然这个也需要你自己开发),核对完成生成一张表。

表上写的非常清楚你哪个机架没有哪个机器,哪个机器不在特定的位置上,哪个机器缺少……等等

这样比如说,机器位置不对扣5块钱工资,机器IP不对扣2块钱工资,或者……反正扣到最后……这月不给发工资了,还得倒贴点……哈哈哈收起
金融其它 · 2010-10-13
浏览1015

提问者

yinxin
系统管理员银信长远
擅长领域: 服务器存储虚拟化

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2010-10-13
  • 关注会员:0 人
  • 问题浏览:20145
  • 最近回答:2013-05-02
  • X社区推广