系統運維
一、資料完整性,準确性
1. 無論用excel,word,運維工具,運維平台,PPT,visio等,各種相關文檔完整性,準确性是非常重要的。
2. 機房平面圖,機櫃面闆圖,機房、機櫃具體位置。
3. 主機名稱,硬件型号,IP,用戶,密碼,機櫃位置,設備序列号,設備上線時間,初驗時間,終驗時間,合同号,維保合同号,過保時間,運行應用程序。
4. 網絡設備端口表。
5. 各種SSH、URL、客戶端、ORACLE,應用程序等登錄用戶,密碼。
6. IP地址包括:固定,浮動,内網,外網。
7. 組網圖,标明IP,網内,網外。
8. 邏輯圖,流程圖。
9. 各種軟硬件版本号,如防火牆,交換機,存儲,操作系統,數據庫,各種應用。
10. 變更記錄表。包含原版本,目标版本,解決那些主要問題,操作人,時間。
11. 整個系統啟動,停止,查看狀态命令,包含所有軟硬件啟動,停止,查看。
12. 周邊網元,賬号,密碼,接口方式,協議,IP,端口,服務端,客戶端,聯系廠家,人員,電話,郵件。
13. 應急方案(系統各種應急情況,故障情況的應對措施)
14. 聯系人表,包括客戶,廠家維護人員,維護主管,市場人員,第三方廠家人員,各公司400聯系方式。相關人員姓名,電話,郵箱。
15. 産品培訓文檔。
16. 産品文檔,安裝,調試,操作,維護,故障處理,參考,專題,術語等。
二、監控
1. 監控主機,網絡,存儲,操作系統,數據庫,應用。
2. 可以客戶端顯示告警。
3. 分幾個級别,重要級别短信,郵件,微信告警。
4. 及時,準确。
5. 可能有統一監控平台,也可以自定義部分腳本。
思考:
a) 互聯網一些雲平台可以根據監控的問題,自動進行故障自愈,業務擴縮容。
b) 盡量減少誤告警。
三、巡檢
1. 通過運維平台,維護工具,腳本,自動定時巡檢,如一天一次,一周一次,一個月一次。
2. 可以對主機,網絡,存儲,應用,數據庫進行巡檢。
3. 每天或每周看一次。
4. 有問題盡快處理。
思考:
a) 巡檢如個人體檢醫院,是最重要維護手段之一,必須腳本,工具,平台自動化。
四、備份
1. 自動本地定時備份,自動上傳備份服務器(盡量有存儲),自動删除本地XX天之前文件。
2. 備份服務器有目錄結構,備份各節點配置,數據庫,網絡等配置,自動定期删除XX天之前文件。
3. 備份系統軟件,平台安裝軟件,文檔資料,産品手冊等等。
4. 盡可能有兩台備份服務器,異地更好。定期備份一次。
5. 最好個人有移動硬盤能備份。
6. 通過腳本,工具,運維平台自動備份。
其它注意事項:
a) 備份是最重要維護工作之一,不管是傳統IT的備份,還是雲平台上的鏡像,都是出問題時,恢複業務的關鍵方法之一。
五、雙機、集群
1. 所有重要設備都是雙機或集群,防火牆雙機,交換機雙機,負載均衡器雙機,數據庫雙機,核心業務雙機,核心業務集群,網絡核心設備分布在兩個相鄰機櫃,雙電源,四電源。
2. 多地多機房。
3. 核心業務,可以多套同時對外服務。
思考:
a) 雲計算上,如果規模大,同樣多地部署。
六、冗餘
1. 如果所有設備隻在一個地方,如一個機房,一套網絡設備下,那麼建議核心部件建冗餘系統。
2. 冗餘系統可以為單機,多機。
3. 核心業務,數據庫等,可以做冗餘系統。
4. 一旦核心業務、數據庫等故障,無法恢複,可以用冗餘系統改IP,啟動服務就可以。
思考:
a) 雲計算上,冗餘容易些,虛拟機或容器鏡像就可以。
b) 重要系統建全部冗餘系統,可能幾十台,幾百台設備。
七、跳轉機,堡壘機
1. 盡量有兩台跳轉機或堡壘機。
2. 各種應用客戶端安裝在堡壘機上。如運維平台客戶端或頁面,SecureCRT,Xmanager,P/L SQL,巡檢工具,FTP,浏覽器,存儲,網絡設備維護工具等等。
3. 采用VPN,短信驗證或其它方式登錄堡壘機,确保認證安全,難破解。
4. WINDOWS7或WINDOWS2008,在外部防火牆和主機防火牆可以開啟防護,隻開放可以訪問端口并且外部防火牆用其它端口映射。
5. 簡單情況,SecureCRT可以同時訪問8-10台。如果設備多,幾百,上千,用運維工具或運維平台管理。
八、安全加固
1. 升級應用程序,補丁。
2. 修改配置。
3. 規避。
4. 所有節點維護端口隻對堡壘機,運維平台機器開放,禁止其它機器,包括局域網其它機器可以訪問。如SSH 22端口,FTP 21端口,數據庫1521端口,頁面80端口等。
5. Oracle的sqlnet.ora,主機hosts.allow,NTP的ntp.conf等都可以限制IP。
6. iptables。
7. 漏洞端口本地iptables封堵,或程序停止服務。
思考:
a) 安全加固引起無數問題,故障,事故。
b) 安全隻能達到一個平衡,不能做到所有都安全加固,否則無法維護。
c) 城牆被攻破是最薄弱那個點,其它地方加固再強,也可能被攻破。需要一個平衡。
d) 盡量在網絡層,傳送層就限制住攻擊,不在應用層與攻擊者PK。就是IP,或IP+端口進行限制。
e) 硬件防火牆,交換機流策略或ACL,主機iptables,應用配置,應用的IP,用戶,密碼認證,都是安全防護手段。
九、過保或停止服務設備統計
1. 一些硬件,軟件已經過了維保期,客戶沒有買服務,或原廠不再提供維保。
2. 主機,網絡,存儲,操作系統,中間件,數據庫,應用等,都進行統計。
3. 告知客戶。
4. 推動買維保,推動更換設備,升級軟硬件。
5. 應急方案要準備好。
十、系統隐患排查
1. 硬件隐患,單機,軟件隐患,無後續版本,license到期,無人員,無廠家支撐等等。
2. 告知客戶。
3. 推動更換。
十一、用戶密碼
1. 從維護角度,一個人維護200-400服務器(主機),50台網絡設備,50台存儲,3-8個系統,大量子系統,50套數據庫。這是比較繁忙的工作,建議每個系統幾十台至一百多台設備,隻有三至四種密碼。
2. 堡壘機密碼定期修改,内部應用是否定期更換取決于維護規定。
3. 一個系統内大量各種樣式密碼,将大大降低維護效率,即使有運維平台也隻能部分提高效率。
4. 當出現重大故障,緊急故障,日常問題定位,這些各式各樣密碼将是噩夢。
5. 盡量用運維平台或工具統一修改密碼。
十二、信息收集
1. 主機:主機名,CPU,内存,磁盤,網卡,mount點,VG,LV,雙機狀态,雙機腳本,啟動腳本,路由,路由文件,after.local,boot.local,raw –qa,内置硬盤是否故障等等信息。
2. 網絡:收集disp diag。
3. 存儲:通過存儲工具收集存儲配置信息。
4. 應用軟件配置。
5. 這些當出現故障,重啟,設備更換時,對問題定位有很大幫助。
十三、啟動停止命令表
1. 一個人維護系統非常多,當機房停電,或人員變化時,需要一份啟動停止查看命令表。
2. 當整個系統加電,有明确啟動順序,如網絡設備加電啟動,存儲加電啟動,主機加電啟動。
3. 應用啟動命令,查看命令。
4. 所有應用停止命令。
5. 明确停止順序。
十四、及時刷新維護資料
1. 日常操作手冊,最常見動作。
2. 各種系統信息及時更新,如用戶密碼等等。
3. 應急方案及時更新。
4. 案例及時總結。
添加新評論