導致資料中心崩潰的原因

導致資料中心崩潰的原因

資料操作員有時會犯錯,導致整個資料中心關閉。然而,大多數這些問題可以透過維護措施、檢查程序以及系統操作員的常識和經驗來避免。

「意外資料中心中斷」是一種禮貌的說法,指資料中心出現導致停機的問題。無論根本原因是硬體錯誤、軟體錯誤或人為錯誤,大多數錯誤都可以而且應該提前預防。隨著當今資料中心的高水準風險冗餘,提前預防事故是完全可能的。

一件有趣的事情是,大大小小的錯誤仍然可能在資料中心內一直發生,而當資料中心停止運作時造成的損害也不小,即使只是很短的時間。根據 Data Center Knowledge 的一項研究,資料中心停機每分鐘會對企業造成約 7,900 美元的損失。事實上,資料中心停機時間達到或超過 10 天的公司中有 93% 在一年內破產,其中 40% 立即倒閉。另一項針對 41 個資料中心進行評估的研究發現,意外停機的平均成本包括超過 17.9 萬美元的業務中斷、約 11.8 萬美元的收入損失以及約 4.2 萬美元的生產力損失。如果資料中心管理者更專注於研究和解決常見錯誤的主要原因,他們將顯著降低潛在的風險。

導致資料中心崩潰的原因

問題在於,許多資料中心營運商和營運商往往更專注於成長和收入,而不是維護和加強現有的東西。如果你關注當今許多公共和私人資料中心的管理員,你會發現他們幾乎只關心增加儲存容量、增加伺服器密度、將過時的伺服器場改造為更現代化、更有效率的設施。例如,冷卻系統。雖然所有這些都很棒、非常需要,並且顯示了資料儲存產業令人難以置信的成長,但它也說明了為什麼資料中心失敗的情況越來越普遍。

在本文中,我們將探討資料中心被停用的常見原因,並重點介紹管理員可以採取哪些措施來最大程度地減少甚至消除它們,徹底解決這些問題,並提高系統的穩定性。

導致資料中心崩潰的原因

人為造成的錯誤

這些都是最簡單的原因,也是最難避免的原因之一。簡而言之,每個人都會犯錯。 22% 的中斷是由人為錯誤造成的,這個原因值得仔細考慮,而且重要的是,可以相對容易地預防。

系統授權不當

導致資料中心崩潰的原因

事實上,很少有管理員能夠完全且不受限制地存取資料中心的所有系統。必須嚴格管理存取權限,而不是向更多人授予此權限。否則,系統完全有可能出現嚴重錯誤。例如,在2014年的Joyent事件中,一位經驗豐富的管理員只需點擊幾下就意外重啟了公司東部資料中心的所有虛擬機器。

備份程序不佳

導致資料中心崩潰的原因

在規劃維修任務時,一個重要但經常被遺忘的步驟是備份過程。通常,流程被記錄下來但沒有經過徹底審查,並且很多時候事情在維護後並沒有完全恢復到原來的形式。

做出太多改變

導致資料中心崩潰的原因

在維護期間,如果管理員嘗試一次進行太多更改,可能會導致問題。首先,管理員往往有倉促的心態,因為他們要在短時間內完成大量的任務,這往往會導致錯誤。其次,由於在同一時間範圍內發生如此多的更改,這使得更改後的故障排除成為更困難的任務。

人力資源管理鬆懈

導致資料中心崩潰的原因

聽起來有些嚴厲,但員工要知道如何嚴格遵守中心的規定,違反規定時必須受到嚴厲的紀律處分。例如,任何資料中心都不允許員工在工作時飲食,或者緊急開關必須清晰標記並固定。這些事情看似很小,但可能會導致重大事件,因此請務必嚴格遵守規則。

系統錯誤

備用電源無法保證、設備陳舊或配置錯誤。

導致資料中心崩潰的原因

資料中心宕機最常見的原因是斷電。停電隨時可能發生。因此,資料中心設計備用電源,以防主電源故障。電池或發電機系統通常用作備用電源。問題是,電池可能沒有及時更換,發電機可能沒有檢查和維護,導致停電時出現問題。所有這些意味著您的備份功能可能在您最需要時無法使用。

如果發生停電,UPS 系統使用電池作為備用電源,這使其成為維持資料中心正常運作時間的重要組成部分。然而,電池並不總是能正常工作。執行製造商自己建議的維護以檢查電池健康狀況。至少每季檢查一次電池是否正確安裝、放電和充電。這包括目視檢查、容量檢查以及透過軟體或 UPS 供應商本身進行的定期監控。

此外,高溫也會縮短系統的電池壽命。建造專用的 UPS 機房有助於減少電池壽命的磨損。您還應該避免頻繁地對電池放電,並妥善保管鬆動的連接或磨損的連接器。總之,UPS是一個特別重要的系統,它需要合理的設計、正確的使用和嚴格的維護。

冷卻系統故障

導致資料中心崩潰的原因

資料中心中的機械系統消耗大量電力,這意味著它們在運行時會散發大量熱量。資料中心運作一分鐘就可以變成火葬場。這就是為什麼冷卻系統如此重要。即使你有溫度感測器讀數並向管理員發送警報,你也必須確保在一切融化之前有足夠的時間實施中心的備用冷卻程序。

此外,許多冷卻系統的設計並不是為了跟上現代大容量資料中心不斷增加的熱量水平。同樣,規劃出資料中心以 100% 容量運作的情況有助於規劃未來更好的冷卻系統。建立系統溫度波動預警系統也是必要的。您可以使用一些熱建模軟體和一些 DCIM 系統。此外,化學冷媒是比水基系統更好的選擇。

自動轉換過程無法正常運作

導致資料中心崩潰的原因

大多數服務提供者、組織和企業都擁有用於生產資料中心的備份資料中心。如果主資料中心斷電,備份資料中心將自動啟動,所有流量將路由至該備份設施。如果做得正確,該過程應該無縫地到達最終用戶。不幸的是,自動故障轉移通常無法如預期運作。此問題的常見原因是缺乏定期測試。即使生產基礎設施發生微小變化,也會對自動故障轉移產生重大影響。因此,在對基礎設施進行任何更改時,必須測試自動故障轉移程序,以確保沒有任何偏離該過程的情況。

硬體過時

導致資料中心崩潰的原因

每個系統的所有硬體都有一定的使用壽命。使用硬體的時間越長,遇到問題的可能性就越大。每個人都知道這一點,但重要的應用程式僅僅因為在已有 10 年歷史的硬體上運行而崩潰是很常見的。這些問題的出現​​往往是由於缺乏新硬體或軟體平台的全面更換和升級計劃,或由於缺乏預算。如果是錢的問題,那就沒什麼辦法了。但如果你只是想盡可能長時間地利用,問題隨時都可能發生,一旦發生,問題造成的傷害可能會更大。

滅火系統出現漏水問題

導致資料中心崩潰的原因

大多數現代資料中心都使用無水消防系統,這樣如果有意或無意啟動,就不會損壞設備。但許多舊設施的資料中心仍使用傳統的消防系統。多起漏水事故導致大面積停電。

意外啟動緊急斷電

導致資料中心崩潰的原因

大多數資料中心都採用高水準的實體安全措施,這不僅能阻止竊賊。它們還可以避免員工不了解資料中心的工作原理。例如,應用程式管理員走進資料中心並意外觸發緊急斷電 (EPO)。 EPO是一個紅色的大按鈕,負責切斷整個系統的電源。顯然,對於那些不理解或沒有專業知識的人來說,這種混亂是完全有可能的。

遭受網路攻擊、ddos

導致資料中心崩潰的原因

多年來,網路攻擊已成為資料中心故障的主要原因之一,從2010年的僅2%上升到2016年的22%。營運商資料中心必須採取行動建立系統來及早偵測和減輕攻擊風險。

資料中心很難防禦大規模的DDoS攻擊。大多數 ISP 在網路的第 3 層和第 4 層提供一些保護,但您的服務需要在第 7 層提供額外的保護,這可以透過 HTTP GET 或呼叫類似的攻擊來專門針對目標。可以組合防火牆、IPS/IDS 和 DDoS 等緩解服務來重新路由流量。

自然災害

最近風暴和洪水的增加可能會對資料中心造成嚴重破壞。 2010年美國發生了250多起天災。根據統計,2012年美國新澤西州因超級風暴「桑迪」造成商業中斷,損失達639億美元。

限制資料中心「倒塌」事件造成損害的措施

如果日常維護的停機時間經過仔細規劃,並提前向客戶發出關於中心停機的警告,特別是在客流量較低的時期,客戶會更加同情,損失也會顯著減少。當意外發生時,特別是當它持續很長時間時,就會產生最大的損害,並會出現其他問題。維持整個公司資源系統的穩定,使員工能夠有效地完成工作,並減輕IT部門的負擔。

具體來說:

  • 備份您的資料:如果您面臨資料中心中斷,您的資料(更重要的是您客戶的資料)應該在您開始時準備就緒。開始故障排除並再次運行。執行定期備份可以降低真正崩潰的風險。如果您的公司負擔得起,一些產品(例如 EMC 的 VPLEX 產品線或 VEEAM 的備份和複製軟體)可以透過自動切換到備份位置來幫助最大限度地減少停機時間。
  • 維護對伺服器系統的定期監控:監控是一項可以定期執行的服務,通常不會花費太多。第三方監控服務會通知您潛在的伺服器停機,以便您可以立即解決問題。
  • 最大限度地減少人為錯誤:在伺服器系統或電線周圍工作或行走時要小心,以避免意外損壞它們,或者在沒有專業知識的情況下不要觸摸神秘的開關。讓液體遠離機械系統。每當伺服器需要升級或維護時,請致電資料保護專家,並遵守中心的規則。

每個資料中心,從小型中心到企業規模的設施和服務供應商,都必須努力 100% 為使用者提供可靠的服務。花時間規劃未來,遵循維護和人為因素原則,您的資料中心可以避免一些最常見的故障原因。

看更多


在 Windows 上更改頁面檔案大小和位置的說明

在 Windows 上更改頁面檔案大小和位置的說明

儘管 Pagefile.sys 佔用了驅動器上的大量空間,但電腦使用它來維護電腦上儲存的重要數據,而不必在 RAM 過載時刪除這些數據。

如何將戴爾筆記型電腦和戴爾電腦的 TPM 1.2 更新至 TPM 2.0

如何將戴爾筆記型電腦和戴爾電腦的 TPM 1.2 更新至 TPM 2.0

戴爾為使用者提供了從TPM 1.2到TPM 2.0的更新解決方案。

如何在 Windows 10 上下載、更新 USB 驅動程式並對其進行故障排除

如何在 Windows 10 上下載、更新 USB 驅動程式並對其進行故障排除

USB 裝置已成為日常生活中不可或缺的一部分,它使我們能夠將各種重要硬體連接到 PC。

如何自訂電源計劃以延長筆記型電腦的電池壽命

如何自訂電源計劃以延長筆記型電腦的電池壽命

Windows 電源計劃對於管理筆記型電腦至關重要。如果您想節省能源並延長電池壽命,您需要執行以下操作!

Windows 10 KB5001330:許多需要注意的嚴重問題

Windows 10 KB5001330:許多需要注意的嚴重問題

本週早���時候,微軟宣布了該作業系統支援版本的 2021 年 4 月累積更新。然而,許多用戶報告無法安裝最新的 Windows 更新。

如何將自動修正腳本與 AutoHotkey 結合使用

如何將自動修正腳本與 AutoHotkey 結合使用

AutoHotkey 是一款功能強大的 Windows 腳本編寫工具,可用於各種目的。今天的文章將向您展示如何將自動修正與 AutoHotkey 結合使用,即使您不熟悉此工具。

惡意軟體如何利用螢幕解析度來逃避偵測

惡意軟體如何利用螢幕解析度來逃避偵測

最近,惡意軟體開發社群實施了一項新策略來避免檢測:檢查螢幕解析度。讓我們探討為什麼螢幕解析度對惡意軟體很重要以及它對您意味著什麼。

在 Windows 10 電腦上建立「滑動關機」捷徑的說明

在 Windows 10 電腦上建立「滑動關機」捷徑的說明

滑動關機是從 Windows 8、8.1 和 Windows 10 版本中整合的一項功能,這是一項可以幫助您快速關閉的功能,只需向下滑動螢幕即可縮短大量關閉電腦的時間。在下面的文章中,LuckyTemplates 將指導您如何在 Windows 10 電腦上建立「滑動關機」捷徑。

什麼是 SSTP(安全通訊端隧道協定)?

什麼是 SSTP(安全通訊端隧道協定)?

SSTP(安全通訊端隧道協定)旨在使用 SSL/TLS 通道保護 PPP 流量。對於 Windows 使用者來說,SSTP 比 L2TP/IPSec 或 PPTP 更好、更安全。

Torrent 檔案和磁力連結之間的區別

Torrent 檔案和磁力連結之間的區別

磁力連結和 torrent 檔案都用於透過 uTorrent 或 BitTorrent 等 torrent 服務與他人分享內容。乍一看,這兩種類型的文件共享似乎很相似,但最終並非如此。