2020-12-16 作者:Stephen J. Bigelow 來源:企業(yè)網(wǎng)D1Net 閱讀:
次
托管提供商主要提供數(shù)據(jù)中心的空間、電源、冷卻、物理安全性,但托管服務(wù)也面臨數(shù)據(jù)中心停機期間響應(yīng)速度較慢的潛在缺點。采用托管服務(wù)的組織必須仔細規(guī)劃重要數(shù)據(jù)的存儲位置,并遵循服務(wù)級別協(xié)議,以最大程度地減少托管數(shù)據(jù)中心服務(wù)中斷的影響。
當(dāng)然,組織可以自己建設(shè)和運營內(nèi)部部署數(shù)據(jù)中心,擁有、建設(shè)和維護基礎(chǔ)設(shè)施和設(shè)備,雇傭員工,實施政策和運行應(yīng)用程序,并設(shè)定應(yīng)對任何中斷所需的優(yōu)先級。當(dāng)遇到問題時,組織領(lǐng)導(dǎo)者知道讓誰處理,并且員工可以專注于組織的利益。
作為托管服務(wù)商客戶的組織來說,這些控制權(quán)交給托管服務(wù)提供商,他們負責(zé)故障排除并與客戶保持聯(lián)系。但是托管服務(wù)提供商通常是為了自己的商業(yè)利益而運營的企業(yè),有時并不能滿足托管客戶的需求。
是什么導(dǎo)致托管數(shù)據(jù)中心停機?
托管服務(wù)提供商以遠程管理的數(shù)據(jù)中心為核心,通??梢詫?shù)據(jù)中心的停機追溯到許多可能影響內(nèi)部部署數(shù)據(jù)中心面臨的相同問題。停機的原因一般分為四類:電源、人員、災(zāi)難、連接。
(1) 電源。托管服務(wù)提供商通常在其數(shù)據(jù)中心內(nèi)實現(xiàn)更大的彈性,例如備用電源系統(tǒng)。其備用電源包括為服務(wù)器和機架設(shè)備供電的不間斷電源(UPS),以及在市電中斷時可以為數(shù)據(jù)中心設(shè)施供電的工業(yè)級備用發(fā)電機。但是,UPS故障、發(fā)電機啟動或維護不足以及備用電源系統(tǒng)的其他問題,可能會在市電停電時導(dǎo)致托管客戶的業(yè)務(wù)中斷。
(2) 人員。人為錯誤是造成數(shù)據(jù)中心停機的主要原因。例如配置錯誤的路由器、服務(wù)器、身份驗證系統(tǒng)以及硬件和軟件基礎(chǔ)設(shè)施其他錯誤可能導(dǎo)致客戶無法訪問系統(tǒng)。內(nèi)部和外部攻擊或其他惡意活動(如拒絕服務(wù)攻擊)也可以干擾或破壞客戶所托管的工作負載。
(3) 災(zāi)難??蛻粝M泄軘?shù)據(jù)中心設(shè)施具有更強的彈性和更高的可靠性,因此通常希望遠離自然災(zāi)難(颶風(fēng)、洪水、地震等)和人為災(zāi)難(火災(zāi)、車禍和戰(zhàn)爭)。雖然謹慎的托管措施應(yīng)該可以減少這種風(fēng)險,但不可能完全避免和消除,而不可預(yù)見的災(zāi)難會使托管數(shù)據(jù)中心設(shè)施癱瘓或毀壞。
(4) 連接。托管服務(wù)本質(zhì)上是遠程實施的,而WAN或互聯(lián)網(wǎng)連接對于托管服務(wù)提供商至關(guān)重要。大多數(shù)托管服務(wù)提供商都允許客戶使用一個或多個可用電信提供商的服務(wù)。電信基礎(chǔ)設(shè)施也不完善,也不是100%可靠的,這可能會導(dǎo)致使用某些電信服務(wù)的客戶連接中斷。在這種情況下,必須由電信提供商(而不是托管服務(wù)提供商)來恢復(fù)服務(wù),但是對這些托管客戶的影響可能像發(fā)生火災(zāi)或洪水一樣嚴重。
對內(nèi)部和外部場所進行故障排除
作為托管數(shù)據(jù)中心客戶的組織在解決托管數(shù)據(jù)中心發(fā)生的故障尤其具有挑戰(zhàn)性,因為解決問題的過程首先取決于識別/確定問題,然后確定托管數(shù)據(jù)中心提供商(或客戶)是否對故障和糾正措施負責(zé)。
傳統(tǒng)托管數(shù)據(jù)中心
例如,假設(shè)客戶的工作負載在傳統(tǒng)托管數(shù)據(jù)心設(shè)施中運行,并且托管服務(wù)提供商只提供空間、電源、制冷和其他服務(wù)。如果數(shù)據(jù)中心設(shè)施出現(xiàn)故障(例如電源故障),則客戶將依賴托管提供商提供的電力服務(wù),并且托管服務(wù)提供商將根據(jù)現(xiàn)行服務(wù)等級協(xié)議(SLA)的條款負責(zé)查找和糾正電源問題。而根據(jù)問題的嚴重程度,修復(fù)過程可能需要數(shù)小時甚至數(shù)天的時間。
但是,客戶仍將負責(zé)部署到托管服務(wù)提供商的所有服務(wù)器、存儲、網(wǎng)絡(luò)和其他業(yè)務(wù)設(shè)備。服務(wù)器、存儲子系統(tǒng)、網(wǎng)絡(luò)交換機故障,甚至是應(yīng)用程序故障(軟件錯誤)可能是造成停機的原因。客戶將采用系統(tǒng)管理工具監(jiān)視和報告硬件和軟件的狀態(tài),他們有責(zé)任找到并解決問題,可能是通過重新啟動服務(wù)器、更換服務(wù)器或采用其他潛在的修復(fù)方法。
如果客戶確實要負責(zé)修復(fù),他們將面臨完成工作的挑戰(zhàn)。對出現(xiàn)故障的應(yīng)用程序進行修復(fù)和排除可能需要實際操作,這可能需要數(shù)小時來部署人員和執(zhí)行修復(fù)所涉及的實際工作。在某些情況下,托管服務(wù)提供商的員工將會提供幫助,但需要客戶額外付費。
托管或托管主機
在托管數(shù)據(jù)中心或托管方案中,托管服務(wù)提供商將提供數(shù)據(jù)中心空間、服務(wù)器、存儲設(shè)備、網(wǎng)絡(luò)以及其他基礎(chǔ)設(shè)施,而客戶可以從托管服務(wù)提供商那里租用。但是,托管服務(wù)提供商對整個基礎(chǔ)設(shè)施負有全部責(zé)任,客戶不用接觸或關(guān)注托管服務(wù)提供商的基礎(chǔ)設(shè)施。如果托管數(shù)據(jù)中心設(shè)施或計算資源發(fā)生故障,則托管服務(wù)提供商必須處理并發(fā)布停機通知,然后按照服務(wù)等級協(xié)議(SLA)中規(guī)定的條款對故障進行故障排除和補救。在這種情況下,客戶通常會通過已建立的支持渠道(例如電子郵件、電話或門戶網(wǎng)站)將故障告知托管服務(wù)提供商(例如某個應(yīng)用程序無法正常工作)。
如果問題實際上出在客戶的應(yīng)用程序而不是托管服務(wù)提供商的基礎(chǔ)設(shè)施(即托管數(shù)據(jù)中心設(shè)施正常運行,但是客戶的應(yīng)用程序遭受崩潰或其他異常),那么托管服務(wù)提供商就沒有更多的義務(wù)來確定客戶的應(yīng)用程序是否正常工作??蛻舯仨毦哂羞m當(dāng)?shù)谋O(jiān)視以跟蹤應(yīng)用程序運行狀況或了解應(yīng)用程序性能。當(dāng)應(yīng)用程序出現(xiàn)問題時,客戶的IT團隊可以選擇遠程操作重新啟動應(yīng)用程序,或者要求托管服務(wù)提供商幫助采取糾正措施。
托管數(shù)據(jù)中心支持的類型
當(dāng)出現(xiàn)問題時,組織必須找到快速且經(jīng)濟高效的方法來解決問題,同時保持行業(yè)標準或法規(guī)遵從性所要求的數(shù)據(jù)完整性和工作負載安全性??蛻艨梢允褂盟姆N類型的支持:
(1) 工作人員。當(dāng)客戶將自己的設(shè)備部署在托管設(shè)施中時,可能會自己雇傭IT員工管理和維護,而不是托管服務(wù)提供商。這有助于確保IT任務(wù)的執(zhí)行符合客戶的最佳利益,但是其員工到路途遙遠的托管數(shù)據(jù)中心工作可能既耗時又會增加成本。
(2) 遠程控制??蛻艨梢云刚埻泄芊?wù)提供商的員工協(xié)助開展各種IT任務(wù)。這些任務(wù)可能包括物理設(shè)備故障排除、更換、配置。通常根據(jù)突發(fā)事件或請求遠程操作,并且其費用將添加到客戶的每月賬單中。
(3) 遠程管理?,F(xiàn)代IT系統(tǒng)管理工具擅長通過網(wǎng)絡(luò)訪問硬件設(shè)備以執(zhí)行常見的管理任務(wù)。這些工具通??梢灾匦聠臃?wù)器、重新啟動應(yīng)用程序、遷移虛擬機以及備份和恢復(fù)數(shù)據(jù)。遠程管理在管理日常任務(wù)時非常有效,無需客戶派遣員工在托管數(shù)據(jù)中心工作。
(4) 托管服務(wù)。托管服務(wù)提供商通常提供客戶可以參與的一系列服務(wù),例如托管電子郵件。某些服務(wù)費用可能會添加到每月的托管費用中,而某些服務(wù)(例如備份)可能會帶來額外的費用。但是,托管服務(wù)提供商通??梢詤⑴c添加新服務(wù),更改現(xiàn)有服務(wù)或減少或取消不需要的服務(wù)。
減輕數(shù)據(jù)中心托管設(shè)置中的不確定性
托管服務(wù)提供商可能會給客戶帶來更多不確定性和復(fù)雜性。在偏遠地區(qū)運營的托管數(shù)據(jù)中心設(shè)施可能會受到地緣政治不確定性和安全性問題的影響。托管服務(wù)提供商管理成本的愿望可能會削減支持人員數(shù)量,從而可能降低其響應(yīng)能力。托管服務(wù)提供商的合并和請求可能會影響其日常運營。
客戶可以通過謹慎的應(yīng)急計劃和大量監(jiān)控措施來緩解這些托管問題。常見步驟包括:
工作負載適用性。必須評估每個應(yīng)用程序在托管數(shù)據(jù)中心中的適用性。由于法規(guī)遵從性、安全性、性能或其他問題,并非所有應(yīng)用程序都適合托管。有些工作負載應(yīng)該保留在內(nèi)部部署數(shù)據(jù)中心。
遣返。如果托管服務(wù)失敗或證明托管不適合應(yīng)用程序時,則遷移到托管數(shù)據(jù)中心的每個工作負載都應(yīng)采取遣返措施,可以在組織的內(nèi)部部署數(shù)據(jù)中心恢復(fù)應(yīng)用程序。
備份和災(zāi)難恢復(fù)。托管工作負載并不保證可用性。重要的工作負載可能需要額外的托管服務(wù)投資,以建立備份和災(zāi)難恢復(fù)框架,以確保應(yīng)用程序在托管服務(wù)中運行時的可用性。托管服務(wù)提供商在默認情況下不提供此類服務(wù)。
詳細監(jiān)控。使用監(jiān)視工具(例如應(yīng)用程序性能監(jiān)視)和用于重要工作負載的工具來跟蹤應(yīng)用程序的運行狀況和性能,以及托管服務(wù)提供商及其資源的可用性。了解托管服務(wù)提供商的服務(wù)等級協(xié)議(SLA),并使用監(jiān)控結(jié)果來驗證托管服務(wù)提供商是否遵守服務(wù)等級協(xié)議(SLA)。
尋求幫助。托管服務(wù)提供商將提供各種幫助臺以尋求支持??蛻魬?yīng)該清楚了解可用的幫助,如何請求幫助,以及在必要時如何采取行動并及時采取糾正措施。
歸根結(jié)底,托管服務(wù)提供商是客戶的業(yè)務(wù)合作伙伴(而不是員工),并且托管服務(wù)提供商提供的資源和服務(wù)不能被認為是理所當(dāng)然的??蛻粲胸?zé)任管理自己在托管數(shù)據(jù)中心環(huán)境中運行的工作負載,并且需要能夠與托管服務(wù)提供商協(xié)作以維護每個工作負載的可用性和性能。