5 signes d'advertència d'una falla d'equip crític

Autora: Judy Howell
Data De La Creació: 25 Juliol 2021
Data D’Actualització: 23 Juny 2024
Anonim
5 signes d'advertència d'una falla d'equip crític - Tecnologia
5 signes d'advertència d'una falla d'equip crític - Tecnologia

Content


Emportar:

Reduir els temps d’aturada mitjançant una planificació anticipada minuciosa pot significar la diferència entre el creixement i la caiguda del negoci. És allà on entra el temps mitjà entre el fracàs.

No subestimeu la quantitat que les corporacions actuals depenen dels sistemes crítics cada dia. És per això que és únic el sentit comú que una empresa sigui capaç de mesurar el risc de fallades dels equips. Sense cap garantia de quan un equip pot fallar, hi ha d’haver almenys una estimació exacta de quan ja no es pot considerar que sigui fiable.

Un equip d’altra manera invisible podria no semblar crític per a una empresa, però quan falla un únic ventilador de refrigeració, fa que un generador renunciï al fantasma i causa desenes o fins i tot centenars de milers d’usuaris problemes costosos durant un període prolongat. vegeu que poder estimar quins components de la vostra infraestructura poden fallar -i quan- té una importància cabdal. En aquest moment és el temps mitjà entre els fracassos (MTBF), el mètode pel qual els professionals de les TI es basen per donar una precisió precisa estimacions sobre quan fallarà l'equip crític. Aquí fem un cop d’ull a què finalment mata alguns tipus habituals d’equips crítics i com la MTBF pot ajudar a salvar el dia.


Què és MTBF?

A cada equip d’informàtica fabricat se li assigna un número de model únic. Els que tinguin part en la infraestructura crítica es subministren als clients amb un pressupost de MTBF. Els complexos càlculs per elaborar el MTBF per a un equip tenen lloc durant la llarga fase de proves dins d'una investigació i desenvolupament de productes i són relativament específics per a un model particular.

Si voleu trobar el MTBF per a un equip particular, el trobareu a la fitxa d’especificacions detallada subministrada pel fabricant. També podeu contactar directament amb el fabricant.

Enrutament

Un encaminador de qualitat empresarial inclou moltes parts, algunes mòbils i altres estàtiques. Les unitats d'alimentació elèctrica (PSU) i els ventiladors de refrigeració tenen parts mòbils, i els seus elements que solen ser punts de fallada, sobretot si la unitat no es troba en un centre de dades relativament lliure de pols. Per sort, amb una mica d’entrada d’administrador la majoria d’encaminadors s’informaran a SysLog instal·lació, de manera que es poden marcar tots els components fallits.


Interruptors

En una línia similar, el següent nivell dins d'una xarxa empresarial és el maquinari de commutació. Tot i que els interruptors de qualitat empresarial també acostumen a confiar en els fanàtics, generalment hi ha menys que els que es troben dins del xassís dels encaminadors. Si els mecanismes de ventilació dels aficionats estan intactes, un interruptor defectuós normalment es comportarà malament a nivell del programari, ja sigui desactivant de forma inesperada un port de commutador o, més freqüentment, mostrant un comportament inusual com fer caure paquets, provocar diversos nivells de trànsit o canviar incorrectament. configuració definida per l’usuari sense ser sol·licitat per fer-ho.

El sistema de xarxa Cisco anuncia un dels seus routers com a un MTBF de 188.574 hores per al model Cisco Catalyst 3750G-24TS. Si dividim això per 8.765.81277 (el nombre d’hores en un any), veiem que aquest model té una estimació MTBF d’uns 21,5 anys. Aquesta xifra és de certa seguretat quan es té en compte que aquest equipament ha de funcionar bé les 24 hores del dia, sense que hagi de ser realment una indicació de la seva fiabilitat. Tot i així, proporciona als usuaris una conveniència educada quant a la durada d'aquest equipament pot durar.

Potència resistent

Les fonts d’alimentació ininterrompuda (UPS) connectades a un gran nombre de bateries poden proporcionar energia de còpia de seguretat dins de l’empresa durant l’encanteri breu abans que els generadors s’apagin durant una interrupció d’energia. Alguns defectes específics del programari es poden materialitzar dins d’un SAI, com passa amb qualsevol equip, però generalment, les bateries amb les quals s’extreuen energia solen causar la major preocupació. Si una bateria del SAI es descarrega i es recarrega sovint, la seva capacitat disminuirà més ràpidament i el seu temps de funcionament s'escurçarà notablement. No és sorprenent, també és possible que les bateries d’UPS fallin del tot. Un SAI pot informar sobre els mòdems i les xarxes quan es produeixen falles, però, més sovint, els SAI més antics desencadenen alarmes audibles quan es produeixi un problema.

Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida

No podeu millorar les vostres habilitats de programació quan ningú es preocupa per la qualitat del programari.

Emmagatzematge protegit

Els discos durs que utilitzem avui en dia i que confiem fins a un grau tan elevat s’han tornat significativament més fiables durant l’última dècada més o menys. Tot i així, estan lluny de ser infal·libles i, segons quin estudi es pugui creure, semblen funcionar correctament durant un període més llarg depenent de diversos factors. (Aquí es troba a The Remarketer un gran comentari sobre això.) Si els informes detallats estan habilitats i la unitat proporciona informació sobre els errors, els sectors corruptes i els errors de lectura / escriptura són la clau per detectar un disc dins d'una matriu d'emmagatzematge. està fallant Un altre problema habitual dels servidors que utilitzen diversos discos connectats a un controlador RAID és que el controlador en si fallarà. Malauradament, de vegades els discos durs simplement deixen de funcionar sense cap tipus d’avís, un problema que és difícil de resguardar.

Servidors

A part de les unitats integrades en servidors i les parts mòbils, com ara els ventiladors de refrigeració i les unitats d'alimentació esmentades, també es poden presentar diversos problemes en els components del maquinari d'un servidor. Informar a nivell de programari (que normalment es refereix a la BIOS o a altres diagnòstics de components de maquinari de baix nivell) és clau per a detectar quan les coses han fallat o, el que és més important, quan mostren signes de fallada. Un dels problemes que pot no ser immediatament evident és el que afecta a les plaques base. Té un sentit perfecte que les màquines no els agradi massa la calor. Però encara avui en dia, si una placa de circuit moderna està sotmesa a una ràpida pèrdua de calor o passa de funcionar molt calent a fer-se sobtadament fred, poden aparèixer esquerdes, provocant que la placa falli de forma desastrosa. És un tema a tenir en compte, especialment si moveu equips entre edificis dins d'unes finestres de manteniment que no oblidin el termini.

MTBF: Pot fallar massa

Tan útils com les prediccions de MTBF són importants per calcular els nivells de risc acceptables amb qualsevol equipament sobre el qual un negoci ha de confiar. Malauradament, fins i tot amb totes les garanties estadístiques que proporcionen els fabricants, l’única manera concreta de garantir la disponibilitat dels equips que utilitzen sistemes crítics és duplicar-lo per permetre un error de temps mort.

Tots els elements de maquinari que s’utilitzen a l’empresa estan formats per molts components diferents, de manera que l’autèntica MTBF està lluny d’un càlcul trivial. És evident que és fonamental no descansar un futur empresarial sobre aquestes mesures de probabilitat, sinó utilitzar-les com a mètodes bàsics per prendre decisions informades en relació amb la continuïtat del negoci i els procediments de recuperació de desastres. Al cap i a la fi, reduir el temps d’inactivitat mitjançant una planificació anticipada minuciosa pot significar la diferència entre un fracàs empresarial i un fracàs comercial.