Quan SQL no és suficient: controls per a centres de dades massius i massius

Content

Sistema d’arxius de Google: un gran cas d’estudi
Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida
Una ullada a la tecnologia bàsica
Com ho aconsegueixen altres grans sistemes?
Mantenir una DFS

Emportar:

Els desenvolupadors i els enginyers han de treballar contínuament per accelerar i millorar els serveis en plataformes que han crescut molt més enllà dels seus arquetips clàssics de l’època dels noranta.

Amb tot el debat sobre enormes centres de dades de la NSA que contenen reculls de trossos de dades sobre la nostra vida privada, hi ha una cosa que no s’ha parlat gaire, almenys de CNN. Es tracta d’un problema d’enginyeria que ha sorgit juntament amb la tecnologia del núvol, les big data i els impressionants centres d’emmagatzematge de dades físiques que ara s’estan construint a tot el món. Aleshores, què és? Bé, independentment de qui administri un dels sistemes informàtics mamuts que gestiona aquestes instal·lacions, cal disposar de sistemes de programari que ajudin totes aquestes dades a entrar i sortir del pipeline ràpidament. Aquesta necessitat representa una de les preguntes o trencaclosques de TI més interessants als nostres professionals.

Com diuen molts experts, la demanda extrema de processament de dades actualment supera els plantejaments tradicionals. En poques paraules, l'ús d'estructures i eines de base de dades simples com la interfície de consulta SQL no proporcionarà una potència de processament o una funcionalitat suficient per als gustos dels sistemes propietaris que s'han desenvolupat durant els últims anys. Els arxius de les grans empreses tecnològiques actuals necessiten una tecnologia extremadament escalable. Necessiten eines de processament de dades que puguin aportar i produir resultats en un volum molt superior al que pot facilitar un servidor. Necessiten solucions ràpides per al creixement, solucions que inclouen nivells complexos d’intel·ligència artificial, solucions dissenyades per a un maneig fàcil per part d’un departament d’informàtica.

La pregunta és, com poden conquerir les empreses i les agències governamentals les limitacions del camí tradicional de maneig de dades? Aquí feu una ullada a una opció molt prometedora: un programari que gestiona les dades grans i l'administració de diversos centres de dades.

Sistema d’arxius de Google: un gran cas d’estudi

La tecnologia propietària que Google utilitza per accedir als seus centres de dades és un dels millors exemples de models habituals per al maneig de dades grans i l'administració de diversos centres de dades. El Sistema d’arxius de Google (GFS), desenvolupat el 2003, està dissenyat per donar suport a l’enorme volum d’esmenes d’alta velocitat als sistemes de dades que formen part d’obtenir tanta informació nova dins i fora d’una sola plataforma com milions d’usuaris fan clic en un. el mateix temps. Els experts es refereixen a això com un sistema de fitxers distribuït i utilitzen el terme "emmagatzematge d'objectes de dades" per descriure aquestes tècniques altament complexes. En realitat, però, aquests termes ni tan sols es rasquen la superfície en termes que descriuen el que funciona.

Individualment, és possible que les funcions i components que formen un sistema com GFS ja no siguin innovadors, però siguin complexos. Moltes d’elles han estat cobertes en aquest lloc com a novetats relativament noves que formen part de la base d’un nou sistema de TI global, sempre i sempre connectat. Col·lectivament, un sistema com GFS és molt més que la suma de les seves parts: és una xarxa molt invisible, però molt complexa, amb peces de dades individuals llançades d’aquesta manera i que en un procés que, si es modelés visualment, semblaria un caos. Comprendre cap a on es dirigeixen totes les dades requereix molta energia i compromís, ja que els adreçats a les estacions de batalla d’aquests sistemes admetran fàcilment.

"Hi ha massa detalls que tenen un impacte profund en les àrees d'utilització (incloent-hi la fragmentació externa i interna, les actualitzacions basades en el registre i el nivell de consistència de les transaccions) per resumir el seu funcionament en una única frase succinta. ", afirma Momchil Michailov, conseller delegat i cofundador de Sanbolic.

"Un sistema de fitxers distribuït és un agregador distribuït d'espais de noms locals i espais lliures de nodes participants, o un sistema de fitxers local que s'executa en diversos nodes que accedeixen a l'emmagatzematge compartit amb l'ajut d'un component de gestor de bloqueig distribuït", va dir.

Kerry Lebel és director de productes sènior de Automic, una empresa coneguda per les seves plataformes d’automatització escalables. Lebel diu que, tot i que és exacte descriure una DFS com un sistema que només assigna càrregues de treball a servidors adjunts a maquinari de baix cost, això no explica realment tota la història.

Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida

No podeu millorar les vostres habilitats de programació quan ningú es preocupa per la qualitat del programari.

"El que acabes perdent és tot el factor fantàstic de com fan el que fan ", va dir Lebel.

Quan us aparteu dels detalls tècnics i només penseu en la idea bàsica que hi ha al darrere del sistema de fitxers distribuït, el "factor fantàstic" de què parla Lebel és evident. Aquests sistemes de maneig de dades grans substitueixen sistemes antics de fitxers / carpetes per estructures que no solament impliquen diversos sistemes de lliurament, sinó un enfocament "orientat a objectes", on un gran nombre d'unitats són escorcollades aquí i allà per evitar embotellaments.

Penseu, per exemple, en un sistema d’autopistes d’última generació, on centenars de milers de cotxes no només s’encaminen per una carretera de diversos plànols, sinó que s’inclouen en una petita fulla de trèvol o afluents de bou, que es giren i s’envien. cap a les seves destinacions amb diversos desviaments. Des del cel, tot sembla tan coreogràfic com un rellotge suís. Aquest és el tipus de model visual que contemplen els enginyers quan somien noves maneres d’orientar la informació al voltant de les limitacions “donant-li un cop de peu” a diferents nivells d’un esquema de contenció de dades a diversos nivells. Deixant de banda les especificacions, aquest és l’objectiu de primer nivell d’un sistema de manipulació: mantenir aquells objectes autònoms amb els seus metadades incrustats movent-se a la velocitat màxima cap a on han d’estar, per assolir objectius de coherència, satisfer un usuari final o fins i tot per informar sobre una observació o anàlisi de primer nivell.

Una ullada a la tecnologia bàsica

Un article de Sean Gallagher aparegut a Ars Technica desglossa el disseny de GFS en peces una mica més manejables i fa referència a allò que hi ha a sota del full de Google.

GFS comença amb un model redundant i tolerant a les errades per a les lectures i escriptures de dades. La idea aquí és que en lloc d’escriure una actualització específica a una sola unitat, els nous sistemes escriuen fragments de dades a diverses destinacions. D’aquesta manera, si un escrit falla, altres es quedaran. Per aconseguir-ho, un component principal de xarxa acumula el maneig de dades a altres unitats subordinades, reagregant les dades quan un client "ho truca". Tot això és possible mitjançant un protocol de metadades que ajuda a identificar on hi ha determinades actualitzacions i resultats de transmissió dins del sistema més gran.

Un altre aspecte molt important d'això és la manera com aquests sistemes pesats duplicats apliquen la consistència de les dades. Com Gallagher assenyala, el disseny de GFS sacrifica una mica de coherència tot i que "fa efectiva l'atomicitat" o protegeix el principi de com les dades s'actualitzen en diverses unitats d'emmagatzematge per combinar-se amb el pas del temps. El "model de coherència relaxat" de Google sembla seguir la teoria essencial del model BASE, que proporciona més flexibilitat a canvi d'un període de temps més llarg per aplicar l'aplicació de coherència.

Com ho aconsegueixen altres grans sistemes?

"Quan s'arriba a una escala prou gran, les inconsistències o les corrupcions a les dades són inevitables", afirma Michailov. "Per tant, un objectiu principal dels sistemes de fitxers distribuïts hauria de ser la possibilitat de dur a terme el màxim de operacions possibles en presència de corrupció, alhora que proporcionar mètodes eficients per combatre la corrupció simultàniament". Michailov també esmenta la necessitat de preservar el rendiment mitjançant una aplicació acurada de la redundància.

"Per exemple, crear metadades (dades sobre les dades) a cada disc permet que el disc pugui reconstruir la seva estructura de dades adequada si la seva còpia del mirall està danyada", va dir Michailov. "A més, es poden fer servir nivells RAID per combatre els errors d'emmagatzematge tant en els agregadors del sistema de fitxers com en els nivells de gestió de volum compartit."

En discutir un altre model de coherència, Lebel se centra en un sistema anomenat sistema de fitxers distribuït Hadoop (HDFS), que ell anomena "estàndard de facto de la indústria".

En HDFS, diu Lebel, cada bloc de dades es reprodueix tres vegades en nodes diferents i en dos bastidors diferents. Les dades es revisen de punta a punta. Els errors es van notificar a NameNode, un gestor de dades que es lliura dels blocs corruptes i en crea de nous.

Tot això admet els tipus de "dades netes" que són tan importants per a la integritat d'un d'aquests sistemes de dades massives.

Mantenir una DFS

Un altre aspecte molt diferent a GFS prové d’un article de l’octubre de 2012 de l’escriptor Wired Steven Levy. És molt més brillant caracteritzar l’enfocament del programari per a la manipulació col·lectiva de xarxa de dalt a baix de Google.

"Al llarg dels anys", escriu Levy, "Google també ha creat un sistema de programari que li permet gestionar els seus innombrables servidors com si fossin una entitat gegant. Els seus desenvolupadors interns poden actuar com a amos de titelles, enviant milers d'ordinadors per a realitzar-los. tasques tan fàcilment com executar una sola màquina. "

Fer això també implica tones de manteniment ambiental i basat en cibernètica, des d’equips de prova dedicats que intenten “trencar” els sistemes de servidor, fins a controlar les temperatures amb cura a les sales de la cripta de dades.

Levy també esmenta tecnologies suplementàries per a GFS, com MapReduce, una eina d'aplicació en núvol i Hadoop, un motor d'analítica que comparteix alguns principis de disseny amb GFS. Aquestes eines tenen el seu propi impacte en com es dissenyen els sistemes de maneig de centres de dades grans i en el que és probable que sorgeixi en el futur. (Obteniu més informació sobre aquestes tecnologies a L’evolució del Big Data.)

Michailov creu que MapReduce té el potencial de donar suport a sistemes de centres de dades cada cop més grans i parla d'una "implementació única" de sistemes de fitxers compartits i agregats que podrien "mantenir els nodes de nom d'un sistema de fitxers agregats en un clúster compartit amb SSDs per a emmagatzematge. ".

Per la seva banda, Lebel veu un allunyament del processament per lots (el mètode suportat per Hadoop) al processament en temps real, cosa que aproparà aquestes operacions de dades a temps real.

"Com més ràpid puguem processar les dades i posar-les a disposició dels responsables empresarials o dels nostres clients, més avantatge competitiu hi haurà", afirma Lebel, que també suggereix substituir la terminologia de processament anterior per termes que se centren en la usuari final. Pensant en activitats "síncrones" o en activitats sincronitzades amb accions per a usuaris finals i en activitats "asíncrones" més flexibles en termes d'implementació, Lebel assegura que les empreses poden utilitzar SLAs i altres recursos per definir com funcionarà un sistema de servei determinat. .

Tot això, en cert sentit, és que els desenvolupadors i els enginyers han de treballar contínuament per accelerar i millorar els serveis en plataformes que han estat molt més enllà dels seus arquetips clàssics de la dècada dels 90. Això vol dir analitzar críticament la maquinària de dades i obsequiar amb els colls d’ampolla de maneres que no només donin suport a una població en creixement, sinó que es produeix un canvi exponencial a la velocitat que els pundits estan anomenant "la propera revolució industrial". És probable que els que més terreny obrin en aquests fronts acabin dominant els mercats i les economies del futur.