Big Data al núvol: com de segures són les nostres dades?

Content

Problemes de seguretat en marcs de programació distribuïda
Problemes del registre de transaccions i de dades
Problemes de validació de dades
Supervisió de la seguretat de dades en temps real
Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida
Estratègies per afrontar les amenaces de seguretat
Millora de la fiabilitat en els marcs de programació distribuïda
Fortes polítiques de protecció de dades
Anàlisi
Detecta els outliers mentre recopila dades
Conclusió

Font: Cuteimage / Dreamstime.com

Emportar:

Exploreu les amenaces més importants a les dades grans al núvol i obteniu informació sobre com protegir-les.

El volum de grans dades va augmentant de manera creixent dia a dia. A partir de 2.500 exabytes el 2012, es preveu que les dades grans augmentin fins als 40.000 exabytes el 2020. Per tant, l’emmagatzematge de dades és un repte greu que només la infraestructura del núvol és capaç de manejar. El núvol s’ha convertit en una opció popular principalment per la seva enorme capacitat d’emmagatzematge i els seus termes i condicions d’ús que no imposen cap obligació per al subscriptor. L’emmagatzematge al núvol es pot oferir en forma de subscripcions i serveis duren un període predeterminat. Després d'això, no hi ha cap obligació per part del client de renovar-lo.

Tanmateix, emmagatzemar dades grans al núvol obre nous reptes de seguretat que no poden afrontar les mesures de seguretat adoptades per a les dades estàtiques regulars. Tot i que les dades grans no són un concepte nou, la seva col·lecció i ús només han començat a augmentar el ritme en els darrers anys. En el passat, l’anàlisi i l’anàlisi de grans dades només es limitaven a les grans corporacions i al govern que podien permetre’s la infraestructura necessària per a l’emmagatzematge i la mineria de dades. Aquesta infraestructura era propietària i no estava exposada a xarxes generals. Tanmateix, les dades grans ara estan disponibles a bon preu per a tot tipus d’empreses a través de la infraestructura del núvol pública. Com a resultat, han sorgit noves i sofisticades amenaces de seguretat i continuen multiplicant-se i evolucionant.

Problemes de seguretat en marcs de programació distribuïda

Els marcs de programació distribuïts processen grans dades amb tècniques de càlcul i emmagatzematge paral·leles. En aquests marcs, mapadors no certificats o modificats, que divideixen tasques enormes en sub-tasques més petites de manera que es poden agrupar les tasques per crear una sortida final, poden comprometre les dades. Els nodes de treballadors defectuosos o modificats (que prenen entrades del mapper per executar les tasques) poden comprometre les dades tocant la comunicació de dades entre el mapper i altres nodes de treballador. Els nodes treballadors Rogue també poden crear còpies de nodes legítims del treballador. El fet que sigui extremadament difícil identificar mappers o nodes malaurats en un marc tan gran fa que la seguretat de les dades sigui encara més difícil.

La majoria de marcs de dades basats en núvols utilitzen la base de dades NoSQL. La base de dades NoSQL és beneficiosa per manejar conjunts de dades immensos i no estructurats, però des d’una perspectiva de seguretat, està mal dissenyada. NoSQL es va dissenyar originalment sense tenir en compte gairebé cap consideració de seguretat. Un dels majors punts febles de NoSQL és la integritat transaccional. Disposa de mecanismes d’autenticació pobres, cosa que el fa vulnerable als atacs d’interior o de reproducció. Per empitjorar, NoSQL no admet la integració de mòduls de tercers per reforçar els mecanismes d'autenticació. Com que els mecanismes d'autenticació són més aviat poc seriosos, les dades també estan exposades a atacs privilegiats. Els atacs podrien passar desapercebuts i no detectats a causa del mal funcionament dels mecanismes de registre i anàlisi de registres.

Problemes del registre de transaccions i de dades

Les dades normalment s’emmagatzemen en suports d’emmagatzematge de diversos nivells. És relativament fàcil rastrejar dades quan el volum és relativament petit i estàtic. Però quan el volum augmenta exponencialment, s’utilitzen solucions d’automatització. Les solucions de nivell automàtic emmagatzemen dades en diferents nivells, però no fan el seguiment de les ubicacions. Aquest és un problema de seguretat. Per exemple, una organització pot tenir dades confidencials que rarament s’utilitzen. Tanmateix, les solucions de nivell automàtic no distingeixen entre les dades sensibles i les que no són sensibles i només emmagatzemaran les dades de poc accés al nivell més baix. Els nivells més baixos tenen la seguretat disponible més baixa.

Problemes de validació de dades

En una organització, es poden recopilar dades grans de diverses fonts que inclouen dispositius finals com ara aplicacions de programari i dispositius de maquinari. És un gran repte garantir que les dades recollides no siguin maliciosos. Qualsevol persona amb intencions malintencionades pot modificar el dispositiu que proporciona dades o l’aplicació que recopila dades. Per exemple, un pirata informàtic pot provocar un atac de Sybil a un sistema i, a continuació, utilitzar les identitats falses per proporcionar dades malicioses al servidor o sistema de recollida central. Aquesta amenaça és especialment aplicable en un escenari d'aplicar el propi dispositiu (BYOD) perquè els usuaris poden utilitzar els seus dispositius personals dins de la xarxa empresarial.

Supervisió de la seguretat de dades en temps real

El control en temps real de les dades és un gran repte, ja que cal supervisar tant la gran infraestructura de dades com les dades que processen. Com ja vam assenyalar anteriorment, la infraestructura de grans dades del núvol està constantment exposada a amenaces. Les entitats malintencionades poden modificar el sistema de manera que accedeixi a les dades i, a continuació, generin falsos positius. És extremadament arriscat ignorar falsos positius. A més d’això, aquestes entitats poden intentar evadir la detecció mitjançant la creació d’atacs d’evasió o fins i tot utilitzar intoxicació de dades per reduir la fiabilitat de les dades que es processen.

Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida

No podeu millorar les vostres habilitats de programació quan ningú es preocupa per la qualitat del programari.

Estratègies per afrontar les amenaces de seguretat

Les grans estratègies de seguretat de dades encara es troben en un procés incipient, però han d'evolucionar ràpidament. Les respostes a les amenaces de seguretat es troben a la xarxa. Els components de la xarxa necessiten una fiabilitat absoluta i això es pot aconseguir amb estratègies de protecció de dades fortes. Hauria d’haver-hi una tolerància zero per a les mesures de protecció de dades laxes. També hi hauria d’haver un mecanisme fort i automatitzat per recollir i analitzar els registres d’esdeveniments.

Millora de la fiabilitat en els marcs de programació distribuïda

Com s'ha apuntat anteriorment, els mapes i nodes de treballadors no fiables poden comprometre la seguretat de les dades. Per tant, la confiança dels mappers i nodes és obligatòria. Per fer-ho, cal que els mapes autentifiquin regularment els nodes de treballadors. Quan un node de treballador sigui una sol·licitud de connexió amb un mestre, la sol·licitud s'aprovarà subjecte al treballador que tingui un conjunt de propietats de confiança predefinides. A partir d’aleshores, el treballador serà revisat regularment per complir les polítiques de seguretat i confiança.

Fortes polítiques de protecció de dades

Cal afrontar les amenaces de seguretat a les dades a causa de la protecció de dades inherentment feble en el marc distribuït i la base de dades NoSQL. Les contrasenyes han de ser desemmotllades o xifrades amb algorismes d'identificació segurs. Les dades en repòs sempre s'han de xifrar i no deixar-les fora al descobert, fins i tot després de considerar l'impacte sobre el rendiment. El xifrat de fitxers de maquinari i de fitxers massius són de naturalesa més ràpida i podrien tractar fins a cert punt els problemes de rendiment, però els atacants també poden incomplir el xifratge d’aparells de maquinari. Tenint en compte la situació, és una bona pràctica utilitzar SSL / TLS per establir connexions entre el client i el servidor i per a la comunicació entre els nodes del clúster. A més, l'arquitectura NoSQL ha de permetre mòduls d'autenticació de tercers connectables.

Anàlisi

Les anàlisis de dades grans es poden utilitzar per controlar i identificar connexions sospitoses amb els nodes del clúster i minar constantment els registres per identificar possibles amenaces. Tot i que l’ecosistema Hadoop no disposa de mecanismes de seguretat integrats, es poden utilitzar altres eines per controlar i identificar activitats sospitoses, subjectes a aquestes eines que compleixin certs estàndards. Per exemple, aquestes eines s’han d’ajustar a les directrius de l’OWASP (Open Web Application Security Project). S'espera que el seguiment en temps real dels esdeveniments millori amb alguns desenvolupaments que ja es produeixen. Per exemple, el Protocol d’automatització de contingut de seguretat (SCAP) s’està aplicant de forma gradual a dades grans. Apache Kafka i Storm prometen ser bones eines de control en temps real.

Detecta els outliers mentre recopila dades

Encara no hi ha cap sistema a prova d’intrusions disponible per evitar completament intrusions no autoritzades en el moment de la recollida de dades. Tot i això, les intrusions es poden reduir significativament. Primer, les aplicacions de recollida de dades s’han de desenvolupar de la forma més segura possible, tenint en compte l’escenari BYOD quan l’aplicació pot funcionar en diversos dispositius no fiables. En segon lloc, els atacants decidits incompliran probablement el sistema més fort de defenses i dades malintencionades al sistema central de recollida. Per tant, hi hauria d’haver algoritmes per detectar i filtrar aquestes entrades malintencionades.

Conclusió

Les vulnerabilitats de dades grans al núvol són úniques i no es poden abordar mitjançant mesures de seguretat tradicionals. La protecció de grans dades del núvol no deixa de ser una àrea naixent, perquè encara es desenvolupen algunes bones pràctiques, com ara el monitoratge en temps real, i no s’estan aplicant de forma estricta les bones pràctiques o mesures. Tot i així, tenint en compte la lucrativa de les grans dades, les mesures de seguretat es podran recuperar en un futur proper.