La clau per a la qualitat de les dades de gran anàlisi: comprensió diferent - Transcripció de l'episodi 4 de TechWise - Tecnologia

Content

Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida

Font: Jakub Jirsak / Dreamstime.com

Emportar:

L’amfitrió Eric Kavanagh discuteix analítica de dades grans amb experts de la indústria.

Eric: Senyores i senyors, és el final de l'any 2014, almenys, gairebé. És la nostra última transmissió web de l'any, amics! Benvingut a TechWise! Sí, efectivament! Em dic Eric Kavanagh. Seré el vostre moderador per a una transmissió web fantàstica, persones. Estic realment emocionat. Tenim dos analistes impressionants en línia i dues grans empreses: innovadors reals en tot aquest ecosistema de big data. I anem a parlar tota la clau per a l’analítica de grans dades és comprendre la diferència. Per tant, anem endavant i aprofundeix bé, persones.

Tenim diversos presentadors. Com veieu, n’hi ha de veritat a la part superior. Mike Ferguson està trucant des del Regne Unit, on va haver de tenir privilegis especials per allotjar-se a l’edifici d’oficines aquest tard. És tan tard per a ell. Tenim el doctor Robin Bloor, el nostre propi analista en cap del grup Bloor. I tindrem a George Corugedo, conseller delegat i cofundador de RedPoint Global, i a Keith Renison, arquitecte de solucions principals del SAS Institute. Aquestes són companyies fantàstiques. Es tracta d’empreses que realment innoven. I anem a aprofundir en algunes de les coses bones del que està passant allà mateix en tot el món de les grans dades. Posem-ho bé, les dades petites no s’han desaparegut. I per això, deixa'm el meu resum executiu aquí.

Així, hi ha una vella expressió francesa: "Com més canvien les coses, més segueixen igual". Anem aquí alguns fets: les dades grans no resoldran els problemes de les dades petites. Les petites dades corporatives continuen sent fora. Continua a tot arreu. És el combustible de les operacions per a l’actual economia de la informació. I les dades grans ofereixen un compliment a les anomenades petites dades corporatives, però no substitueixen les dades petites. Encara hi serà. M’agraden moltes coses sobre dades grans, sobretot coses com ara les que es generen a màquina.

I avui, probablement parlarem una mica sobre dades de mitjans socials, que també són coses molt potents. I si penseu, per exemple, en com ha canviat el negoci, vés a pensar en tres llocs web ràpids aquí: LinkedIn i. Penseu en el fet que fa cinc anys, ningú feia aquest tipus de coses. és avui un juggernaut absolut. , per descomptat, és enorme. És gegantí. I, a continuació, LinkedIn és l'estàndard de facto per a xarxes i comunicació corporativa. Aquests llocs són abundants i, per poder aprofitar les dades que hi ha, reactivarà una funcionalitat que canvia el joc. Realment es farà molt bé per a moltes organitzacions, com a mínim, per a les que se n’aprofiten.

Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida

No podeu millorar les vostres habilitats de programació quan ningú es preocupa per la qualitat del programari.

Per tant, la governança: la governança encara és important. Un cop més, les dades grans no anul·len la necessitat de govern. Francament, hi ha una necessitat completament centrada en com governar el món de les grans dades. Com us assegureu de tenir els vostres procediments i polítiques en marxa; que les persones adequades tinguin accés a les dades adequades; que teniu contactes, heu implicat un llinatge aquí? En realitat saps d’on provenen les dades, què li ha passat. I tot canvia.

Estic realment impressionat per algunes de les coses que he vist per aquí en tot aquest món nou que aprofitava l'ecosistema Hadoop, que és, per descomptat, molt més que emmagatzematge en termes de funcionalitat. Hadoop també és un motor computacional. I la companyia ha de descobrir com aprofitar aquesta potència computacional, aquesta capacitat de processament paral·lela. Faran coses realment fantàstiques. Avui ho sabrem.

L’altra cosa que cal esmentar, de la qual ha parlat el doctor Bloor en el passat recent, és que l’onada d’innovació no s’ha acabat. Així, doncs, hem vist molta atenció sobre Hadoop. Ja hem vist empreses com Cloudera i Hortonworks, ja saben fer alguna onada. I, actualment, desenvolupen col·laboracions amb empreses que ja estan de trucada, de manera franca. I desenvolupen col·laboracions amb molta gent. Però l’onada d’innovació no s’ha acabat. A Apache Foundation hi ha més projectes que canvien no només el punt final, si ho fareu, les aplicacions que la gent utilitza, sinó la infraestructura en si.

Així doncs, tot aquest desenvolupament de YARN, però un altre negociador de recursos, és realment com un sistema operatiu per a grans dades. I és un gran problema. Per tant, anem a aprendre com això canvia també les coses. Així doncs, només teniu uns quants consells evidents aquí, compte amb els contractes llargs que s’avançaran, ja sabeu, els contractes de deu i deu anys seran l’onada, el camí que em sembla. Voleu evitar el bloqueig a tota costa. Avui aprendrem sobre tot això.

Així, el nostre primer analista que parla avui: el primer orador de tot el programa és Mike Ferguson, que va trucar des del Regne Unit. Amb això, us lliuraré les claus, Mike, i us deixaré emportar-vos. Mike Ferguson, el pis és teu.

Mike, tu? Pot ser que estiguis en silenci. No el sento. Potser haurem de trucar-li. I només pujarem cap a les diapositives de Robin Bloor. Robin, vaig a obtenir el lloc del pobre Mike Ferguson aquí. Aniré per un segon.

Ets tu, Mike? Ens sents? Nah. Crec que haurem d’anar endavant i anar amb Robin primer. Per tant, aguanteu-ne un segon, persones. També trauré alguns enllaços a les diapositives d’aquí a un parell de minuts. Així que amb això, deixa'm donar les claus de Robin Bloor. Robin, podeu anar primer en lloc de Mike, i en trucaré a Mike en un segon.

Robin: D'acord.

Eric: aguanta, Rob. Deixeu-me anar endavant i porteu la presentació aquí, Rob. Passarà un segon.

Robin: D'acord.

Eric: Sí. Tot i així, podeu parlar de què tractem, en termes de governança. Sé que anireu a parlar de governança. Això es sol pensar en les dades de petites empreses. Ara, tinc la diapositiva, Robin. No moveu res. I aquí vas El pis és teu. Emporta-t'ho.

Robin: D'acord. Sí. Vull dir, bé, que abans ens arreglàvem, Mike parlaria del costat analític i parlaré del govern. Fins a un cert punt, la governança segueix les analítiques en el sentit que és una raó per la qual feu les grans dades de dades i la raó per la qual assembleu tot el programari per fer les analítiques és allà on és el valor.

Hi ha un problema. I el problema és que, ja ho sabeu, cal deixar de banda les dades. Cal combatre les dades. Les dades han de reunir-se i gestionar-les de manera que l'analítica es dugui a terme amb plena confiança. Així, doncs, vaig pensar que de què parlaria era del costat de la governança de l’equació. Suposo que el que cal dir, realment, és que, ja ho sabeu, la governança ja era un problema. La governança ja era un problema i comença a convertir-se en un problema en tot el joc del magatzem de dades.

El que ha passat realment és que s'ha convertit en un problema molt més gran. I la raó per la qual s’ha convertit en un número molt més gran i en més dades, però vull dir, són realment els motius. El nombre de fonts de dades s’ha ampliat de forma espectacular. Anteriorment, les fonts de dades de què disposem estaven definides en gran mesura pel que fos el magatzem de dades. El magatzem de dades normalment seria alimentat per sistemes RTP. És possible que es faci una mica de dades externes, no gaire.

Ara hem anat a un món on, ja sabeu, ara existeix un mercat de dades i, per tant, hi haurà comerç de dades. Ja teniu càrregues i càrregues de diferents fonts de dades de streaming que podeu aportar a l'organització. Tenim dades de xarxes socials que les han agafat, retirades pel seu compte, per dir-ho, És a dir, que el valor que hi ha als llocs de xarxes socials és realment la informació que agregen i, per tant, que es pot posar a disposició de la gent.

També hem descobert que és com ja existien. Ja teníem aquests fitxers de registre, a l’arribada de Splunk. I ben aviat es va fer evident que hi ha valor en un fitxer de registre. Així doncs, hi havia dades de l'organització, que podríem anomenar fonts de dades noves i fonts externes. Així, això és una cosa. I això realment significa que, ja sabeu, siguin quines siguin les regles de gestió de dades que teníem abans, hauran de ser, d’una manera o altra, prorrogades, i continuaran necessitant estendre’s per governar realment la dades. Però ara comencem a reunir-nos d’una manera o altra.

I baixant aquesta llista tenim el streaming i la velocitat d’arribada de dades. Una de les meves opinions, crec, les raons de la popularitat d’Hadoop és que es pot utilitzar molt per agafar moltes dades. També pot ingerir la velocitat de les dades, ja que si realment no cal utilitzar-la immediatament, és un bon entorn paral·lel i enorme. Però també heu obtingut el fet que hi ha una quantitat bona d’analítiques de streaming actuals. Antigament eren els sectors bancaris als que s’interessava el streaming d’aplicacions, però ara era una mena de global. I tothom està mirant aplicacions de streaming d’una manera o altra, un mitjà potencial per obtenir valor de les dades i fer analítiques per a l’organització.

Disposem de dades no estructurades. L’estadística, normalment part del únic 10% de les dades del món, es trobava en bases de dades relacionals. Ara bé, una de les raons principals d’aquest fet era principalment desestructurada i ho era, una bona part que hi havia a la web, però pràcticament s’expliquen sobre diversos llocs web. S’ha demostrat que les dades també són analitzables, també utilitzables. I amb l’arribada de la tecnologia Symantec que s’està enfilant gradualment a la situació, cada cop s’està convertint en més.Per tant, cal reunir i gestionar dades no estructurades i això vol dir que és molt més gran del que abans. Tenim dades socials que ja he esmentat, però el principal punt sobre això és que probablement cal netejar.

Tenim dades d’Internet de les coses. Es tracta d’un tipus de situació diferent. És probable que hi hagi moltes coses, però moltes haureu de romandre distribuïdes en algun lloc a prop del lloc on es dirigeix. Però també voldreu que, d’una manera o altra, traieu-la per fer les analítiques de l’organització sobre les dades. Així, això ha afegit un altre factor. I aquestes dades s’estructuraran de la manera diferent, perquè probablement, probablement, es formataran en JSON o en XML, de manera que es declari. I no només, d’una manera o d’una altra, que realment estem tirant dades i puguem fer un tipus d’esquema sobre la lectura d’aquestes dades concretes.

Tenim el problema de procedència, i aquest és un problema d’analítica. Els resultats de qualsevol anàlisi que feu dades no podran ser vàlids, si voleu, que no siguin vàlids, tret que coneguin la procedència de les dades. Vull dir, aquesta és només la professionalitat pel que fa a l'activitat dels científics de dades. Però ja sabeu, per tenir procedència de dades, això vol dir que realment hem de governar les dades i mantenir una nota del seu llinatge.

Tenim el problema de la potència i els paral·lels de l’ordinador i el que fa és que tot vagi més ràpid. El problema és que, òbviament, alguns processos que hem implantat poden ser massa lents per a la resta. Per tant, hi ha possibles desajustos en termes de velocitat.

Arribem a l’arribada de l’aprenentatge automàtic. L’aprenentatge automàtic té l’efecte, de veritat, de fer de les analítiques un joc diferent al que era abans. Però només el podeu fer servir si teniu el poder.

Ens ha donat el fet de noves càrregues de treball analítiques. Tenim un món paral·lel i cal executar en paral·lel alguns algoritmes analítics per obtenir el màxim efecte. I, per tant, el problema és governar com realment, d’una manera o d’una altra, empenyes les dades al voltant, feu-les si estan disponibles. I on realment executeu les càrregues de treball analítiques, perquè és possible que ho realitzeu dins de la base de dades. Per tant, pot ser que ho facis dins d’aplicacions analítiques.

Per tant, hi ha tota una sèrie de reptes de governança. El que vam fer aquest any: la investigació que vam fer aquest any era realment entorn de l’arquitectura de grans dades. I quan realment intentem generalitzar-ho, la conclusió a la qual hem arribat: el diagrama al qual hem sortit s’assemblava molt.

No entraré en això, sobretot perquè Mike farà una quantitat raonable en arquitectura de dades per a analítica. Però el que realment m'agrada que la gent s'enfocés només és aquesta zona inferior on, d'una manera o altra, estem reunint dades. Tenim alguna cosa que voldria referir a la refineria de dades o al centre de processament de dades. I aquí és on es produeix la governança. Per tant, ja sabeu, si ens fixem en un aspecte semblant. Ja ho sabeu, es proporcionen dades de fonts internes i externes. En teoria, el nucli hauria de tenir totes les dades que es generen. S'hauria de transmetre i gestionar-la en forma de streaming, si cal fer analítiques i dades de transmissió, i després passar al centre. O, altrament, tot entra al nucli. I hi ha una sèrie de coses que estan passant al centre. I no podeu tenir una certa quantitat d’analítica i SQL al centre. Però també teniu la necessitat de virtualització de dades de cada cel·la per empènyer les dades cap a altres àrees. Però abans que passi això, és necessari que, d’una manera o altra, faci la perfecció de la preparació de dades. Podeu anomenar-la preparació de dades. És molt més gran que això. Aquestes són les coses que crec que inclou.

Tenim la gestió del sistema i la gestió del servei, en un cert sentit, que aquesta és la part principal de la capa de dades, i en realitat hem d'aplicar tots els sistemes que gestionen l'esforç de gestió de sistemes operatius que tradicionalment hem fet gairebé a tots els sistemes operatius. Però també necessitem, d’una manera o d’una altra, controlar altres coses que es fan per assegurar-nos que es compleixin aquests diversos nivells de servei, perquè hi ha que definir nivells de servei o qualsevol tipus d’analítica com s’accionin, o bé les dades de BI ser actuat.

Necessitem supervisió i gestió del rendiment. En cas contrari, necessitem això per saber quins recursos informàtics més necessitem assignar en diversos moments. Però també, en realitat, hi ha molta quantitat de treball, força complexa i competidora amb els recursos. Hi ha una cosa força sofisticada que cal fer en aquesta zona.

Ara tenim un cicle de vida de les dades de manera que mai ho teníem abans. L’acord aquí realment està per sobre de tot, que no recollíem dades ni ho vam llençar abans. Tendíem a recopilar les dades que necessitàvem i probablement les conservàvem, i després l’arxivem. Però un gran nombre del que farem a partir d’ara és explorar dades. I si no voleu les dades, enterreu-les. Així doncs, els cicles de vida de les dades són diferents segons la situació, però també serà una suma molt més gran de dades. Per tant, ja sabeu, sabent d’on provenia un agregat, què és… quina és la font d’agregació, etcètera. Tot això és necessari.

El llinatge de dades es presta de forma natural. Sense això, heu de conèixer els problemes, de manera que les dades ... Hem de saber que les dades són vàlides, però amb la confiança que són realment.

També tenim mapatge de dades, perquè moltes dades seran realment, d’una manera o altra. I això, si voleu, això es relaciona en certa mesura amb MDM. Ara és molt més complicat, perquè quan tingueu una quantitat horrible de dades definides per JSON o basades en el nostre esquema XML en lectura, haureu de tenir, d’una manera o altra, molt actiu Activitat de mapeig de dades en curs.

Hi ha una situació de gestió de metadades que és més que MDM, perquè cal, d’una manera o altra, crear el que ara voldria pensar com un tipus de magatzem de metadades de tot allò que us interessa. Hi ha metadades. descobriment, perquè algunes de les dades no necessàriament tindran declarades les seves metadades i volem utilitzar-les immediatament. I després, hi ha una neteja de dades, que és una cosa enorme com la sèrie de coses que es poden fer allà. I també hi ha seguretat de dades. Totes aquestes dades s’han d’assegurar a un nivell acceptable i això fins i tot podria significar en determinats casos, per exemple, xifrar molts valors.

Així doncs, tota aquesta càrrega de treball és realment l'imperi de governança. Tot això, d’una manera o d’una altra, s’ha de desenvolupar al mateix temps o abans, tota la nostra activitat analítica. Es tracta d’un gran nombre d’aplicacions coordinades. És un sistema per si mateix. Aleshores, els que no ho facin en diversos moments podran patir una falta a mesura que avancin, perquè moltes coses reals no són realment opcionals. Acabeu simplement d’augmentar l’entropia si no les feu.

Així, en termes d’analítica de dades i de governança, el que diria és que, realment, una mà es renta l’altra. Sense governança, les analítiques i la BI no cauen en el temps. I sense analítiques ni BI, no caldria governar les dades de totes maneres. Per tant, les dues coses realment caminen mà a mà. Com diuen a l'Orient Mitjà, "Una mà renta l'altra". I això és tot el que he de dir. Espero que, amb sort, ara tinguem en Mike.

Eric: Sí. Mike, suposo que hi ets? Pujaré la presentació.

Mike: Jo sóc. Està bé, em pots escoltar?

Eric: Sí, et puc sentir. Et sona meravellós. Per tant, deixa'm presentar ... Allà hi vas. I ara ets el presentador. Emporta-t'ho.

Mike: D'acord, gràcies! Bon dia, bona tarda, bon vespre a tots els que esteu allà fora. Perdoneu el singlot al principi. Per alguna raó, em vaig silenciar i vaig veure a tothom, però no em van poder escoltar.

Bé. Aleshores, el que vull fer ràpidament és parlar, ja ho sabeu, de l’ecosistema d’analítica de big data. Si voleu fer-me preguntes, us diré que, en aquesta sessió o posterior, podeu contactar amb les meves dades de contacte aquí. Com he dit, a mitja nit aquí al Regne Unit.

Bé, deixa'm arribar al que vull parlar. És evident que, durant els darrers anys, hem vist que sorgeixen tot tipus de dades de nova creació que les empreses ara volen analitzar: tot, des de les dades de clics per comprendre els comportaments en línia, les dades de mitjans de comunicació social de què Eric parlava. inici del programa aquí Crec que Robin va mencionar JSON, BSON, XML, per tant, dades semi-estructurades que es descriuen. Per descomptat, també tenim moltes altres coses: tot, des de dades no estructurades, registres d’infraestructura informàtica, dades de sensors. Totes aquestes fonts de dades relativament noves que ara han interessat les empreses ja que contenen una visió valuosa que pot aprofundir en allò que coneixem.

Així doncs, això significa bàsicament que el paisatge analític s’ha anat més enllà del magatzem de dades tradicional. Encara estructurem les dades al món d’una combinació de dades estructurades i multiestructurades, on les dades multiestructurades podrien provenir de dins o de fora de l’empresa en molts casos. I com a resultat d’aquests nous tipus de dades i de les noves necessitats d’analitzar, hem vist l’aparició de noves càrregues de treball analítiques: tot, des de l’anàlisi de dades en moviment, que tipus de dades converteix l’arquitectura tradicional d’emmagatzematge de dades, una mica, on , als cercles tradicionals, integra dades, neteja, transforma, emmagatzema i analitza-les. Però analitzant les dades en moviment, capturem les dades, la integrem, la preparem a través de l'anàlisi i després la guardem. Per tant, hi ha anàlisis de dades abans que es desen a qualsevol lloc.

Analitzem complexament les dades estructurades, potser per al desenvolupament de models, el desenvolupament de models estadístics i de predicció, que no és gens nou per a algunes persones en un espai tradicional de magatzem de dades. Tenim anàlisis exploratòries de dades de model. Aquesta és la quantitat de dades estructurades que hi ha. Tenim noves càrregues de treball en forma d’anàlisi gràfica que per als meus clients en serveis financers inclouen coses com el frau. També inclou ciberseguretat. Inclou, sens dubte, xarxes socials, comprensió d’influents i coses d’aquest tipus. Fins i tot la vaig dominar en gestió, té uns anys d’anàlisi gràfica.

Tenim l’optimització o descàrrega del magatzem de dades del processament ETL, que és més que un cas d’ús de les TI, CIO podria finançar-ho. I fins i tot arxivar dades i magatzems de dades per mantenir-la en línia en coses com Hadoop. Així doncs, totes aquestes noves càrregues de treball analítiques han afegit noves plataformes, noves plataformes d’emmagatzematge, al panorama analític. Així, en lloc de tenir només magatzems de dades tradicionals, marts de dades, el que tenim ara és Hadoop. Tenim bases de dades NoSQL, com bases de dades gràfiques que s'utilitzen sovint per a càrregues de treball analítiques. Per descomptat, ara podem fer anàlisis de gràfics a la mateixa Hadoop, així com en un SGBD de gràfics NoSQL. Robin té una anàlisi de transmissió que va mencionar Robin. I també, si voleu, hem construït models, potser també en electrodomèstics de magatzem de dades analítiques. Però tot això ha complicat el paisatge analític, ara calen múltiples plataformes. I suposo que per a qualsevol negoci amb una oficina central o una oficina central o finances, contractacions, recursos humans i algun tipus d’operacions, el repte és esbrinar quins projectes analítics s’associen a una escena tradicional de magatzem de dades. I, una vegada que saps que els projectes analítics s’associen a aquestes noves plataformes de dades grans i per on s’executa, saps, quina càrrega de treball analítica, però per no perdre de vista el negoci, en el sentit que ara, veuràs que és una combinació de grans. Projectes d’anàlisi de dades i tradicionals projectes d’emmagatzematge de grans dades que es necessiten junts per reforçar-se a l’interior del client o al voltant de les operacions, al voltant del risc o finançament o sostenibilitat. I, per tant, volem que tots aquests s’ajusten a les nostres prioritats estratègiques de negoci, que seguim al bon camí, ja sabeu, empènyer les agulles que cal empènyer, ja sabeu, per millorar el rendiment empresarial, reduir el cost, per reduir riscos, etc., ja ho sabeu, per a la nostra empresa en general. Per tant, no és que un substitueixi l’altre aquí per dades grans i tradicionals. S'utilitzen tots dos. I això canvia dramàticament l’arquitectura, ja ho sabeu.

Per tant, el que tinc aquí és una arquitectura relativament nova que utilitzaré amb els meus clients. I així, com podeu veure ara a la part inferior, una àmplia gamma de fonts de dades, no només estructurades. Alguns d’aquests transmeten dades en directe com a sensors, com les dades dels mercats, d’aquest tipus de coses. Fins i tot es podria tractar de dades en directe del clic. Es podrien tractar dades de transmissió de vídeo en directe. De manera que no s'havia d'estructurar. Així doncs, podem fer un tractament de flux d’aquestes dades per dur a terme accions automàtiques en temps real, i qualsevol dada d’interès es podria filtrar i passar a una eina de gestió de la informació empresarial que es pot utilitzar per poblar els magatzems de dades analítiques. Si no es pot veure a la barreja aquí, ara disposem de bases de dades d’emmagatzematge de dades tradicionals, bases de dades Hadoop i NoSQL. També tenim una gestió de dades magistral a la combinació. I això fa més pressió a tota la suite d’eines de gestió de dades, no només per poblar aquestes botigues de dades sinó per moure dades entre elles.

A més, hem de simplificar les eines d’accés. No només podem dirigir-nos a l'usuari i dir: "Obteniu tots aquests magatzems de dades, manteniu aquests APIs: el vostre problema". El que heu de fer és simplificar l’accés. Per tant, a les línies puntejades que hi ha, veureu que la virtualització i l’optimització de les dades amaguen la complexitat de l’emmagatzematge de dades múltiples, proveu i faciliti l’accés als usuaris finals. I, per descomptat, hi ha una varietat d’eines a la part superior, ja ho sabeu, tot, des d’eines tradicionals de BI que han començat a la part superior del magatzem de dades, passant progressivament cap a l’esquerra del vostre gràfic per connectar-vos a l’Hadoops. i després bases de dades NoSQL del món.

Tenim cerques per obtenir un nou contracte de vida a les dades particularment estructurades i no estructurades del cos, que sovint s’emmagatzemen a Hadoop. Tenim aplicacions analítiques personalitzades que es poden fer en una plataforma Hadoop amb MapReduce, per exemple, el marc de Spark, per exemple. Comptem amb eines d’anàlisi del gràfic per tal de centrar-nos en càrregues de treball molt específiques. Per tant, una varietat d’eines i els fluxos de dades també són més complexes. Ja no és només un carrer unidireccional al magatzem de dades. Ara és ara les dades mestres, per descomptat.

Ja tenim fonts de dades noves, ja sigui capturades a NoSQL, ja sabeu, botigues de dades com MongoDB, com Cassandra, com HBase. Ens han introduït dades directament a Hadoop per analitzar-les i preparar-les. Tenim informació nova sobre Hadoop i els magatzems de dades. Tenim un arxiu que surt dels magatzems de dades a Hadoop. Ara, ja hem entrat a les fonts de dades, a totes les bases de dades NoSQL i als marts de dades. Per tant, el que podeu veure aquí és que hi ha molta més activitat en gestió de dades. I vol dir que sotmet una pressió considerable al programari de gestió de dades. Ja no és només un carrer unidireccional. És un moviment de dades bidireccional. Es fa molta més activitat i, per tant, és important l’escalabilitat tant al front de l’eina de gestió de dades com a l’origen de les dades.

Així doncs, aquest gràfic es remunta a l'arquitectura que vaig esmentar fa un moment. Us mostra les diferents càrregues de treball analítiques que s’executen en diferents parts d’aquesta arquitectura. A la part inferior de l’esquerra que hi ha, teniu en temps real la reproducció en temps real, el processament de flux continuant amb les dades que sortiran, ja se sap, de qualsevol tipus de magatzem de dades en directe. Tenim anàlisis de classe a bases de dades de gràfics NoSQL. També pot passar a Hadoop. Amb el marc de Spark, per exemple, i GraphX allà, hem obtingut una anàlisi investigadora i la refineria de dades de què estava parlant Robin a Hadoop. Ja tenim càrregues de treball tradicionals i emmagatzematge de dades, ja sabeu, els usuaris de la generació de models estadístics i predictius, potser en aparells de magatzem de dades. Encara estem intentant simplificar l’accés a tot això per facilitar als usuaris finals.

Per tant, l'èxit en tota aquesta configuració és més que una part analítica. Ja sabeu, podem posar en marxa les plataformes analítiques, però si no podem capturar i ingerir, ja sabeu, dades d’alta velocitat i alt volum, a l’escala, no hi ha gaire sentit. Ja ho sabeu, no tinc res a analitzar. Per tant, l'èxit d'analítica de dades gran requereix sistemes operatius per ampliar-los. Això vol dir, per poder suportar noves transaccions, ja sabeu, els màxims. Ja sabeu, les dades no transaccionals que es capturen podrien ser, ja ho sabeu, unes taxes d’arribada noves molt altes, taxes d’arribada molt elevades en dades d’alta velocitat com els sensors o qualsevol ingestió. Hem de ser capaços d’atendre tot això, per poder capturar aquest tipus de dades i aportar-les per analitzar-les. També hem de dimensionar les pròpies analítiques, simplificar l’accés a dades que ja he esmentat. I després, lliga això. Ja ho sabeu, hem de ser capaços de tornar-nos a aquells sistemes operatius per donar-li un bucle tancat.

Així doncs, escalar el costat operatiu de la casa per capturar dades, ja sabeu, s’endinsa en el món de la base de dades NoSQL. Vull dir, aquí veieu cinc categories de base de dades NoSQL. Aquesta categoria es modelarà sent una combinació de les altres quatre anteriors. En general, ja sabeu, els seus valors clau, els documents emmagatzemats i les bases de dades de famílies de columnes (les tres primeres que hi ha) que s’utilitzen per obtenir més tipus de dades transaccionals i no transaccionals.

Algunes d’aquestes bases de dades admetent com a propietats; alguns no. Tanmateix, ja ho sabeu, estem veient la introducció d'aquestes per escalar aquest tipus d'aplicacions. I, per exemple, ja que ens hem allunyat dels empleats que realitzen transaccions en els teclats per als clients i les masses que utilitzen nous dispositius per poder fer-ho. S'ha vist un gran increment en el nombre de transaccions amb empreses. Per tant, hem de dimensionar les aplicacions transaccionals per fer-ho.

Ara, en general, es pot fer en bases de dades de NewSQL com a base de dades relacional com NuoDB i VoltDB que es mostra aquí. O algunes de les bases de dades NoSQL que potser són compatibles amb propietats ACID que poden garantir el processament de transaccions poden estar en joc. Això també s'aplica a les dades no transaccionals, com ara les dades del carretó de la compra abans d'una transacció, ja ho sabeu, ja que perdo una lectura del sensor entre centenars de milions de lectures de sensors. No és un gran problema. Ja heu de fer clic, al món dels clics, si faig clic, no és gran cosa.Així que, ja sabeu, no necessitem necessàriament tenir propietats ACID allà, i és que sovint hi ha en joc les bases de dades NoSQL, hi havia, que era capaç de fer processos molt elevats i adequats a escala per capturar aquest nou tipus de dades.

Al mateix temps, volem que les analítiques facin escala. I, per tant, tirar les dades dels magatzems de dades a les plataformes analítiques ja no la piratejarà perquè les dades són massa grans. El que volem realment és empènyer les analítiques d’una altra manera, cap al magatzem de dades empresarial a Hadoop, cap al processament de flux per poder empènyer les analítiques a les dades. Tanmateix, només perquè algú digui que es troba en analítiques de bases de dades o en analítiques Hadoop no vol dir necessàriament que les analítiques es facin en paral·lel. I, francament, si invertireu en aquestes noves tecnologies escalables massivament paral·leles, com Hadoop, com els electrodomèstics i el que no és, com els motors de processament de flux en cluster, necessitem que les analítiques funcionin en paral·lel.

Per tant, només serà la sortida. Ja sabeu, si disposem d’analítiques per ajudar a predir coses per als clients, per a operacions, per a risc, etc., volem que funcionin en paral·lel, no només que s’executin a la plataforma. Volem tots dos. I és que, ja ho sabeu, la tecnologia també és com aquestes noves eines de descobriment visual, com SAS. És un dels nostres patrocinadors.

Una cosa el que vol la gent és, com a mínim, explotar els que hi ha a Hadoop i, a continuació, en les analítiques de bases de dades. I volem que funcionin en paral·lel per poder oferir el rendiment necessari en volums tan elevats de dades. Al mateix temps, intentem simplificar l'accés a tot això. Així doncs, SQL torna a estar a l’agenda. Ja ho sabeu, SQL és: SQL a Hadoop està en calent ara mateix. Ho faig un seguiment en 19 iniciatives SQL i Hadoop ara mateix. A més, podeu veure, podem obtenir aquestes dades, ja ho sabeu, de diverses maneres de manera que accedint directament a SQL al propi Hadoop, puguem anar a SQL a un índex de cerca. D’aquesta manera, com per exemple, alguns dels proveïdors de cerca d’aquest espai, podem tenir accés SQL a bases de dades relacionals analítiques que tinguin taules Excel a Hadoop.

Ara podem tenir accés SQL a un servidor de virtualització de dades que, a continuació, es pot connectar a un magatzem de dades d’Hadoop. Encara estic començant a veure l’aparició d’accés SQL a dades de transmissió en directe. Així doncs, l'accés SQL a tot això està creixent ràpidament. I una part del repte és, només perquè allà s’està comercialitzant l’accés SQL. La pregunta és: SQL pot tractar dades complexes? I això no és necessàriament senzill. Aquí hi ha tot tipus de complicacions, inclòs el fet que es podrien nidificar les dades de JSON. Podem tenir registres de variants d’esquema. Per tant, el primer disc té un esquema. El segon disc té un esquema diferent. Aquestes coses són molt diferents del que passa en un món relacional.

Per tant, hem de fer preguntes sobre quin tipus de dades tractem d’analitzar i quines són les característiques analítiques. Ja sabeu que és el tauler que voleu fer? És l'aprenentatge automàtic? És anàlisi de gràfics? Podeu fer-ho des de SQL? Ja ho sabeu, això és invocable des de SQL? Quants usuaris concurrents hem de fer això? Ja ho sabeu, tenim centenars d’usuaris concurrents. És possible sobre dades complexes? Ja ho sabeu, tot això són qüestions clau. Per tant, he fet una llista d'alguns que crec que hauríeu de tenir en compte. Ja sabeu, quin tipus de formats de fitxers? De quin tipus de dades parlem? Quin tipus de funcions analítiques podem invocar des de SQL per obtenir dades complexes? I el tipus de funcions funcionen en paral·lel. Vull dir, han de funcionar en paral·lel si hem de poder escalar-ho. Puc unir dades a Hadoop avui fora, ja ho sabeu, o això no es pot fer? I què faré amb tots aquests diferents tipus de càrregues de treball de consulta?

I, com veurem, ja sabeu, pel que he vist, hi ha moltes diferències entre la distribució SQL i Hadoop. Aquests són els que faig un seguiment. I, per cert, això és un simple SQL a Hadoop. Ni tan sols inclou la virtualització de dades en aquest moment. Per tant, hi ha molt espai per consolidar-se, que crec que passarà durant el proper any, divuit mesos més o menys. Però també obre una altra cosa, que és que puc tenir motors SQL potencialment múltiples en les mateixes dades a Hadoop. I això és una cosa que no podríeu fer de manera relacional.

Per descomptat, això vol dir que heu de saber, quin tipus de càrrega de treball de consulta estic executant? Hauria d'executar això per lots en una determinada SQL per iniciativa Hadoop? Haig de executar càrregues de consulta interactives mitjançant una altra SQL de la iniciativa Hadoop, etc., de manera que sé a quina connexió? L’ideal seria que, per descomptat, no ho hauríem de fer. Hauríem de fer una pregunta sobre això. Ja sabeu, alguns optimitzadors calculen la millor manera de fer-ho. Però a la meva opinió encara no hi som del tot.

Però tanmateix també, la virtualització de dades, que he esmentat anteriorment, té un paper molt important per simplificar l’accés a diversos magatzems de dades. I si creem noves visions sobre Hadoop, és certament plausible per a nosaltres unir-nos a aquestes dades a dades i a magatzems de dades tradicionals mitjançant la virtualització de dades, per exemple, sense traslladar necessàriament les dades de Hadoop als magatzems de dades tradicionals. Per descomptat, també ho podeu fer. També és plausible si arxivo dades de magatzems de dades tradicionals a Hadoop. Encara puc contactar-hi i unir-me a les coses que hi ha al nostre magatzem de dades per a la virtualització de dades. Així, per a mi, crec que la virtualització de dades té un gran futur en aquesta arquitectura global i en simplificar l’accés a tots aquests magatzems de dades.

I no oblidem que quan creem aquests coneixements nous, ja siguin de sistemes relacionals o noSQL, encara volem tornar a aportar aquestes dades a les nostres operacions, de manera que puguem maximitzar el valor del que hem trobat, de manera que puguem aprofitar per obtenir decisions més efectives i oportunes en aquest entorn per optimitzar el nostre negoci.

Aleshores, per concloure, el que estic veient és que necessitem, ja ho sabeu, noves fonts de dades. Si voleu, tenim noves plataformes amb una arquitectura més complicada. I Hadoop es converteix en molt, molt important, suficient per a la preparació de dades per a les nostres caixes de sorra líquides, per a la consulta d’arxius, arxiu des de magatzem de dades, gestió de dades que s’estén les seves ales per anar més enllà del magatzem de dades en la gestió de dades a totes aquestes plataformes i noves eines per ser. capaç d’analitzar i accedir a dades d’aquests entorns, poder disposar de tecnologies escalables per fer una ingestió millor de les dades i escalar les analítiques pressionant-les cap avall cap a les plataformes per fer-les més paral·leles. I, esperem, també per simplificar l’accés a tot això mitjançant l’emergent SQL que arriba a la part superior. Per tant, us dóna una idea de quin lloc ens dirigim. Aleshores, amb això, passaré, Eric, ara?

Eric: Està bé, és fantàstic. I és que he de dir que, entre allò que acabes d’obtenir de Robin i Mike, probablement sigui una visió general tan completa i concisa de tot el paisatge, com veureu en qualsevol lloc. Permetin-me avançar i fer cua a George Corugedo primer. I hi és. Permeteu-me prendre un instant ràpid. D'acord, George, estic a punt de lliurar-vos les claus i emportar-les. El pis és teu.

George: Genial! Moltes gràcies, Eric, i gràcies, Rob i Mike. Aquesta va ser una gran informació i molta quantitat. Per tant, tornant a la discussió de Robin, perquè, ja ho sabeu, no és casualitat que RedPoint estigui aquí i que SAS sigui aquí. Com que RedPoint, realment ens centrem en les seves dades en la governança, el processament de les dades i la preparació per a l’ús en analítica. Per tant, deixa'm barbar a través d'aquestes dues diapositives. I parlem de debò i recopilem el punt de Robin sobre MDM i com d’important és, i com d’utilitat crec, i pensem, que Hadoop pot estar al món de la MDM i la qualitat de les dades.

Ja sabeu, Robin parlava una mica, ja sabeu, com es relaciona això amb el món del magatzem de dades empresarials i jo, ja ho sabeu, he passat uns anys a Accenture. I el que era interessant és quantes vegades vam haver d’entrar en empreses i intentar esbrinar què fer amb el magatzem de dades que bàsicament s’havia abandonat. I moltes coses van succeir perquè l’equip de magatzem de dades no va alinear realment la seva creació ni als usuaris del negoci ni als consumidors de les dades. O bé, només va trigar tant de temps que en el moment en què van crear la cosa, l'ús de l'empresa o la raó de negoci per a la seva evolució.

I una de les coses que crec que em fa molta il·lusió, la idea d’utilitzar Hadoop per a la gestió de dades mestres, per a la qualitat de les dades i per a la preparació de dades, és el fet que sempre es pot tornar a les dades atòmiques en un Llac de dades Hadoop o dipòsit de dades, o dipòsit de dades, o hub, o qualsevol que sigui la forma de buzz que voleu utilitzar. Però com que sempre manteniu aquestes dades atòmiques, sempre teniu l'oportunitat de posar-vos en línia amb els usuaris del negoci. Perquè, com a analista –perquè realment vaig començar la meva carrera d’estadístic–, ja ho sabeu, res no és pitjor que, ja ho sabeu, els magatzems de dades empresarials són meravellosos per conduir els informes, però si voleu fer analítiques realment predictius, ho són. Realment no és tan útil, perquè el que realment voleu són les dades de comportament granulars que, d’alguna manera, es van resumir i agrupar al magatzem de dades. Per tant, crec que realment és una característica important, i una cosa que crec que podria estar en desacord amb Robin, és que jo personalment deixaria dades al llac de dades o al centre de dades el màxim temps possible, perquè les dades hi són i són netes, es pot mirar des d'una direcció i una altra direcció. Podeu combinar-ho amb altres dades. Sempre teniu l'oportunitat de tornar-hi i reestructurar-vos i, a continuació, alinear-vos amb una unitat de negoci i amb la necessitat que pugui tenir aquesta unitat.

Una de les altres coses interessants sobre això és que com que és una plataforma informàtica tan potent, molta càrrega de treball que hem estat parlant, ho veiem tot directament a Hadoop. I, mentre crec, Mike parlava de totes les diferents tecnologies que hi ha al món - en aquest tipus d’ecosistemes de dades grans, pensem que l’Hadoop és realment el punt de treball per fer aquesta gran escala en processament computacionalment intensiu que les dades principals i la qualitat de les dades requereixen. Perquè si ho podeu fer allà, ja sabeu, l'única economia de la transferència de dades de les vostres bases de dades cares i a les bases de dades econòmiques, això realment impulsa una gran part de l’aprofitament ara mateix a les grans empreses.

Ara, per descomptat, hi ha alguns reptes, oi? Hi ha reptes al voltant de les tecnologies. Molts d’ells són molt immadurs. Vaig a dir, ja ho sabeu, no sé quantes, però algunes tecnologies que menciona Mike segueixen sent llançades per punts zero, oi? Així doncs, aquestes tecnologies són molt joves, molt immadures, encara basades en codis. I això realment crea un repte per a les empreses. I realment ens centrem en la resolució de problemes a nivell d’empresa. Així doncs, pensem que hi ha d’haver una manera diferent, i això és el que proposem és una manera diferent de fer algunes coses a l’hora d’utilitzar algunes d’aquestes tecnologies tan incipients.

I, doncs, i l’altra qüestió interessant aquí, que s’ha esmentat anteriorment, és que, quan teniu dades que esteu captant en un entorn Hadoop de qualsevol tipus, ja sabeu, normalment es tracta d’esquema en lectura en lloc d’esquema en escriptura. amb algunes excepcions. I aquesta lectura, molts ho estan fent estadístics. I així, els estadístics han de disposar d’eines que els permetin estructurar adequadament les dades amb finalitats analítiques, ja que al final del dia, per fer útils les dades, s’ha d’estructurar d’alguna forma per veure’n alguna o respondre a una pregunta o una empresa, algun tipus de negoci, crea valor empresarial.

Per tant, és on tenim una aplicació de gestió de claus i EPL molt basada i madura, de gran amplitud i madura. Porta al mercat des de fa molts anys. I té tota la funcionalitat o gran part de la funcionalitat que Robin enumerava en aquest gràfic circular: tot, des de només captar dades brutes pures en tota una varietat de formats i estructures XML i què no, fins a la capacitat de fer totes les netejes, finalització de les dades, correcció de dades, bits bàsics geospatials de les dades. Això és una cosa que cada vegada és més important amb la Internet of Things. Ja sabeu, hi ha una geografia associada a gran part del que fem o a moltes de les dades. Així doncs, tot el que es realitza a la nostra plataforma es tracta de l'analisi, la tokenització, la neteja, la correcció, el format, l'estructuració, etc.

I llavors, i potser, pensem que el més important és la idea de la deduplicació. Ja sabeu, bàsicament, si mireu qualsevol definició de gestió de dades mestres, el nucli principal és la deduplicació. És capaç d'identificar entitats de diferents fonts de dades i, a continuació, crear un registre principal per a aquesta entitat. I aquesta entitat podria ser una persona. L’entitat podria ser part d’un avió, per exemple. L’entitat podria ser un aliment com ho havíem fet per a un dels nostres clients del club de salut. Els hem creat una base de dades de menjar principal. De totes maneres, siguin quines siguin les entitats amb les quals estem treballant, i per descomptat, cada cop hi ha més persones i representants per les seves identitats, que són coses com les nanses o els comptes socials, siguin quins siguin els dispositius associats a la gent, algunes coses com els cotxes i telèfons i qualsevol cosa que puguis imaginar.

Ja sabeu, estem treballant amb un client que està posant tota mena de sensors a la roba esportiva. Així doncs, les dades provenen de totes direccions. I d’una manera o altra, és una reflexió o representació de l’entitat principal. I cada cop més, això és la gent i la capacitat d’identificar les relacions entre totes aquestes fonts de dades i com es relacionen amb aquesta entitat principal i, a continuació, poder fer un seguiment d’aquella entitat bàsica amb el pas del temps perquè pugueu analitzar i comprendre els canvis entre aquesta entitat. i tots aquells altres elements que formen part de les representacions d'aquesta entitat, una crítica realment per a l'anàlisi a llarg termini i longitudinal de les persones, per exemple. I aquest és realment un dels beneficis realment importants que, crec, les grans dades ens poden aportar és entendre molt millor les persones i, a llarg termini, entendre els coneixements i el comportament de les persones quan es comporten a través de quins dispositius, etc. .

Per tant, deixa'm passar aquí ràpidament. Eric va esmentar YARN. Ja ho sabeu, ho faig només per una estona, ja que mentre el YARN, la gent parla de fil. Crec que encara hi ha molta ignorància sobre el FIL. I realment no molta gent, encara hi ha molta incomprensió sobre el fil. I el cas és que si la vostra aplicació ha estat arxivada de la manera correcta, i té un nivell o una paral·lelització adequades en l'arquitectura d'aplicacions, podeu aprofitar YARN per utilitzar Hadoop com a plataforma d'escala. I això és exactament el que hem fet.

Ja sabeu, una vegada més, només assenyalar algunes de les definicions al voltant de YARN. A nosaltres, realment el que YARN ens ha permès a nosaltres i a altres organitzacions convertir-nos en parells de MapReduce i Spark, i totes les altres eines que hi ha. Però el cas és que les nostres aplicacions condueixen codi optimitzat directament a YARN a Hadoop. I hi ha un comentari realment interessant que Mike ha esmentat, perquè, ja ho sabeu, la pregunta sobre les analítiques i les nostres analítiques, només perquè estan al clúster, realment funcionen en paral·lel? Podeu fer la mateixa pregunta sobre moltes eines de qualitat de les dades que hi ha.

La majoria dels dies, les eines de qualitat que hi ha, o bé, han de treure les dades o bé empenyen el codi. I, en molts casos, es tracta d’un únic flux de dades que s’està processant a causa de la manera com cal comparar registres, de vegades en tipus d’activitats de qualitat de dades. I el cas és que, perquè utilitzem YARN, hem pogut aprofitar realment la paral·lelització.

I només per donar-vos una visió ràpida, perquè es fa un altre comentari sobre la importància de poder ampliar bases de dades tradicionals, bases de dades noves, etc., implementem o instal·lem fora del clúster. I empenyem els nostres binaris directament al gestor de recursos, YARN. I això, i llavors YARN, el distribueixen entre els nodes del clúster. I el que fa és que YARN: permetem a YARN gestionar i fer la seva feina, que és esbrinar on es troben les dades i portar el treball a les dades, el codi a les dades i no moure les dades. Quan escolteu eines de qualitat de les dades i us diuen que la millor pràctica és desplaçar les dades d’Hadoop, necessiteu la vostra vida, perquè no és així com és. Voleu portar el treball a les dades. I això és el que fa YARN primer. Porta els nostres binaris als nodes on resideixen les dades.

I també perquè estem fora del clúster, també podem accedir a totes les bases de dades tradicionals i relacionals, de manera que podem tenir feines 100% servidor client en una base de dades tradicional, treball 100% Hadoop o treballs híbrids que passen pel servidor client Hadoop. , Oracle, Teradata, tot el que vulgueu i tots teniu el mateix treball, perquè aquesta implementació pot accedir a les dues parts del món.

I després, tornant a la idea sencera de la naixença de les eines, veieu aquí, això és només una representació senzilla. I el que intentem és simplificar el món. I la nostra manera de fer-ho és aportant un conjunt molt ampli de funcionalitats al voltant de HDFS per aconseguir-ho ... I no és perquè estem intentant eliminar totes les tecnologies innovadores que hi ha. Les empreses només necessiten estabilitat i no els agraden les solucions basades en codis. Per tant, el que intentem és proporcionar a les empreses un entorn d’aplicació familiar, repetible i coherent que els permeti construir i processar dades d’una manera molt previsible.

Ràpidament, aquest és el tipus d’impacte que obtenim amb la nostra aplicació. Veieu MapReduce vs. Pig vs. RedPoint: no hi ha línies de codi a RedPoint. Sis hores de desenvolupament a MapReduce, tres hores de desenvolupament a Pig, i 15 minuts de desenvolupament a RedPoint. I aquí és on realment tenim un impacte enorme. El temps de processament també és més ràpid, però el temps de gent, el temps de productivitat de la gent, augmenta significativament.

I la meva diapositiva final aquí, vull tornar a aquesta idea, perquè es tracta d’utilitzar un llac de dades o un centre de dades, o una refineria de dades com a punt central d’ingestió. No podria estar més d'acord amb aquesta idea. I actualment estem en discussions amb molts dels principals responsables de dades dels principals bancs mundials, i aquesta és l’arquitectura que tria.La ingestió de dades de totes les fonts fa el processament de la qualitat de les dades i la gestió de dades magistrals dins del llac de dades i, a continuació, empenyen les dades cap a on cal dirigir-se a les aplicacions de suport, per donar suport a la BI, sigui quin sigui el cas. A continuació, si teniu analítiques en BI, poden funcionar directament dins del llac de dades, on és millor, que pot començar immediatament. Però molt a bord amb aquesta idea. Aquesta topologia aquí és la que és que trobem que està guanyant molta tracció al mercat. I ja està.

Eric: D'acord, bé. Anem aquí mateix. La seguiré i li lliuraré a Keith. Keith, tens uns 10 i 12 minuts per penjar la casa aquí. Vam aprofitar per anar una mica llarg en aquests espectacles. I vam anunciar 70 minuts per aquest. Per tant, només cal que aneu endavant i feu clic a qualsevol lloc de la diapositiva i utilitzeu la fletxa cap avall i la traieu.

Keith: Segur. No hi ha cap problema, Eric. Ho aprecio. Passaré endavant i colpejaré només un parell de peces sobre SAS, i em traslladaré directament a les arquitectures tecnològiques d’on SAS s’entrecreua amb el món de les grans dades. Hi ha moltes coses a explicar en tot això. Podríem passar-hi hores passant-ho amb molt de detall, però deu minuts, hauríeu de ser capaços d’allunyar-vos només amb una breu comprensió d’on SAS ha introduït les tecnologies d’analítica, de gestió de dades i d’intel·ligència empresarial en aquest gran món de les dades.

Primer, només una mica sobre SAS. Si no coneixeu aquesta organització, des de fa 38 anys hem estat fent analítica avançada, intel·ligència empresarial i gestió de dades, no només amb dades grans, sinó petites dades i riquesa de dades durant els últims 38 anys. Tenim un enorme peu de client existent, al voltant de 75.000 llocs de tot el món, que treballen amb algunes de les organitzacions més importants que hi ha. Som una organització privada amb uns 13.000 empleats i uns 3.000 milions de dòlars d’ingressos. I, realment, suposo que la part important és que, tradicionalment, hem tingut una llarga història de reinvertir quantitats importants dels nostres ingressos a la nostra organització d'R + D, que ha portat a suportar moltes d'aquestes increïbles tecnologies i plataformes. tornaré a veure avui.

Per tant, vaig a entrar directament a aquests diagrames d’arquitectura realment espantosos. Treballarem d'esquerra a dreta a les meves diapositives. Per tant, hi ha coses familiars que veureu dins d'aquesta plataforma. Al costat esquerre, totes les fonts de dades que parlem d’ingerir en aquestes plataformes de dades grans. Llavors, teniu aquesta plataforma de dades gran.

No he acabat de posar la paraula Hadoop a la part superior, perquè, en definitiva, els exemples que faré avui es refereixen específicament a totes les tecnologies on ens intersectem amb aquestes plataformes de dades grans. Hadoop només és una de les que tenim algunes de les opcions de desplegament més robustes, però també ens interseccionem força i hem desenvolupat moltes d’aquestes tecnologies des de fa temps amb alguns dels nostres socis de magatzem de dades empresarials com Teradata, Oracle, Pivotal i similars. Per tant, no puc entrar en detalls excel·lents sobre les diferents tecnologies que s’admeten a la plataforma, però només estic segur que totes les que descric avui són principalment totes aquelles que Hadoop i una gran quantitat d’elles s’entrecreuen amb altres socis tecnològics que tenim. Així, tenim aquesta plataforma tan gran asseguda.

La següent a la dreta, tenim el nostre servidor analític SAS LASR. Ara, això fonamentalment, és un servidor massiu en aplicacions analítiques de memòria. Tindrem clar que no és una base de dades a la memòria. Està realment dissenyat des de la base. No es tracta del motor de consulta, sinó que està dissenyat per atendre les sol·licituds analítiques a escala massiva de manera massiva en paral·lel. Per tant, aquestes són les aplicacions clau del servei que veieu a la part dreta.

Anem a aprofundir en una mica més sobre com, ja ho sabeu, com la gent desplega aquestes coses. Però, fonamentalment, l’aplicació -hi veieu allà- la primera, és la nostra analítica d’alt rendiment SAS. Això serà: estic utilitzant moltes de les nostres tecnologies i plataformes existents com Enterprise Miner o simplement un SAS, i no només fer multithreading amb alguns d’aquests algorismes que hem integrat en aquestes eines per les quals anys, però també per paral·lelar massivament aquells. Així doncs, per traslladar les dades des d'aquesta plataforma de dades gran a l'espai de memòria a aquell servidor LASR Analític, de manera que puguem executar algoritmes analítics (ja sabeu, molts dels nous aprenentatges de màquines, xarxes neuronals, regressions forestals aleatòries, aquest tipus de coses, de nou, les dades assegudes a la memòria. Així, alliberar-nos d’aquest determinat coll de paradigma MapReduce on ens presentem a aquestes plataformes, no és la manera de fer treball analític. Per tant, volem poder pujar les dades un cop a l’espai de la memòria i iterar-lo a través d’ella, ja ho saps, de vegades milers de vegades. Per tant, aquest és el concepte d'utilitzar aquest servidor LASR Analític d'alt rendiment.

També, les altres aplicacions que hi ha a sota, les analítiques visuals, que ens permeten persistir aquestes dades a la memòria i donar servei a una població més gran de les mateixes dades. Per tant, permetre a la gent fer exploracions de grans dades. Així doncs, abans de fer les funcions de desenvolupament de models, explorem dades, ho entenem, correlacionem, fem prediccions o actualitzem arbres de decisions (aquest tipus de coses), però d’una manera molt visual i interactiva sobre les dades que queden a la memòria. plataforma Això també proporciona serveis a la nostra comunitat de BI, fins i tot a tenir una base d'usuaris molt àmplia que puguin accedir a aquesta plataforma per fer tipus d'enregistrament estàndard que veuríeu, cosa que pràcticament qualsevol, ja sabeu, venedor de BI.

El següent pas, passem al servei. I per ajudar els nostres estadístics i els nostres analítics a poder fer aquest tipus de modelat ad-hoc amb dades assegudes a la memòria, eliminat d’analítica visual i exploració a la nostra aplicació d’estadístiques visuals. Aquesta és una oportunitat perquè la gent pugui aprofitar, no fer publicacions estadístiques en lots que solien repetir, executar els models, veure els resultats. Per tant, per executar el model, consulteu els resultats. Es tracta d’arrossegar i deixar caure visualment al modelatge estadístic interactiu. Per tant, això dóna servei als nostres estadístics i als nostres científics de dades per fer una gran quantitat d'aquests primers treballs estadístics visuals d'exploració.

I després, no hem oblidat els nostres codificadors: la gent que realment vol tenir, ser capaç de pelar les capes de la interfície oposada, és escriure aplicacions i escriure la seva base de codi en SAS. I les nostres estadístiques de memòria per a Hadoop. I aquest és, essencialment, la capa de codi que ens va permetre interactuar amb aquell servidor LASR Analític per emetre ordres directament i personalitzar aquelles aplicacions en funció de la nostra sol·licitud. Aquesta és la peça analítica.

Com es configuren aquestes coses ... Sí, ho sento, nois. Allà anem.

Així que hi ha un parell de maneres de fer-ho. Una és fer-ho amb big data - en aquest cas, amb Hadoop. I aquí és on tenim aquest servidor SAS LASR Analytic que s’executa en un clúster separat de màquines optimitzades per a analítiques de hardcore. Està situat molt bé i proper a la plataforma de dades gran, el que ens permet escalar-la per separat de la plataforma de dades. Així doncs, veiem gent que fa això quan no volen tenir cap mena de coses que jo caracteritzen com un programari de vampirs que esmorza a cadascun dels nodes del seu clúster Hadoop. I no necessàriament escalan aquesta plataforma de dades gran adequada per fer analítiques de memòria elevades. Per tant, podeu tenir 120 nodes del seu clúster Hadoop, però poden tenir 16 nodes de servidors analítics dissenyats per fer aquest tipus de treball.

Ens permet mantenir aquest paral·lelisme des de la plataforma de dades gran per treure les dades a la memòria. Per tant, realment es tracta d'utilitzar SAS amb la plataforma Hadoop. Aleshores, un model de cita diferent és dir que, bé, podem utilitzar aquesta plataforma de productes bàsics i empènyer això, essencialment executar el servidor LASR Analític a les plataformes Hadoop. Per tant, és allà on estem ... operes a la plataforma de dades gran També són alguns dels altres venedors d'aparells. Per tant, això ens ha permès utilitzar bàsicament aquesta plataforma de productes bàsics per fer-ho.

Veiem que més sovint amb coses com ara analítiques d’alt rendiment on es tracta d’un tipus d’execució analítica d’un sol servei o d’un sol ús, més tipus d’orientació per lots, on no voleu consumir necessàriament l’espai de memòria d’Hadoop. plataforma Som molt flexibles en aquest tipus de model de desplegament, segurament treballant amb YARN en molts d’aquests casos per assegurar-nos que estem jugant a clústers agradables.

D’acord, així que és el món analític, només cal tenir-ho clar amb l’aplicació analítica. Però he esmentat que, al principi, SAS també és una plataforma de gestió de dades. I hi ha coses apropiades per impulsar la lògica a aquella plataforma, si escau. Per tant, hi ha un parell de maneres de fer-ho. Una es troba al món de la integració de dades; és possible que els treballs de transformació de les dades sobre les dades no tinguin sentit per retirar-los com ho havíem sentit abans, fent rutines de qualitat de dades que siguin importants. Volem impulsar definitivament coses com les rutines de qualitat de dades cap a aquesta plataforma. I després, coses com ara la puntuació de models. Per tant, he desenvolupat el meu model. No vull reescriure aquesta cosa a MapReduce i dificultar i tornar a fer aquest treball a la plataforma de bases de dades autòctona.

Així, si mireu, per exemple, el nostre accelerador de puntuació per a Hadoop, que ens permet bàsicament agafar un model i impulsar la lògica matemàtica SAS cap a la plataforma Hadoop i executar-la allà, fent servir el paral·lelisme que hi ha dins d'aquesta plataforma de dades. A continuació, disposem del nostre accelerador de codis per a diverses plataformes, inclosa Hadoop, i això ens permet executar bàsicament el codi de pas de dades SAS dins de la plataforma de manera massiva en paral·lel, de manera que es poden fer treballs de transformació de dades a la plataforma. Aleshores, el nostre accelerador de qualitat de dades SAS, que ens permet tenir una base de coneixement de qualitat asseguda allà, que pot fer coses com la concordança de gènere, el codi de coincidència de normalització: totes les diferents coses de qualitat de dades que ja heu sentit ja.

I després, l’última peça, hi ha el carregador de dades. Sabem que els nostres usuaris de negoci hauran de ser capaços de no poder escriure codi, si la transformació de dades funciona en aquestes plataformes de dades grans. Data Loader és una bonica GUI WYSIWYG que ens permet embolicar aquestes altres tecnologies. És com un assistent de recorregut, per exemple, executar una consulta Hive o executar una rutina de qualitat de dades i, en aquest cas, no haureu d'escriure codi.

L’última cosa que esmentaré és aquesta peça frontal. Tenim, com he dit anteriorment, un gran SAS a peu del món. I això, no podem fer necessàriament totes aquestes plataformes que hi hagi per estar en aquest espai immediatament. Així doncs, sens dubte tenim un peu d’usuaris existent que necessita una informació que s’assegui en aquestes plataformes de dades tan grans, com ara treure dades de Teradata i tornar a posar-lo a Hadoop, i viceversa. Ja faig funcionar els models que ja sé com executar als meus servidors SAS, però necessito obtenir dades que ara es col·loquen a la plataforma Hadoop. Així, hi ha aquesta altra petita icona anomenada "des", i que ens permet connectar-nos mitjançant els nostres motors d'accés SAS: motors d'accés a Hadoop a Cloudera a Pola, a Teradata, a Greenplum a ... I la llista continua. Això ens permet utilitzar les nostres plataformes SAS madures ja existents per obtenir dades d’aquestes plataformes, fer el treball que necessitem per fer, impulsar els resultats en aquestes àrees.

L’últim que faré esment és que totes aquestes tecnologies que veieu estan governades pel mateix metadat comú estàndard. Així doncs, parlem d’obtenir el treball de transformació, la regla de qualitat de les dades en el treball, traslladar-la a la memòria per poder fer analítiques, desenvolupar models en el puntatge. Tenim allà tot l’estil de vida analític, el cicle de vida està regit per metadades comunes, per govern, per seguretat, per totes les coses de què vam parlar abans.

Així que, només una recapitulació, hi ha realment aquestes tres coses importants. Una d’altres és que podem tractar la plataforma de dades igual que qualsevol altra font de dades, retirant-les i pressionant-les quan sigui adequat i convenient. Podem treballar amb aquestes plataformes de dades grans, llistant dades en una analítica avançada integrada a la plataforma de memòria. Llavors, aquest és el servidor LASR.

I, per últim, podem treballar directament en aquestes plataformes de dades grans, aprofitant les seves capacitats de processament distributiu sense moure les dades.

Eric: Bé, això és fantàstic. Sí, això és fantàstic! Per tant, anem a buscar algunes preguntes. Normalment passem uns 70 minuts o una mica més durant aquests esdeveniments. Així doncs, veig que encara tenim una gran audiència asseguda. George, suposo que us enviaré la primera pregunta. Si parleu d’empènyer el so binari a Hadoop, crec que això em sembla com si realment hàgiu optimitzat el flux de treball computacional. I aquesta és tota la clau per poder fer aquest tipus de governança de dades en temps real, assoliments d’estil de qualitat de dades, perquè és el valor que voleu obtenir, oi? Si no voleu tornar al vell món de la MDM, on és molt feixuc i requereix molt de temps, haureu de forçar la gent a actuar de certes maneres, cosa que gairebé mai funciona. De manera que el que heu fet és condensar el cicle del que va ser. Anomenem-ho dies, setmanes, de vegades fins i tot mesos fins a segons, oi? És el que passa?

George: És correcte, perquè l'escala que obtenim i el rendiment que obtenim d'un clúster són realment impressionants en termes de, només, ja ho sabeu, sempre estic dubtant sobre els criteris de referència. Però només per ordre de magnitud, quan executaríem mil milions, 1,2 mil milions de registres i faríem una estandardització completa d’adreces (estic dient màquina HP de gamma mitjana), necessitarien, com ho sabeu, vuit màquines de processador, ja ho sabeu? Ja sabeu que hi ha 2 programes de RAM per nucli, que trigarien 20 hores a funcionar. Ho podem fer en uns vuit minuts en un clúster de 12 nodes. Així doncs, la magnitud del processament que podem fer ara és tan dramàticament diferent que, i va molt bé amb la idea que teniu totes aquestes dades a la vostra disposició. Per tant, el processament no és tan arriscat. Si ho heu fet malament, podeu tornar a fer-ho. Ja tens temps, ja ho sabeu? Va canviar la magnitud d’això, en què, ja sabeu, aquest tipus de riscos es convertien en problemes reals de negoci per a les persones quan intentaven operar solucions MDM. Heu de tenir 30 persones fora del mar per fer govern de dades i tot. I, per tant, encara heu de tenir alguna cosa d’això, però la velocitat i l’escala amb què podeu processar-lo ara, realment, us proporciona molt més espai per respirar.

Eric: Sí, és un punt real, realment bo. M'encanta aquest comentari. Per tant, teniu el temps per tornar a fer-ho. Això és fantàstic.

George: Sí.

Eric: Bé, canvia la dinàmica, oi? Canvia com penses en què vas a provar. Vull dir, això ho recordo fa 18 anys a la indústria de fer efectes especials, perquè tenia un client que es trobava en aquest espai. I premeu els botons per mostrar-lo i us n'aniríeu cap a casa. Ja hi haureu tornat, potser dissabte a la tarda, per veure com anava. Però, si us heu equivocat, era molt, molt, molt dolorós. I ara, no és gairebé, ni tan sols és tan dolorós, així que teniu l'oportunitat de provar més coses. He de dir, crec que és un punt real, realment bo.

George: Això és correcte. Sí, i bufes la cama extra. Ja ho sabeu, aconseguireu la meitat de la feina en els vells temps i fracassa, heu explotat el vostre SOS. Això és.

Eric: És cert. I tens un gran problema, sí. És correcte.

George: És correcte. És correcte.

Eric: Keith, deixa’m tirar-ne una. Recordo que vaig fer una entrevista amb el vostre CIL, Keith Collins, crec, potser, potser, penso, el 2011. I va parlar molt sobre la direcció que SAS estava prenent específicament pel que fa a treballar amb els clients per incorporar les analítiques derivades de SAS als sistemes operatius. I, per descomptat, vam escoltar a Mike Ferguson parlar de la importància de recordar. Tota la idea aquí és que voleu poder lligar aquestes coses a les vostres operacions. No desitgeu que es faci l'anàlisi en un buit desconnectat de l'empresa. Això no té cap valor.

Si voleu anàlisis que puguin impactar i optimitzar directament les operacions. I si miro enrere - i he de dir, em sembla que és una bona idea en aquell moment - sembla una idea real, realment intel·ligent en retrospectiva. I suposo que aquest és un avantatge real. I, per descomptat, aquest gran llegat, aquesta enorme base d’instal·lació i el fet que us heu centrat a incrustar aquestes analítiques en sistemes operatius, cosa que significa que ara, i concedit, us caldrà una mica de feina - estic segur que Hi he estat treballant força. Però ara, podeu aprofitar totes aquestes novetats i realment podreu operar amb els vostres clients tot allò que estigueu fent. És una avaluació justa?

Keith: Sí, absolutament. El concepte és que tingueu aquesta idea de disseny de decisions o de ciències de la decisió, que és, ja sabeu, fins a cert punt que és una exploració, una ciència i una mena de coses. A no ser que puguis fer enginyeria en aquest procés de debò ... Si penses en desenvolupar un cotxe, tens dissenyadors que fan aquest cotxe tan bonic, però no és fins que els enginyers posin en marxa aquest pla i facin un producte viable abans que tu. en realitat pot posar les seves coses i això és bàsicament el que ha fet SAS. Ha fusionat les decisions: el procés de disseny de decisions amb el procés d’enginyeria de decisions, de manera que, quan parleu dels acceleradors, els acceleradors de puntuació específicament, ja sabeu, si agafeu un model que vau desenvolupar i pugueu eliminar-lo. a Teradata o envieu-lo cap a Oracle o a Hadoop, amb temps d'inactuació zero per al desenvolupament de models, al desplegament del model. Aquesta és la clau, perquè els models es degraden amb el pas del temps, la precisió d'aquests models. Per tant, més temps trigueu a agafar-lo i a produir-lo, és a dir una pèrdua de precisió del model.

I, l’altra peça és, voleu poder supervisar i gestionar aquest procés al llarg del temps. Voleu desaprofitar els models quan es fan vells i imprecisos. Voleu mirar-ho, comprovar-ne la precisió amb el pas del temps i reconstruir-les. I, per tant, tenim eines de gestió de models que se situen a sobre, també, que realment fan un seguiment dels metadades al voltant del procés modelat. I la gent ha dit que el modelisme, ja ho sabeu, és un tipus de concepte com una fàbrica de models o com es vulgui anomenar. El cas és que està posant en marxa metadades i gestió i és allà on són les tres grans coses que afectem: ajudem a la gent a guanyar diners, a estalviar diners i a mantenir-los fora de la presó.

Eric: L’últim també és bastant gran. Estic buscant per evitar tot això. Parlem, doncs, de ...Estic donant una última pregunta, potser tots dos podreu saltar sobre això. L’heterogeneïtat del nostre món només augmentarà, em sembla. Crec que sens dubte veurem certa cristal·lització al voltant d’entorns de núvols híbrids. Tanmateix, veureu que molts dels principals jugadors s’enganxen. IBM no va enlloc. Oracle no va enlloc. SAP no va enlloc. I hi ha tants altres venedors que participen en aquest joc.

També, al costat operatiu, en què teniu literalment milers i milers de diferents tipus d'aplicacions. I vaig sentir-ho: la majoria de vosaltres parleu d’això, però crec que tots dos estaríeu d’acord amb el que he dit. Ja hem vist aquesta tendència en termes de potència computacional només en motors analítics, arquitectura. Les companyies parlen des de fa anys sobre poder connectar als altres motors que hi ha fora i donar servei a una mena de punt d’orquestració. I suposo que, George, us ho llançaré primer. Em sembla que no canviarà cap cosa. Tindrem aquest entorn heterogeni que significa que hi ha coses com ara CRM en temps real i qualitat de dades i govern de dades. Vostè necessitarà, com a venedor, la interfície amb totes aquestes eines diferents. I això és el que volen els clients. No voldran alguna cosa que ho faci bé amb aquestes eines, ni tan bé amb aquestes eines. Volran que la Suïssa de MDM i CRM, oi?

George: És correcte. I és interessant, perquè ho hem adoptat molt. Una part és la història que teníem a l’espai. I, òbviament, ja estàvem treballant en la resta de bases de dades, les teradatas i les peces del món. I, a continuació, heu realitzat el procés –en el procés d’implementació, concretament de la manera que ho fèiem nosaltres–, que tingueu aquesta extensió a través de totes aquestes bases de dades. Una de les coses que em sembla interessant és que, sí, tenim alguns clients que només es preocupen per eliminar totes les bases de dades relacionals. I això és interessant. Ja ho sé, vull dir que està bé És interessant. Però no ho veig passant realment a gran escala empresarial. No ho veig passant des de fa temps. Així doncs, crec que l’híbrid està aquí des de fa molt de temps i a l’altre costat de la nostra aplicació on tenim la nostra plataforma de missatgeria a la nostra plataforma de gestió de campanyes. En realitat l'hem dissenyat específicament. Ara, hem llançat una versió que fa això i que es pot connectar ara a l’entorn de dades híbrides i a la consulta de Hadoop, o consultar qualsevol base de dades, qualsevol base de dades analítica. Així, doncs, crec que aquesta és només l’onada del futur. I estic d’acord que la virtualització, sens dubte, tindrà un paper important en això, però no ho estem bé: anem a les dades de totes les nostres aplicacions.

Eric: Està bé, genial. Keith, us ho llançaré. Què en penses del món heterogeni que estem davant d’actuar com a peu de gènere?

Keith: Sí, és realment fascinant. Crec que el que trobem més, no només en el aspecte de la gestió de dades, sinó que el que és realment fascinant ara mateix és el caràcter de codi obert de la base d’analítica. Així, veiem organitzacions com tecnologies com Spark a bord, i gent que utilitza Python i R i totes aquestes altres tecnologies de codi obert. Crec que es podria interpretar com una mena de conflicte o una amenaça fins a cert punt. Però la realitat és que tenim alguns compliments realment meravellosos amb totes aquestes tecnologies de codi obert. Vull dir, per un, que estem operant a les plataformes de codi obert, per part de Déu.

Però també, com per exemple poder integrar, per exemple, un model R en un paradigma SAS, permet utilitzar el millor d’ambdós mons, oi? Com, per tant, sabem que algunes de les coses experimentals del món acadèmic i algunes de les tasques de desenvolupament de models són extraordinàries i són de gran ajuda en el procés de desenvolupament de models. Però també, si es pot combinar amb una eina de classe de producció, es realitza una gran quantitat de neteja i qualitat, i s’assegura que les dades que es donen al model han estat preparades correctament per no fallar. sobre execució. I, a continuació, poder fer coses com ara models de campions amb models de codi obert. Aquestes són les coses que estem buscant per permetre’ns i que formen part d’aquest ecosistema realment heterogeni de totes aquestes tecnologies. Sí, per tant, és més, per a nosaltres, es tracta més d’abordar aquestes tecnologies i buscar compliments.

Eric: Bé, això ha estat fantàstic. Hem passat una mica aquí, però ens agradaria arribar a la major quantitat de preguntes possibles. Avui reenviarem el fitxer de Q & A als nostres presentadors. Per tant, si qualsevol pregunta que vau fer no us va respondre, ens assegurem que es respongui. I, això, s'aconsegueix el 2014. El teu és realment a la ràdio DM demà i la setmana que ve, i tot ja està fet i és un descans de vacances.

Moltíssimes gràcies a tots vostès pel vostre temps i atenció, per haver-vos enganxat a tots aquests meravellosos transmissions web. Ja tenim un excel·lent any per al 2015. Aviat, en parlarem, amics. Gràcies de nou. Ens cuidarem. Adeu.