El poder del suggeriment: com un catàleg de dades capacita els analistes

Emportar: La presentadora Rebecca Jozwiak discuteix els avantatges dels catàlegs de dades amb Dez Blanchfield, Robin Bloor i David Crawford.

Per veure el vídeo, us heu de registrar en aquest esdeveniment. Registra't per veure el vídeo.

Rebecca Jozwiak: Senyores i senyors, hola i benvinguts a Hot Technologies del 2016. Avui hem aconseguit, "El poder de la suggestió: com un catàleg de dades potencia els analistes". Sóc la vostra amfitriona Rebecca Jozwiak, que emplica avui el nostre habitual amfitrió Eric Kavanagh, mentre ell està viatjant pel món, així que gràcies per unir-nos a nosaltres. Aquest any fa calor, no només fa calor a Texas on sóc, sinó que fa calor a tot arreu. Hi ha una explosió de tot tipus de noves tecnologies. Tenim IoT, streaming de dades, adopció al núvol, Hadoop continua madurant i adoptant-se. Tenim automatització, aprenentatge automàtic, i tot això és subratllat per dades. I les empreses cada cop són més les dades que impulsen el dia. I, per descomptat, l’objectiu d’aquest és conduir al coneixement i al descobriment i, ja ho sabeu, prendre millors decisions. Però, per obtenir el màxim valor de les dades, ha de ser fàcil arribar-hi. Si el mantingueu tancat, enterrat o al cervell d'algunes persones dins de l'empresa, no anirà gaire bé per a l'empresa en general.

I vaig pensar en la catalogació de dades i en pensar en les biblioteques, fa molt temps que és allà on vas anar si necessitaves trobar alguna cosa, si necessitaves investigar un tema o buscar alguna informació, vas anar a la biblioteca. , i, per descomptat, vas anar al catàleg de targetes, o a la senyora de cranc que hi treballava. Però també va ser divertit passejar-hi, si només volguéssiu mirar i segur que podríeu descobrir alguna cosa neta, podríeu esbrinar alguns fets interessants que no sabíeu, però si realment necessitàveu trobar-ne alguna cosa i Sabies el que buscaves, necessitaves el catàleg de targetes i, per descomptat, l’equivalent empresarial és un catàleg de dades, que pot ajudar a brillar totes les dades perquè els nostres usuaris puguin enriquir, descobrir, compartir, consumir i ajudar realment a la gent. a dades més ràpides i fàcils.

Així, avui tenim Dez Blanchfield, el nostre propi científic de dades, i tenim el doctor Robin Bloor, el nostre propi analista en cap, David Crawford de Alation, que parlarà de la història de la seva catalogació de dades de la companyia, però primer anirem per sortir amb Dez. Dez, us estic passant la pilota i el pis és vostre.

Dez Blanchfield: Gràcies, gràcies per tenir-me avui. Aquesta és una qüestió que m’interessa molt, perquè gairebé totes les organitzacions que trobo en el meu dia a dia treballo trobo exactament el mateix tema del qual vam parlar molt breument al banter pre-show, i és que la majoria d’organitzacions que porten més de uns anys en el negoci tenen una gran quantitat de dades enterrades al voltant de l’organització, diferents formats, i de fet tinc clients que tenen conjunts de dades que es remunten a Lotus Notes, bases de dades que encara s’executen en algunes. els casos com els seus pseudònims interns i tots ells tenen aquest repte de trobar realment on es troben les seves dades i com accedir-hi, a qui proporcionar-los accés, quan els pot proporcionar accés i com fer-ho catàleg i com es pot arribar a un lloc on tothom pot: A) tenir coneixement del que hi ha i del que hi ha, i B), com accedir-hi i utilitzar-lo. I un dels grans reptes, és, de trobar-lo, l'altre gran repte és saber què hi ha i com accedir-hi.

Potser sé que tinc desenes de bases de dades, però realment no sé què hi ha o com esbrinar què hi ha, i tan invariablement, com ara descobrim les dades pre-exhibició, acostumen a caminar al voltant de l'oficina i a fer preguntes, a crits a través de les parets cúbiques i a provar, sovint és la meva experiència, fins i tot potser trobeu que vareu a la recepció, a la recepció i a si algú sap qui? tornaré a anar a parlar. Molt sovint, no sempre són les informàtiques informàtiques perquè desconeixen el conjunt de dades perquè algú acaba de crear-lo, i pot ser una cosa senzilla, sovint trobarem un projecte que es troba en un entorn informàtic i el responsable del projecte ha utilitzat un full de càlcul de totes les coses i ha obtingut una quantitat massiva d'informació valuosa sobre actius i elements i noms i, a menys que coneguis aquest projecte i que no coneguis aquesta persona, només pots trobar aquesta informació. Simplement no està disponible i heu de controlar el fitxer original.

Hi ha una frase que ha estat preocupada pel que fa a les dades i no necessàriament hi estic d’acord, però crec que és una mica desagradable i que certa gent creu que les dades són el petroli nou i estic segur que També tractarem això en algun aspecte, més endavant. Però el que he notat, certament formant part d’aquella transformació, és que les organitzacions d’empreses que han après a valorar les seves dades han obtingut un avantatge important respecte als seus competidors.

Hi va haver un document interessant d’IBM, fa uns cinc o sis anys, i van enquestar a 4.000 empreses aquí a Austràlia, i van agafar tota la informació, totes les dades de rendiment, totes les dades de finançament i la van col·locar en una olla bullent. la van enviar a la Australian School of Economics, i realment van iniciar una tendència comuna aquí, i això va ser que les empreses que van aprofitar la tecnologia van obtenir sempre un avantatge tan competitiu respecte dels seus companys i competidors per si, que els seus competidors gairebé mai no aconsegueixen, i crec. ara passa molt amb les dades que hem vist el que la gent diu una transformació digital en què les organitzacions han descobert clarament com es troben les dades que disposen, que es posen a la seva disposició i que es posin a la venda de forma molt fàcil de consumir. moda a l’organització, sense necessàriament saber sempre per què l’organització pot necessitar-la i obtenir un avantatge significatiu sobre els competidors.

Tinc un parell d’exemples en aquesta diapositiva que podeu veure. La meva única línia és que la gran interrupció a gran escala de gairebé tots els sectors de la indústria, segons el meu parer, està impulsada per les dades i, si les tendències actuals han de passar, només crec que només hem aconseguit va començar perquè quan les marques de llarga durada finalment es despertin del que això significa i entraran al joc, entraran al joc a l’engròs. Quan un dels grans comerciants que tenen muntanyes de dades comença a aplicar alguna anàlisi històrica sobre les dades, si fins i tot saben que existeix, alguns dels jugadors en línia obtindran una trucada de despertar.

Però, amb moltes d’aquestes marques, vull dir que tenim Uber que és l’empresa de taxis més gran del món. No posseeixen cap taxi, de manera que és el que els fa màgics, quines són les seves dades? Airbnb, el major proveïdor d’allotjament, tenim WeChat, la companyia de telefonia més gran del món, però no disposen d’infraestructura real, ni de telèfons mòbils ni de línies de telèfon. Alibaba, el major comerciant del planeta, però no és propietari de cap inventari. , l’empresa de mitjans de comunicació més gran de la paraula. Crec que a l’últim recompte tenien ara 1.400 milions d’usuaris de dades actives, la qual cosa és un número molest. No està a prop d’altres llocs, crec que algú va afirmar que cada dia hi ha una quarta part del planeta, i aquí hi ha un proveïdor de contingut que realment no crea el contingut, totes les dades que serveixen no són creades per ells, sinó que són creades per ells. subscriptors i tots coneixem aquest model.

SocietyO, del que potser haureu o no escoltat, és una marca local, crec que en un parell de països és un banc que realment fa préstecs entre iguals, per tant, és a dir, no té diners. Tot el que fa és gestionar les transaccions i les dades es troben a sota. Netflix, tots ho sabem molt, molt familiaritzats amb això. Aquí hi ha un lineal interessant. Quan Netflix es va poder utilitzar legalment a Austràlia, quan es va anunciar oficialment, no havíeu d'utilitzar una VPN per accedir-hi, molta gent de tot el món acostuma a fer-ho - si no podeu accedir-hi a la vostra zona local. Netfix es va llançar a Austràlia, i va augmentar l’ample de banda internacional dels nostres enllaços d’internet en un 40 per cent, de manera que gairebé va duplicar l’ús d’internet a Austràlia durant la nit, amb només una aplicació, una aplicació allotjament al núvol que no fa res més que jugar amb les dades. És només una estadística que incloïa cap sensació.

I per descomptat, tots coneixem Apple i Google, però aquestes són les empreses de programari més grans del planeta, però no escriuen les aplicacions. Quina és la conseqüència amb totes aquestes organitzacions? Bé, són dades, i no hi van arribar perquè no sabien on eren les seves dades i no sabien catalogar-lo.

El que trobem ara és que hi ha tota aquesta nova classe d’actius a què es coneixen dades, i que les empreses s’estan despertant. Però no sempre disposen d’eines i de coneixements i de per què mapar totes aquestes dades, catalogar totes aquestes dades i posar-les a la seva disposició, però hem trobat que les empreses gairebé sense actius físics han guanyat un alt valor de mercat en un temps rècord. mitjançant aquesta nova classe d’actius de dades. Com he dit, alguns dels vells jugadors estan despertant-ho i, certament, ho aconsegueixen.

Sóc un gran aficionat a fer folk en una mica de viatge, així que en els divuit centenars, a la fi dels divuit centenars, i us coneixereu més que en el mercat dels Estats Units, va resultar que es podia fer un cens. cada any més o menys, crec que les publicaven cada deu anys en aquell moment, però si aneu a fer un cens cada any, podríeu trigar fins a vuit o nou anys a fer realment l’anàlisi de dades. Va resultar que aquell conjunt de dades es va deixar a les caixes dels llocs en paper, i gairebé ningú no el va trobar. Ells simplement continuen enviant aquests informes, però les dades reals eren molt difícils d’arribar, tenim una situació similar amb un altre moment significatiu mundial, cap als anys quaranta, amb la Segona Guerra Mundial, i això és que el parc Bletchley Bombe va escriure BOMBE. , i es tractava d'una eina analítica de xiframent massiu de números que passaria per petits conjunts de dades i hi trobaria senyals i s'utilitzava per ajudar a codificar codis a través de l'Enigma.

Aquesta cosa de nou, era essencialment un dispositiu dissenyat, no tant per catalogar, sinó per etiquetar i mapejar dades, i permetre agafar patrons i trobar-lo dins dels conjunts de dades, en aquest cas, trencar codis, trobar claus i frases i trobar. regularment als conjunts de dades, i per això hem estat recorrent aquest tema per trobar coses a les dades i dirigir-nos a la catalogació de dades.

A continuació, es van produir aquestes coses, aquestes masses bastidors de baix cost de màquines, només màquines fora de la prestatgeria. I vam fer algunes coses molt interessants, i una de les coses que vam fer amb elles és que vam construir clústers de molt baix cost que podrien començar a indexar el planeta, i molt famosament aquestes grans marques que han vingut i se n’han anat, però probablement és la casa més habitual de Google. marca de la qual tots hem sentit parlar: s’ha convertit en un veritable veritat i saps que tens èxit quan la teva marca es converteix en verb. Però el que Google ens va ensenyar, sense adonar-nos-en, possiblement en el món empresarial, és que van ser capaços d'indexar tot el planeta a un nivell determinat, i catalogar les dades que hi havia arreu del món i fer-lo disponible de manera molt fàcil, forma adequada en una fórmula una petita línia petita, una pàgina web sense gairebé res, i escriviu la consulta, la trobareu, ja que ja havien rastrejat el planeta, el indexaven i el posaven a la seva disposició fàcilment.

I el que vam notar va ser: "No penseu, no ho fem a les organitzacions. Per què és això? Per què tenim una organització que pot mapar tot el planeta i indexar-la, rastrejar-la i indexar-la i posar-la a la seva disposició, la podem cercar i, a continuació, feu clic a la cosa per anar a buscar-la. No ho heu fet internament? ”Així que ara hi ha moltes d’aquestes petites màquines de màquines a tot el món que fan això per a les intranets i per trobar coses, però realment només arriben a comprendre la idea d’anar més enllà de la pàgina web tradicional, o un servidor de fitxers.

En lloc d’entrar ara en aquesta propera generació de catàleg de dades de moltes maneres, descobrir l’accés a les dades mitjançant notes post-it i converses més ràpides d’aigua no és realment un mètode adequat per al descobriment i la catalogació de dades, i de fet, no crec que mai ho fos realment. . Ja no podem suposar tot aquest repte a les persones que només passen notes, publiquen notes i en parlem. Ens trobem molt més enllà de la zona ara on ha arribat i desaparegut aquest enfocament de nova generació de la catalogació de dades. Hem de posar els braços al seu voltant. Si es tractés d’un problema fàcil, ja ho hauríem resolt de moltes maneres abans, però crec que no és un problema fàcil, només cal indexar i trucar les dades només una part, saber què hi ha a les dades i crear metadades. al voltant del que descobrim i, a continuació, posar-lo a disposició de forma fàcil i consumible, particularment per a autoservei i analítica. No deixa de ser un problema, però moltes parts del trencaclosques en cinc anys estan ben resoltes i disponibles.

Com ja sabem, els humans que catalogem dades són una recepta del fracàs, perquè l’error humà és un dels malsons més grans que tractem en el processament de dades, i parlo regularment d’aquest tema on, segons el meu parer, els humans omplen formularis de paper són probablement el més gran malson. ens ocupem de dades i anàlisis de grans dades, per haver d’arreglar constantment les coses que fan, fins i tot a coses senzilles com les dates i els camps, la gent en un format equivocat.

Però, com he dit, hem vist que els motors de cerca d'Internet indexen el món cada dia, així que ara ens estem donant la idea que es pot fer en conjunts de dades empresarials en el procés de descobriment, i que ara són eines i sistemes. fàcilment disponible a punt d’aprendre avui. Així que el truc, en la meva opinió, és seleccionar les eines adequades, les millors eines per al treball. I de manera més adequada, per trobar-ne la part adequada per ajudar-vos a iniciar aquest camí. Crec que no ho sentirem avui, però abans de fer-ho, passaré al meu col·legi, Robin Bloor, i escoltaré la seva visió sobre aquest tema. Robin, us puc passar?

Robin Bloor: Sí, certament que podeu. Anem a veure si funciona, oh sí. D'acord, vinc des d'una altra direcció que Dez realment, però acabaré al mateix lloc. Es tracta de connectar-me a dades, per la qual cosa només he pensat que realitzaria la connexió a les dades, realment punt per punt.

Hi ha un fet que les dades estan més fragmentades del que no hi ha hagut mai. El volum de dades està creixent fenomenalment, però de fet, les diferents fonts de dades també creixen a un ritme increïble, i per tant, les dades es fragmenten cada cop més. Però, sobretot, a causa de les aplicacions d’analítica –però no són les úniques aplicacions–, tenim un motiu molt bo per connectar-nos a totes aquestes dades, de manera que estem enganxats en un lloc difícil, ens trobem enganxats a un món de dades fragmentades, i hi ha oportunitats a les dades que Dez l'anomenava, el nou petroli.

Quant a les dades, bé, solia viure en disc girant, ja sigui en sistemes de fitxers o bases de dades. Ara viu en un entorn molt més variat, viu en sistemes d’arxius, però també viu en casos d’Hadoop o fins i tot en instàncies de Spark. Viu en diverses espècies de bases de dades. No fa tant, vam fer una base de dades relacional estandarditzada, ja sabeu que va sortir per la finestra durant els últims cinc anys, perquè cal que hi hagi bases de dades de documents, i cal que hi hagi bases de dades gràfiques, així que ja sabeu, el joc té canviat. Així doncs, va viure al disc de filatura, però ara viu a SSD. L’última quantitat de SSD, sens dubte, l’última unitat SSD surt de Samsung - vint gigabytes, que és enorme. Ara viu en la memòria, en el sentit que la còpia principal de les dades pot ser a la memòria, més que no al disc, no fèiem servir aquest tipus de sistemes; ho fem ara. I viu al núvol. El que significa que pot viure en qualsevol d’aquestes coses, al núvol, no necessàriament sabràs on es troba en un núvol, només tindràs la seva adreça.

Hadoop ha fallat fins ara com a magatzem de dades extensible. Havíem esperat que es convertís en un magatzem de dades extensible a escala, i que només es convertís en un sistema de fitxers per a tot, i així, els arcs de pluja apareixen al cel, bàsicament, i els unicorns ballarien, i no va passar res. El que vol dir que acabem amb un problema de transport de dades, i de vegades no hi ha necessitat de transport de dades, però també és una dificultat. Les dades realment tenen gravetat en l'actualitat, un cop heu entrat en els múltiples terabytes de dades, recollint-los i llançant-los al voltant, hi ha causes que apareixen latències a la vostra xarxa o que apareixen a diversos llocs. Si voleu transportar dades al voltant, el temps és un factor. Avui hi ha gairebé sempre, actualment, alguns límits en el temps que s’ha de fer per obtenir una cosa, una dada d’un lloc a un altre. Hi havia abans el que pensàvem com a finestres per lots, quan la màquina era inactiva i, per molt que tinguessis dades, només podies llençar-la i tot funcionaria. Doncs ja s’ha acabat, vivim en un món molt més real. Per tant, el temps és un factor. Tan aviat com vulgueu moure les dades, de manera que si les dades tenen gravetat, és possible que no el pugueu moure.

La gestió de les dades és un factor en el sentit que realment heu de gestionar totes aquestes dades, no obteniu aquesta de forma gratuïta i pot ser necessària la replicació per tal de poder aconseguir que les dades facin el treball que necessita, perquè pot ser no siguis allà on l’heu posat. És possible que no tingui recursos suficients per fer el tractament normal de les dades. Així, les dades es repliquen i les dades es repliquen més del que podríeu imaginar. Crec que algú em va dir fa temps que les dades mitjanes es repliquen almenys dues vegades i mitja. Els ESB o Kafka presenten una opció per al flux de dades, però avui dia requereixen arquitectura. Avui en dia, necessiteu pensar d’una manera o d’una altra, en què significa realment llençar les dades. Per tant, sol ser preferible accedir a les dades on es trobin, sempre que, per descomptat, puguis obtenir el rendiment que necessites quan realment busquis les dades i això depèn del contingut. De tota manera és una situació difícil. Pel que fa a les consultes de dades, solíem pensar en termes d’SQL, hem arribat realment ara, ja sabeu, diferents formes de consultes, SQL sí, però al costat, també consultes de gràfics, Spark només és un exemple de fer gràfic. , perquè també necessitem fer cerques, més que mai, també regexem el tipus de cerques, que són realment complicades les cerques de patrons i la concordança de patrons genuïns. I tots són útils perquè aconsegueixen allò que busqueu o poden obtenir el que busqueu.

Els dies actuals de consultes abasten múltiples dades, de manera que no sempre ho feia i, sovint, el rendiment és horrible si ho feu. Així doncs, depèn de les circumstàncies, però la gent espera poder consultar les dades de diverses fonts de dades, de manera que la federació de dades d’un tipus o d’un altre és cada cop més actual. La virtualització de dades, que és una manera diferent de fer-ho, segons el rendiment, també és molt freqüent. Les consultes de dades són en realitat una part d’un procés, no tot el procés. Només val la pena assenyalar que, si realment esteu estudiant el rendiment de les analítiques, les analítiques reals poden trigar molt més que la recopilació de dades, perquè depèn de les circumstàncies, però les consultes de dades són una necessitat absoluta si voleu fer-ne alguna. un tipus d’analítica a diverses fonts de dades, i només cal que realment tingueu capacitats que abasten.

I els catàlegs.Existeixen catàlegs per una raó, almenys estem dient que, ja ho sabeu, tenim directoris i tenim esquemes a bases de dades, i tenim cada catàleg i tenim allà on aneu trobareu un lloc i, en realitat, ho fareu. trobeu que hi ha algun tipus de catàleg i que el catàleg global unificat és, òbviament, una bona idea. Però molt poques empreses tenen tal cosa. Recordo que, el miler d’any, el pànic de dos mil anys, recordo que els comunistes no podien incloure encara quants executables tenien, no m’importa quantes botigues de dades diferents tenien, i probablement és el cas ara, vosaltres. sabeu, que la majoria de les empreses no saben activament en el sentit global, quines dades tenen. Però és cada cop més necessari tenir un catàleg global o, com a mínim, tenir una imatge global del que passa a causa del creixement de les fonts de dades i el creixement continuat de les aplicacions, i és especialment necessari per a les analítiques, perquè també d’una manera, i aquí hi ha altres problemes com ara el llinatge i problemes amb les dades, i és necessari per a la seguretat, molts aspectes de la governança de les dades, si realment no sabeu quines dades teniu, teniu la idea de que es governa, és absurd. Així, doncs, totes les dades es cataloguen d'alguna manera només és un fet. La pregunta és si el catàleg és coherent i, en realitat, què podeu fer amb ell. Així que passaré a Rebecca.

Rebecca Jozwiak: D'acord, gràcies Robin. Al costat tenim David Crawford de Alation, David vaig a avançar i us passo la pilota, i la podeu emportar.

David Crawford: Moltes gràcies. Agraeixo molt que em tinguis en aquest programa. Crec que vaig a començar, així que crec que el meu paper aquí és prendre una mica d’aquesta teoria i veure com s’està aplicant en realitat i els resultats que podem conduir en clients reals i així pugueu veure uns quants a la diapositiva, vull parlar de quins resultats podrem veure en analítics possiblement millores. Així que per motivar la discussió, parlarem de com van arribar-hi. Així que tinc la sort de treballar bastant estretament amb moltes persones realment intel·ligents, aquests clients, i només vull assenyalar alguns que han estat capaços de mesurar, i parlar de com un catàleg de dades ha afectat el seu analista. flux de treball I només per quedar-nos breument al capdavant, crec que una de les coses que veiem canviar, amb els catàlegs de dades en versos de solucions mitjançades anteriors i una de les maneres en què les relacions pensen realment sobre les solucions que ens ajuntem, és partir dels analistes. i treballar enrere. Dit-ho, permetem això per permetre la productivitat dels analistes. A diferència del compliment just o, a diferència del simple inventari, estem fent una eina que fa que els analistes siguin més productius.

Així, quan parlo amb un científic de dades de l’empresa de serveis financers Square, hi ha un tipus, Nick, que ens explicava com era el seu, solia trigar diverses hores a trobar el conjunt de dades adequat per iniciar un informe. fes-ho en qüestió de segons fent servir la cerca a la quota de mercat, vam parlar amb el seu CTO que va treure els seus analistes que feien servir Square, disculpeu-me, estava utilitzant Alation, per esbrinar quins eren, quins beneficis van veure i van reportar un 50. augment de la productivitat per cent, i que, un dels principals minoristes del món, eBay, tenen més de mil persones que fan anàlisis SQL de forma regular i treballo bastant estretament amb Deb Says, qui és el projecte. gestor del seu equip d’eines de dades, i va comprovar que quan els interrogants adopten Alation adopten un catàleg, estan veient el doble de la velocitat d’escriure noves consultes a la base de dades.

Es tracta de resultats reals, es tracta de persones que realment apliquen el catàleg a la seva organització i vull portar-vos a través del que cal per configurar-se. Com s'estableix un catàleg en una empresa i, potser, el més important de dir, és que passa molt de forma automàtica, de manera que Dez va parlar de sistemes, aprendre sobre sistemes i això és exactament el que fa un catàleg de dades modern. Per tant, instal·len Alation al seu centre de dades i després el connecten a diverses fonts de metadades del seu entorn de dades. Em centraré una mica en les bases de dades i les eines de BI: de totes dues, extreurem metadades tècniques, bàsicament sobre el que existeix. No, doncs, què taules? Quins informes? Quines són les definicions de l’informe? De manera que extreuen aquests metadades tècniques, i es crea automàticament una pàgina del catàleg per a cada objecte dins d'aquests sistemes i, a continuació, també extreuen i capllen sobre les metadades tècniques, formen una capa a sobre de les dades d'ús. Això es fa principalment llegint els registres de consultes de la base de dades, i es tracta d’una font d’informació realment interessant. Així doncs, sempre que un analista escrigui una consulta, cada vegada que una eina d’informació, ja sigui de casa, o fora de la prestatgeria, si una eina d’informació executa una consulta per actualitzar el tauler, quan una aplicació executa una consulta per inserir dades per operar a un conjunt de dades: totes aquestes coses es capturen en els registres de consultes de bases de dades. Tant si teniu un catàleg com si no, es capturen al registre de consultes amb la base de dades. El que pot fer un catàleg de dades i, sobretot, el que pot fer el catàleg d’Alations, és llegir aquests registres, fer les consultes dins d’ells i crear un gràfic d’ús realment interessant a partir d’aquests registres, i ho fem en joc per informar els futurs usuaris. de les dades sobre com les han utilitzat els usuaris anteriors de les dades.

Així doncs, ajuntem tot aquest coneixement en un catàleg, i només per fer-ho real, es tracta de les integracions que ja es despleguen als clients, per la qual cosa hem vist Oracle, Teradata, Redshift, Vertica i un munt d’altres. bases de dades relacionals. Al món de Hadoop, hi ha una gran varietat de SQL a Hadoop, una mena de botigues relacionals, meta-stores a la part superior del sistema d’arxius Hadoop, Impala, Tez, Presto i Hive, també hem tingut èxit amb proveïdors privats cloud Hadoop com Altiscale, i nosaltres També s'han pogut connectar als servidors de Tableau, servidors MicroStrategy i indexar els taulers, així com integracions amb eines de gràfics de ciències de dades com Plotly.

Així doncs, ens connectem a tots aquests sistemes, hem connectat aquests sistemes a clients, hem introduït les metadades tècniques, hem introduït les dades d’ús i hem ordenat automàticament el catàleg de dades, però d’aquesta manera, nosaltres centralitzar el coneixement, però simplement centralitzar les coses en un catàleg de dades, no proporcionen per si mateix aquells increïbles produtius meravellosos de què parlem amb eBay, Square i quota de mercat. Per fer-ho, és necessari canviar la manera de pensar en el lliurament de coneixement als analistes. Una de les preguntes que es plantegen per preparar-se va ser: "Com afecta el catàleg en realitat el flux de treball d'un analista?"

Això és el que passem tot el dia pensant i, per parlar d’aquest canvi en el pensament, d’un model d’empenta i un model d’atractiu, he volgut fer una ràpida analogia al que era el món abans i després de llegir en un Kindle. Així que només és una experiència que alguns podríeu tenir, quan esteu llegint un llibre físic, trobareu una paraula, no esteu segur que coneixeu bé la definició de la paraula, potser ho podreu endevinar des de qualsevol lloc, no és probable que us aixecareu al sofà, us dirigireu a la vostra prestatgeria, trobareu el vostre diccionari, traieu-lo pols i torneu al lloc adequat de la llista alfabètica de paraules per assegurar-vos que, sí, teníeu aquesta definició correcta i ja sabeu els matisos d’aquest. Així no passa realment. Així que compreu una aplicació Kindle i comenceu a llegir llibres allà i veieu una paraula de la qual no esteu del tot segur i la toqueu. Tot sobtat, a la mateixa pantalla, es troba la definició del diccionari de la paraula, amb tots els seus matisos, diferents usos d’exemple, i feu lliscar una mica, i rebeu un article de Wikipedia sobre aquest tema, feu lliscar de nou, teniu una eina de traducció que la pugueu traduir a altres idiomes o a altres idiomes i, de sobte, el vostre coneixement de l'idioma és molt més ric, i només passa una sorprenent quantitat de vegades en comparació amb quan havíeu d'anar i treu aquest recurs per tu mateix.

I el que discutiré és que el flux de treball per a un analista i la manera en què un analista tractarà la documentació de dades, en realitat és molt similar a com interactuarà un lector amb el diccionari, ja sigui físic, o bé si el Kindle, i el que nosaltres, la manera que realment vam veure aquest impuls de productivitat, no és vessar el catàleg, sinó connectar-lo al flux de treball de l'analista i, per tant, em van demanar que faci una demostració aquí i vull que sigui el focus d'aquesta presentació. Però només vull configurar la configuració per a la demostració. Quan pensem a empènyer el coneixement de les dades als usuaris quan ho necessiten, pensem que el lloc adequat per fer-ho, el lloc on passen el temps i on fan l'anàlisi és una eina de consulta SQL. Un lloc on escriviu i executeu consultes SQL. I així, en vam construir una, i la vam crear, i el que realment és diferent d’altres eines de consulta és la seva integració profunda amb el catàleg de dades.

Per tant, la nostra eina de consulta es diu Alation Compose. És una eina de consulta basada en web i us la mostrem en un segon. Una eina de consulta basada en web que funciona en tots els logotips de bases de dades que heu vist a la diapositiva anterior. El que intentaré demostrar en particular és la manera en què la informació del catàleg arriba als usuaris. I ho fa mitjançant aquest tipus de tres maneres diferents. Ho fa a través d’intervencions, i és allà on algú del qual un governador de dades, un administrador de dades o un administrador d’alguna manera o un gestor poden dir: “Vull ordenar la interjecció amb una nota o un avís a el flux de treball i assegureu-vos que s’entregui als usuaris en el moment adequat. ”Així que això és una intervenció i així ho demostreu.

Els suggeriments intel·ligents són una forma en què l’eina utilitza tot el seu coneixement agregat del catàleg per suggerir objectes i parts d’una consulta a mesura que s’escriu. El més important a saber és que realment s’aprofita el registre de consultes per fer-ho, per suggerir coses basades en l’ús i també per trobar parts incloses de consultes que s’han escrit abans. I bé demostrar-ho.

I després les previsualitzacions. Les previsualitzacions són, mentre escriviu el nom d’un objecte, us mostrem tot el que el catàleg sap, o almenys les coses més rellevants que el catàleg sap sobre aquest objecte. De manera que les mostres de les dades que l’havies utilitzat abans, el nom i la descripció lògica d’aquest objecte, et presenten mentre escrius sense haver d’anar a demanar-ho.

Així, sense més parlar, vaig a la demostració i només vaig a esperar que aparegui. El que us mostraré aquí és l'eina de consulta. És una interfície d'escriptura SQL dedicada. És una interfície separada del catàleg, en un cert sentit. Dez i Robin van parlar sobre el catàleg i vaig saltar una mica sobre la interfície del catàleg directament sobre com es va posar directament al servei del flux de treball.

Acabo mostrant aquí un lloc on puc escriure SQL, i a la part inferior veuràs que apareixem alguna informació sobre els objectes que feien referència. Així que vaig a començar a escriure una consulta i em detindré quan arribo a una d’aquestes intervencions. Així que estic "selecciona", i vull l'any. Vull el nom. I vaig a buscar algunes dades salarials. Es tracta, doncs, d’un conjunt de dades sobre educació. Té informació sobre les institucions d’educació superior i estic mirant el salari mitjà que fa la professió en una d’aquestes taules.

De manera que he escrit la paraula “sou”. No es troba exactament al nom de la columna d'aquesta manera. Utilitzem tant metadades lògiques com metadades físiques per fer suggeriments. I el que vull destacar aquí és aquest quadre groc que apareix aquí. Diu que hi ha un advertiment en aquesta columna. No vaig anar a la recerca d'això, no vaig prendre una classe sobre com utilitzar aquestes dades correctament. Em va arribar, i es tracta d’una advertència sobre un acord de confidencialitat que té a veure amb aquestes dades. Així doncs, hi ha algunes regles de divulgació. Si vaig a consultar aquestes dades, vaig a treure dades d’aquesta taula, hauria d’anar amb compte de com les divulguo. Així que aquí teniu una política de governança. Hi ha alguns reptes de compliment que fan que sigui molt més fàcil complir amb aquesta política quan en sé en aquest moment en què estic mirant les dades.

Així que vaig arribar a mi, i també vaig a veure la matrícula. I aquí veiem que les previsualitzacions entren en joc. A la columna de pràctiques, veig: hi ha una columna de matrícules a la taula de la institució i estic veient un perfil. Alation va i treu dades de mostra de les taules i, en aquest cas, em mostra alguna cosa que és força interessant. Això em mostra la distribució dels valors i em mostra que el valor zero apareix 45 vegades a la mostra i més que qualsevol altre valor. Així doncs, tinc cert sentit que podríem trobar algunes dades.

Si sóc un analista avançat, pot ser que ja formi part del meu flux de treball. Sobretot si sóc especialment minuciós, on faria un munt de consultes de perfil abans del temps. Sempre que m’apropo a una nova dada, sempre penso en què consisteix la nostra cobertura de dades. Però si sóc nou a l’anàlisi de dades, si sóc nou a aquest conjunt de dades, podria suposar que si hi ha una columna, s’ha d’omplir tot el temps. O podria suposar que si no s’omple, no és zero, és nul o alguna cosa així. Però en aquest cas, tenim molts zero, i si fes una mitjana, probablement s’equivocarien, si només assumís que aquests zero eren realment nuls en lloc de faltar dades.

Però Alation, aportant aquesta previsualització al vostre flux de treball, us demana que feu una ullada a aquesta informació i ofereixen fins i tot una oportunitat a analistes novells de comprovar que hi ha alguna cosa a notar aquí. Així doncs, tenim aquesta vista prèvia.

El següent que faré és intentar esbrinar de quines taules obté aquesta informació. Així que aquí veiem els suggeriments intel·ligents. Ha anat tot el temps, però, en particular, fins i tot encara no he escrit qualsevol cosa, però em proposarà quines taules potser voldria utilitzar per a aquesta consulta. I el més important a saber d’això és que s’aprofiten les estadístiques d’ús. Així, en un entorn com, per exemple, eBay, on teniu centenars de milers de taules en una sola base de dades, teniu una eina que pot colpejar el blat del chaff i fer servir aquestes estadístiques d’ús, és realment important per aconseguir aquestes suggeriments que valen alguna cosa.

Així que us suggerirà aquesta taula. Quan miro la vista prèvia, realment destaquem tres de les columnes que he esmentat ja a la consulta. Així que sé que té tres, però no té el nom. Necessito obtenir el nom, així que vaig a participar. Quan faig una unió, torno a tenir aquestes previsualitzacions per ajudar-me a trobar, on es troba la taula amb el nom. Per tant, veig que aquest té un nom molt bé formatat amb majúscules. Sembla tenir una fila amb un nom per a cada institució, així que vaig a agafar-ho, i ara necessito una condició d’adhesió.

I així, aquí el que fa Alation és tornar a mirar enrere els registres de consultes, veient les vegades anteriors que s’han unit aquestes dues taules i suggerir maneres diferents per unir-les. Una vegada més, hi ha alguna intervenció. Si considero un d'aquests, el meu advertiment em mostra que això només s'ha d'utilitzar per a anàlisis agregades. Probablement produirà la cosa incorrecta si s’intenta fer alguna cosa a través de la institució per institució. Mentre que aquesta, amb la identificació OPE s’accepta com la forma adequada d’unir aquestes dues taules si voleu dades a nivell universitari. Així que ho faig, i és una consulta breu, però he escrit la meva consulta sense necessàriament tenir informació sobre què són les dades. Mai no he mirat un diagrama ER d’aquest conjunt de dades, però ja sé bastant d’aquestes dades ja que m’arriba la informació rellevant.

Es tracta, doncs, de les tres maneres que un catàleg pot, mitjançant una eina de consulta integrada, afectar directament el flux de treball a mesura que escriviu consultes. Però un dels altres avantatges de tenir una eina de consulta integrada en un catàleg és que, quan acabo la consulta i em deso, puc posar un títol com “Matrícula d’institució i salari de la facultat” i, a continuació, tinc un botó aquí que em permet publicar-lo al catàleg. Per mi és molt fàcil alimentar-ho. Tot i que no el publico, és capturat com a part del registre de consultes, però, quan el publico, es converteix en part de la forma en què es viu el lloc centralitzat on viuen tots els coneixements de dades.

Així, si faig clic a Cerca de totes les consultes a Alation, em prendré (i aquí veuràs una mica més de la interfície del catàleg). Em porto a una cerca de consulta dedicada que em mostra una manera de trobar consultes a tota l'organització. I veieu que la meva consulta recentment publicada és al capdamunt. I alguns podríem notar aquí quan, a mesura que captem les consultes, també capturem els autors, establim aquesta relació entre jo com a autor i aquests objectes de dades del que ara sé. I estic establert com a expert en aquesta consulta i en aquests objectes de dades. Això és de gran ajuda quan la gent necessita aprendre sobre les dades i pot trobar la persona adequada per conèixer-la. I si realment sóc nova a les dades, tant si sóc analista avançat, com a analista avançat, podria mirar-ho i veure un munt d’exemples que m’iniciarien en un nou conjunt de dades. Com a algú que pot no sentir-se molt experimentat amb SQL, puc trobar consultes fetes prèviament que són informes que puc aprofitar.

He aquí un de Phil Mazanett sobre puntuacions mitjanes del SAT. Feu clic en això i obtinc una mena de pàgina de catàleg per a la consulta en si. Es parla d’un article que es va escriure que fa referència a aquesta consulta, així que hi ha alguna documentació que he de llegir si vull aprendre a utilitzar-la. A més, puc obrir-ho a l'eina de consulta fent clic al botó Redacta i només puc executar-lo aquí sense ni editar-lo. I en realitat, podeu veure una mica de les nostres capacitats d'informació lleugera, on, quan escriviu una consulta, podeu deixar anar una variable de plantilla com aquesta i crear una manera senzilla de crear un formulari per executar una consulta basada en una un parell de paràmetres.

Així que això és el que tinc per a la demostració. Tornaré a les diapositives.Només per a recaptar, vam mostrar com un administrador, un governador de dades, pot intervenir posant avisos sobre objectes que es mostren a l'eina de consulta, com Alation utilitza el seu coneixement de l'ús d'objectes de dades per fer suggeriments intel·ligents, com aporta a la perfilació i altres consells per millorar els fluxos de treball dels analistes quan toquen objectes concrets, i com tot aquest tipus d’informació torna al catàleg quan s’escriuen les noves consultes.

Evidentment sóc un portaveu en nom de l'empresa. Vaig a dir coses bones sobre catàlegs de dades. Si voleu escoltar directament un dels nostres clients, Kristie Allen a Safeway dirigeix un equip d’analistes i té una història fantàstica sobre un moment en què necessitava superar el rellotge per poder realitzar un experiment de màrqueting i com és el seu conjunt. l'equip va utilitzar Alation per col·laborar i donar-li una volta molt ràpida en aquest projecte. Així que podeu seguir aquest enllaç bit.ly per comprovar aquesta història o si voleu escoltar una mica sobre com Alation podria aportar un catàleg de dades a la vostra organització, estarem encantats de configurar una demostració personalitzada. Moltes gràcies.

Rebecca Jozwiak: Moltes gràcies, David. Estic segur que Dez i Robin tenen algunes preguntes abans de dirigir-me a les preguntes de resposta i audiència. Dez, vols anar primer?

Dez Blanchfield: Absolutament. M'encanta la idea d'aquest concepte de consultes publicades i enllaçar-lo amb la font de l'autor. He estat un campió des de fa temps d’aquesta idea d’una botiga d’aplicacions a casa i crec que es tracta d’un fonament realment fantàstic.

Vaig obtenir una mica de coneixement d’algunes de les organitzacions que veieu fer això i d’algunes de les històries d’èxit que podrien haver tingut amb tot aquest viatge, no només per aprofitar la vostra eina i plataforma per descobrir les dades, sinó també després transformar els seus trets culturals i de comportament interns al seu voltant. Ara, té aquest tipus de botiga d'aplicacions integrades a casa on es poden descarregar, el concepte on no només poden trobar-lo, sinó que poden començar a desenvolupar petites comunitats amb els que mantenen aquest coneixement.

David Crawford: Sí, crec que ens hem sorprès. Creiem en el valor de compartir consultes, tant del meu passat com a product manager a Adtech com de tots els clients amb els que hem parlat, però encara ens ha sorprès la freqüència amb què és una de les primeres coses de què parlen els clients. valor que treuen de l’Alation.

Feia proves de l'usuari de l'eina de consulta a un dels nostres clients anomenat Invoice2go, i tenien un gestor de productes relativament nou i em van dir: en realitat em va dir que, sense compromís durant la prova de l'usuari, "realment no escriuria. SQL, tret que això sigui fàcil per Alation. ”I, per descomptat, com a primer ministre, vaig dir:" Què vols dir, com ho vam fer? "I va dir:" Bé, realment és només perquè jo Puc iniciar la sessió i puc veure totes aquestes consultes existents. ”Començar amb una pissarra en blanc amb SQL és una cosa increïblement difícil de fer, però modificar una consulta existent on es pugui veure el resultat que es realitza i es pot dir:“ Oh , Només necessito aquesta columna addicional ", o," necessito filtrar-la per a un rang de dates determinat ", és una cosa molt més fàcil de fer.

Hem vist tipus d’aquests rols auxiliars, com ara els gestors de productes, potser la gent dels operadors de vendes, que comencen a recollir, i que sempre han volgut aprendre SQL i començar a recollir-lo mitjançant aquest catàleg. També hem vist que moltes empreses han intentat fer tipus de codi obert. He intentat construir aquest tipus de coses internament, on fan un seguiment de les consultes i posen a la seva disposició i hi ha algun tipus de desafiaments complicats en el disseny perquè els siguin útils. ha tingut una eina interna que van anomenar HiPal que va capturar totes les consultes escrites a Hive, però el que trobeu és que, si no feu cap tipus d'anivellament dels usuaris de la manera correcta, acabareu amb una llista molt llarga d’enunciats selectes. I com a usuari que intenteu esbrinar si una consulta m'és útil o si és útil, si només visito una llarga llista de declaracions selectes, em durà molt més temps per obtenir alguna cosa de valor que a partir de zero. Hem pensat amb molta cura en com fer un catàleg de consultes que aporti les coses adequades al front i que es proporcionin de manera útil.

Dez Blanchfield: Crec que tots fem aquest viatge des de ben petits, fins a l'edat adulta, de moltes maneres. Un munt de tecnologies. Jo, personalment, he passat per la mateixa cosa genuïna, com ara aprendre a tallar codi. Passaria per revistes i després per llibres i estudiaria fins a un cert nivell, i després vaig necessitar anar i obtenir una mica més de formació i formació.

Però, inadvertidament, em vaig trobar que, fins i tot quan anava d’ensenyar-me a mi mateix, llegir revistes i llegir llibres i picar programes d’altres pobles i anar a cursos sobre ell, encara vaig acabar aprenent tant de fer els cursos com de només parlar amb altres. gent que va tenir algunes experiències. I crec que és un interessant descobriment que, ara que ho porteu a les analítiques de dades, veieu bàsicament el mateix paral·lel, que els éssers humans són sempre molt intel·ligents.

L’altra cosa que realment vull entendre és que, a un nivell molt elevat, moltes organitzacions es preguntaran: “Quant de temps triguen a arribar a aquest punt?” Quin és el punt d’inclinació del marge de temps quan la gent arriba a la seva plataforma. es van instal·lar i van començar a descobrir els tipus d’eines? Què tan ràpidament es veu que la gent es veu com aquesta cosa es converteix en un moment “immediat” immediat, on s’adonen que ja no es preocupen pel ROI perquè hi és, però ara canvien la manera de fer negocis? I han descobert un art perdut i esperen que puguin fer alguna cosa realment, molt divertit amb ell.

David Crawford: Sí, hi puc tocar una mica. Crec que quan ens instal·lem, una de les coses més agradables, una de les coses que a la gent li agrada sobre un catàleg connectat directament als sistemes de dades, és que no comenceu en blanc on heu d'omplir-lo a la pàgina. pàgina. Això és cert per a les solucions de dades anteriors, en què començaríeu amb una eina buida i haureu de començar a crear una pàgina per a tot el que vulgueu documentar.

Com que documentem tantes coses automàticament mitjançant l'extracció de metadades, fonamentalment en pocs dies després de tenir instal·lat el programari, podeu tenir una imatge del vostre entorn de dades almenys un 80 per cent a l'eina. Aleshores crec que tan aviat com que la gent comenci a escriure les consultes amb l'eina, s'han desat automàticament al catàleg i, per tant, començaran a aparèixer.

No vull estar massa desitjós en afirmar-ho. Crec que dues setmanes són una estimació conservadora força bona, d’un mes. Dues setmanes al mes, estimar de forma conservadora el fet de donar-li voltes i sentir que t’està donant valor, com si comences a compartir alguns coneixements i poder anar-hi i esbrinar coses sobre les teves dades.

Dez Blanchfield: És molt sorprenent, realment, quan hi penseu. El fet que algunes de les grans plataformes de dades amb indexació i catalogació efectives trigaran fins a l'any a implementar-se i desplegar-les i aturar-se correctament.

L’última pregunta que em vaig fer abans de lliurar-ho a Robin Bloor, és els connectors. Una de les coses que em salta de seguida és evidentment que heu pogut resoldre tot aquest repte. Així que hi ha un parell de preguntes realment ràpides. Un, amb quina rapidesa s’implementen els connectors? Evidentment, comenceu amb la plataforma més gran, com els Oracles i les Teradatas, etcètera i els DB2. Però, amb quina freqüència veieu que passen nous connectors, i quin temps de tornada passen? Imagino que teniu un marc estàndard per a ells. I quina profunditat hi endinses? Per exemple, els Oracles i les IBM del món, i fins i tot Tereadata, i després alguns dels més populars de les plataformes de codi obert tardà. Treballen directament amb tu? Ho esteu descobrint vosaltres mateixos? Heu de tenir coneixement propi en aquestes plataformes?

Com sembla que es desenvolupi un connector, i quina profunditat t'interessa en aquestes associacions per assegurar-vos que aquests connectors estan descobrint tot allò que possiblement podeu?

David Crawford: Sí, segur, és una gran pregunta. Crec que, en la seva majoria, podem desenvolupar els connectors. Sens dubte, quan érem una empresa jove i no teníem clients. Podem desenvolupar les connexions certament sense necessitat d’accés intern. Mai aconseguim cap accés especial als sistemes de dades que no estiguin disponibles públicament, i sovint sense necessitat de cap informació interior. Aprofitem els serveis de metadades disponibles pels propis sistemes de dades. Sovint, aquestes poden ser força complexes i difícils de treballar. Conec en particular el servidor de SQL, la forma en què gestionen el registre de consultes, hi ha diverses configuracions diferents i alguna cosa en què realment heu de treballar. Heu d’entendre els matisos i els botons i marcar-los per configurar-lo correctament, i això és una cosa que treballem amb els clients des que ho hem fet diverses vegades abans.

Però, fins a cert punt, el tipus d’API públiques disponibles o les interfícies públiques disponibles que utilitzem. Tenim col·laboracions amb diverses d’aquestes empreses, principalment és un motiu de certificació, de manera que se sentin còmodes dient que treballem i també ens poden proporcionar recursos per fer proves, de vegades, d’accés precoç potser a una plataforma que surt per assegurar-se que treballem en les noves versions.

Per girar una nova connexió, diria, de nou, intentant ser conservador, diguem-ne sis setmanes a dos mesos. Depèn de lo semblant que sigui. Així, alguns aspectes del Postgre semblen molt similars als de Redshift. Redshift i Vertica comparteixen gran part dels seus detalls. Així, podem aprofitar aquestes coses. Però sí, de sis setmanes a dos mesos seria just.

També tenim API, de manera que, pensem en Alation com una plataforma de metadades, de manera que, si no hi ha alguna cosa disponible per contactar-nos i agafar-los automàticament, hi ha formes de poder escriure el connector tu mateix i fer-lo anar al nostre sistema. que tot es centralitza en un sol motor de cerca.

Dez Blanchfield: Fantàstic. Sóc conscient que. Així que ho haurien de lliurar a Robin, perquè estic segur que també té una gran quantitat de preguntes. Robin?

Rebecca Jozwiak: Robin pot estar en silenci.

Dez Blanchfield: T'has quedat en silenci.

Robin Bloor: Sí, no. Ho sento, em vaig silenciar. Quan implementeu això, què és el procés? Sóc curiós perquè hi ha moltes dades en molts llocs. Com funciona això?

David Crawford: Sí, segur. Entrem, en primer lloc, en un procés informàtic per assegurar-nos que els nostres servidors estan subministrats, assegurant-nos que les connexions de xarxa estan disponibles, que els ports estan oberts perquè puguem accedir als sistemes. Tots sovint saben amb quins sistemes volen començar. Saber dins d’un sistema de dades, que - i de vegades realment els ajudarem. Doncs ajudeu-los a anar a fer un primer cop d’ull al seu registre de consultes per comprendre quins i quants usuaris tenen en un sistema. Doncs ajudeu a esbrinar on, sovint, si tenen centenars o milers de persones que podrien accedir a les bases de dades, realment no saben on s’inicien la sessió, de manera que podrem esbrinar als registres de consulta quants comptes d’usuari únics fan. realment heu entrat i executar consultes aquí en un mes o més.

Així doncs, podem aprofitar-ho, però sovint només sobre els més importants. Els posem en marxa i, a continuació, hi ha un procés per dir: "Prioritzem". Hi ha un seguit d’activitats que poden succeir en paral·lel. M'enfocaria en la formació per utilitzar l'eina de consulta. Una vegada que les persones comencen a utilitzar l'eina de consulta, en primer lloc, a molta gent li agrada el fet que sigui només una interfície per a tots els seus diferents sistemes. També els agrada que la seva base web no impliqui instal·lacions si no volen. Des d’un punt de vista de seguretat, els agrada tenir un tipus d’entrada únic, des d’un punt de vista de la xarxa, entre un tipus de xarxa informàtica corporal i el centre de dades on viuen les fonts de dades de producció. Per tant, configuraran Alation com a eina de consulta i començaran a utilitzar Compose com a punt d'accés per a tots aquests sistemes.

Així, un cop que això passi, el que ens centrem en la formació, és comprendre quines són algunes de les diferències entre una eina de consulta basada en web o una de servidors versus una que tinguéssiu a l'escriptori i alguns dels matisos d'utilització d'aquest. Al mateix temps, el que més intenta fer és identificar les dades més valuoses, aprofitant de nou la informació del registre de consultes i dient: “Hola, potser voldreu entrar i ajudar la gent a comprendre-les. Comencem a publicar consultes representatives en aquestes taules. ”De vegades és la forma més eficaç d’aconseguir que la gent s’acosti ràpidament. Permet examinar el vostre propi historial de consultes, publicar aquestes coses perquè es mostrin com a primeres consultes. Quan la gent mira una pàgina de la taula, pot veure totes les consultes que han tocat la taula i poden començar a partir d’aquí. A continuació, deixem començar a afegir títols i descripcions a aquests objectes de manera que siguin més fàcils de trobar i cercar, de manera que coneguis alguns dels matisos de com utilitzar-lo.

Ens assegurem que ens fixem en el registre de consultes per tal de generar el llinatge. Una de les coses que fem és mirar el registre de consultes en els moments en què les dades es mouen d’una taula a una altra, i això ens permet plantejar una de les preguntes més freqüents sobre una taula de dades és, d’on surt? Com puc confiar? Llavors, el que podem mostrar no és només de quines altres taules prové, sinó de com es va transformar al llarg del camí. Un cop més, aquest tipus és alimentat pel registre de consultes.

Així doncs, ens assegurem que aquestes coses estan configurades i que entraven en la línia del sistema i que tenien com a objectiu les peces de metadades més valuoses i les més altament aprofitades que podem establir a les pàgines de la taula, de manera que quan cerqueu, trobeu alguna cosa útil.

Robin Bloor: Bé. L'altra pregunta: hi ha moltes preguntes de l'audiència, així que no vull ocupar-me gaire del temps aquí. L'altra pregunta que em ve al cap és simplement el dolor. S'han comprat molts programes perquè la gent té, d'una manera o altra, problemes amb alguna cosa. Quin és el punt de dolor comú que condueix la gent a Alation?

David Crawford: Sí. Crec que n’hi ha uns quants, però crec que un dels que escoltem bastant sovint és analista a bord. "Hauré de contractar a deu, 20 i 30 persones a un termini pròxim que hauran de produir noves visions a partir d'aquestes dades, com s'aniran per agilitzar?" Així que els analistes a bord són alguna cosa que sens dubte tractem. També heu d'afavorir que els analistes sencers passin tot el temps donant resposta a preguntes d'altres persones sobre dades. També és molt freqüent. Ambdós són essencialment problemes d’educació.

Aleshores, diria que un altre lloc que veiem que la gent adopta Alation és quan volen configurar un entorn de dades totalment nou per a què algú treballi. Volen anunciar-lo i comercialitzar-lo internament perquè s’aprofiti la gent. Aleshores, convertir Alation en l'avantguarda d'aquest nou entorn analític és molt atractiu. Va obtenir la documentació, va tenir un únic punt d’introducció al - un únic punt d’accés als sistemes i, per tant, és un altre lloc on ens vingui la gent.

Robin Bloor: D'acord, us transmetré a Rebecca perquè el públic intenta contactar-vos.

Rebecca Jozwiak: Sí, tenim moltes preguntes sobre el públic molt bones. I David, aquest us va plantejar específicament. Es tracta d'algú que, aparentment, té alguna experiència amb persones com a preguntes errònies i diu que com més donem poder als usuaris, més difícil és governar un ús responsable dels recursos de càlcul. Llavors, podeu defensar-vos de la propagació de frases de consulta equivocades, però comunes?

David Crawford: Sí, veig aquesta pregunta. És una gran pregunta: la que ens fem amb freqüència. Jo he vist el dolor a empreses anteriors, on cal formar usuaris. Per exemple, “Aquesta és una taula de registre, els seus registres es remunten durant anys. Si aneu a escriure una consulta en aquesta taula, realment us heu de limitar per data. ”Així, per exemple, es tracta d’una formació que vaig fer en una empresa anterior abans de rebre l’accés a la base de dades.

Tenim un parell de maneres que intentem abordar. Diria que crec que les dades del registre de consultes són realment valuoses per abordar-les. Proporciona una altra visió respecte al que fa la base de dades internament amb el planificador de consultes. I el que fem és, una d’aquestes intervencions: tenim les intervencions manuals que vaig mostrar, i això és útil, no? Així, per exemple, en una determinada unió, podeu dir: "Supedim això". Té una gran bandera vermella quan apareix en el suggeriment intel·ligent. Es tracta d'una manera d'intentar arribar a la gent.

Una altra cosa que fem és automatitzar-les en les intervencions en temps d'execució. Thatll realment utilitzarà l’arbre analitzador de la consulta abans d’executar-lo per veure-ho, inclou un cert filtre o un parell d’altres coses que fem allà també. Però un dels més valuosos i el més senzill d’explicar és, inclou un filtre? Així, com l’exemple que acabo de donar, aquesta taula de registre, si voleu consultar-la, ha de tenir un interval de dates, podeu especificar a la pàgina de la taula allà on demaneu que s’apliqui el filtre d’interval de dates. Si algú intenta executar una consulta que no inclogui aquest filtre, en realitat els aturarà amb un gran avís i dirà: "Probablement hauríeu d'afegir una SQL que sembli a la vostra consulta". Poden continuar si volen . Al final, no els voldríem prohibir completament d’utilitzar-la; també és una consulta, al final del dia s’havien de fer consultes. Però posem una barrera força gran al davant i els donem un suggeriment, un suggeriment concret aplicable per modificar la consulta per millorar el seu rendiment.

En realitat també ho fem automàticament, en alguns casos, observant el registre de consultes. Si veiem que un percentatge realment gran de consultes d'aquesta taula s'aprofita d'un filtre determinat o d'una clàusula d'unió concreta, aleshores en realitat apareixerà. Doncs promou això a una intervenció. De fet, em va passar en un conjunt de dades intern. Tenim dades de client i tenim identificadors d’usuari, però el conjunt d’identificació d’usuari, ja que és el seu tipus: tenim identificadors d’usuari a cada client. No és únic, així que heu de combinar-lo amb un identificador de client per obtenir una clau d’adhesió única.I vaig estar escrivint una consulta i vaig intentar analitzar alguna cosa i va aparèixer i vaig dir: “Hola, sembla que tots els altres s’uneixin a aquestes taules tant amb l’ID de client com amb l’ID d’usuari. Esteu segur que no voleu fer-ho? I, realment, em va impedir fer una anàlisi incorrecta. De manera que funciona tant per la precisió de l’anàlisi com pel rendiment. De manera que això és com mirem aquest problema.

Rebecca Jozwiak: Això em sembla efectiu. Heu dit que no necessàriament impedireu que la gent obstrueixi recursos, però els heu d'ensenyar que el que fan no pot ser el millor, oi?

David Crawford: Sempre suposem que els usuaris no són maliciosos, proporcionen-los els millors propòsits, i procurem ser força oberts d'aquesta manera.

Rebecca Jozwiak: Bé. Aquí hi ha una altra pregunta: "Quina és la diferència entre un gestor de catàlegs, com en la vostra solució i una eina MDM? O, en realitat, es basa en un principal principal ampliant l’elecció de les taules de consulta, mentre que MDM ho faria automàticament, però amb el mateix principal subjacent a la recopilació de metadades. "

David Crawford: Sí, crec que quan miro les solucions tradicionals MDM, la diferència principal és filosòfica. Tot això sobre qui és l’usuari. Alation que vaig dir al començament de la meva presentació, Alation, crec que, quan vam ser fundats, vam ser fundats amb l’objectiu de permetre als analistes produir més visions, produir-les més de pressa i ser més precisos en les visions que ells. produir No crec que hagi estat mai l’objectiu d’una solució MDM tradicional. Aquestes solucions solen orientar-se a persones que necessiten produir informes sobre les dades que han estat capturades al SCC o internament amb algun altre tipus de finalitat d’auditoria. De vegades pot habilitar analistes, però és més freqüent que, si permetrà a un professional en el seu treball, és més probable que habiliti un arquitecte de dades com un DBA.

Quan penseu en coses des del punt de vista d’un analista, això és quan comenceu a crear una eina de consulta que una eina MDM mai no faria. Això quan comença a pensar tant en el rendiment com en la precisió, a més de comprendre quines dades es relacionen amb les meves necessitats empresarials. Totes aquestes coses són coses que semblen pop a la nostra ment quan dissenyem l'eina. Aprofita en els nostres algorismes de cerca, s’endinsa en la disposició de les pàgines del catàleg i la capacitat d’aportar coneixements de tota l’organització. S'entén en el fet que hem creat l'eina de consulta i que hem incorporat el catàleg directament, de manera que crec que realment prové. Quin usuari teniu en compte primer?

Rebecca Jozwiak: D'acord, bé. Això va ajudar realment a explicar-ho. que moria de fer-se amb els arxius perquè havia de marxar, però realment volia que la seva pregunta fos contestada. Va dir que es va esmentar al començament que hi ha diversos idiomes, però és SQL l'únic llenguatge emprat en el component Compose?

David Crawford: Sí, és cert. I una de les coses que he notat, ja que vaig presenciar l'explosió dels diferents tipus de bases de dades, de bases de dades de documents, de bases de dades gràfiques, de botigues de valor clau, és que són realment potents per als desenvolupaments d'aplicacions. Poden cobrir necessitats particulars allà realment, de maneres millors del que les bases de dades relacionals poden.

Però, quan la torneu a analitzar les dades, quan la torneu a proporcionar - quan voleu proporcionar aquesta informació a les persones que van a fer informes ad hoc o a l’excavació ad hoc a les dades, sempre tornen a tenir una relació Si més no, interfície per als humans. Una part només perquè SQL és la lingua franca de l’anàlisi de dades, de manera que significa, també per als humans, les eines que s’integren. Crec que aquesta és la raó per la qual SQL a Hadoop és tan popular i hi ha tants intents de resoldre-ho, perquè al final del dia això és el que la gent sap. Probablement hi ha milions de persones que saben escriure SQL i no m’atreveixo a milions que no sàpiguen escriure una consulta del marc de la canalització d’agregació Mongo. I és un llenguatge estàndard que s’utilitza per a la integració en una gran varietat de plataformes. Així, tot això, de vegades, se'ns demanava que sortíssim fora perquè aquesta és la interfície que utilitzen la majoria dels analistes i és un lloc on ens hem centrat, sobretot a Compose, que ens hem centrat a escriure SQL.

Diria que la ciència de dades és el lloc on s’aventuren més fora i, per tant, fem preguntes puntuals sobre l’ús de Pig o SAS. Es tracta de coses que sens dubte no tractem a Compose i que voldríem plasmar al catàleg. I veig també R i Python. Tenim un parell de maneres de fer interfícies que podeu utilitzar les consultes escrites en Alation dins dels scripts R i Python, així que, ja que sovint quan sou un científic de dades i treballeu en un llenguatge de script, les vostres dades d'origen es troben en una relació. base de dades. Comenceu amb una consulta SQL i després la processeu i creeu gràfics dins de R i Python. I hem creat paquets que podeu importar a les seqüències de comandes que tiren les consultes o els resultats de la consulta d'Alation perquè pugueu tenir-hi un flux de treball barrejat.

Rebecca Jozwiak: D'acord, genial. Sé que hem passat una mica per sobre de l’hora, només em plantejaré una o dues preguntes més. Sé que heu parlat de tots els diferents sistemes als quals podeu connectar-vos, però, quant a dades allotjades externament i dades allotjades internament, es poden cercar junts a la vostra vista única, a la vostra plataforma?

David Crawford: Segur. Hi ha algunes maneres de fer-ho. Vull dir, allotjat externament, m’imagino, estic intentant pensar exactament en què pot suposar això. Podria significar una base de dades que algú allotja en AWS per a vostè. Podria significar una font de dades pública de data.gov. Ens connectem directament a bases de dades iniciant la sessió de la mateixa manera que una altra aplicació amb, amb un compte de bases de dades, i així és com extreurem les metadades. Així que si tenim un compte i tenim un port de xarxa obert, podem accedir-hi. Aleshores, quan no tenim aquestes coses, tenim una cosa que es diu font de dades virtual, que us permet impulsar fonamentalment la documentació, ja sigui automàticament, escrivint el vostre propi connector o bé emplenant-ho fent com una càrrega CSV. les dades al costat de les vostres dades internes. Tot això s'introdueix al motor de cerca. Es converteix en referència als articles i altra documentació i converses al sistema. Així és com gestionem quan no podem connectar-nos directament a un sistema.

Rebecca Jozwiak: D'acord, això té sentit. Només em faig una pregunta més. Un assistent és preguntant: "Com s’ha de validar, verificar o mantenir el contingut d’un catàleg de dades, a mesura que s’actualitzen les dades de la font, a mesura que es modifiquen les dades d’origen, etc."

David Crawford: Sí, és la nostra pregunta que tenim molt, i crec que una de les coses que nosaltres, una de les nostres filosofies, com vaig dir, no creiem que els usuaris siguin maliciosos. Assumim que estan intentant aportar el millor coneixement. No entraran i enganyen deliberadament la gent sobre les dades. Si aquest és un problema a la vostra organització, potser el fitxatge no és l'eina adequada. Però, si assumiu bones intencions dels usuaris, pensem en això com en alguna cosa, en què arriben les actualitzacions, i normalment el que fem és posar un administrador a càrrec de cada objecte de dades o de cada secció de les dades. I podem avisar a aquests administradors quan es facin canvis al metadat i que puguin gestionar-lo d'aquesta manera. Veuen que hi ha actualitzacions, les validen. Si no tenen raó, poden tornar-les i modificar-les i informar-les, i esperem, fins i tot, contactar amb l’usuari que ha aportat la informació i ajudar-los a aprendre.

Així és la manera principal que pensem fer-ho. Aquest tipus de suggeriments per part de la gent i de la direcció dels administradors, de manera que tenim algunes capacitats al respecte.

Rebecca Jozwiak: D'acord, bé. I si només poguéssiu informar els usuaris de com es poden iniciar millor amb Alation, i on poden anar específicament per obtenir més informació. Sé que ho has compartit una mica. És el millor lloc?

David Crawford: Alation.com/learnmore crec que és un bon camí a seguir. Per inscriure’t a una demostració, el lloc d’Alation.com té molts recursos fantàstics, llibres blancs dels clients i notícies sobre la nostra solució. Així que crec que és un lloc ideal per començar. Tu pots també .

Rebecca Jozwiak: D'acord, genial. I ho sé, assistents, perdó si avui no he arribat a totes les preguntes, però si no, seran reenviades a David o al seu equip de vendes o a algú a Alation, de manera que poden ajudar a respondre les vostres preguntes i ajudar a entendre què és Alation. ho fa o el que fan millor.

I amb això, nois, seguiré endavant i ens signaré. Sempre podeu trobar els arxius a InsideAnalysis.com. També la podeu trobar a Techopedia.com. Solen actualitzar-se una mica més ràpidament, així que definitivament comproveu-ho. I moltes gràcies a David Crawford, Dez Blanchfield i Robin Boor avui. Ha estat una gran transmissió web. I amb això, vaig acomiadar-te. Gràcies, amics. Adeu.

David Crawford: Gràcies.