Content
- Definició: què significa la Tokenization?
- Una introducció a Microsoft Azure i al Microsoft Cloud | Durant aquesta guia, podreu conèixer què és la informàtica en núvol i com Microsoft Azure us pot ajudar a migrar i executar el vostre negoci des del núvol.
- Techopedia explica Tokenització
Definició: què significa la Tokenization?
La tokenització és l’acte de desglossar una seqüència de cadenes en peces com ara paraules, paraules clau, frases, símbols i altres elements anomenats fitxes. Les fitxes poden ser paraules individuals, frases o fins i tot frases completes. En el procés de tokenització, es descarten alguns caràcters com els signes de puntuació. Les fitxes es converteixen en l’input per a un altre procés com analitzar i minar.
La tokenització s'utilitza en informàtica, on té un gran paper en el procés d'anàlisi lèxica.
Una introducció a Microsoft Azure i al Microsoft Cloud | Durant aquesta guia, podreu conèixer què és la informàtica en núvol i com Microsoft Azure us pot ajudar a migrar i executar el vostre negoci des del núvol.
Techopedia explica Tokenització
La Tokenization es basa principalment en simple heurística per tal de separar els testimonis seguint uns quants passos:
- Els testimonis o les paraules estan separats per espais en blanc, signes de puntuació o salts de línia
- Es pot incloure o no un espai blanc o signes de puntuació segons la necessitat
- Tots els caràcters de les cadenes contigües formen part del testimoni. Els testimonis es poden constituir només per tots els caràcters alfa, caràcters alfanumèrics o nombres.
Els tokens també poden ser separadors. Per exemple, en la majoria de llenguatges de programació, es poden situar identificadors amb operadors aritmètics sense espais blancs. Tot i que sembla que aparegui com una sola paraula o testimoni, la gramàtica de la llengua considera realment l'operador matemàtic (un testimoni) com un separador, de manera que fins i tot quan es combinen diversos testimonis, encara es poden separar mitjançant la matemàtica operador