Tokenització

Autora: Louise Ward
Data De La Creació: 8 Febrer 2021
Data D’Actualització: 17 Ser Possible 2024
Anonim
Tokenització - Tecnologia
Tokenització - Tecnologia

Content

Definició: què significa la Tokenization?

La tokenització és l’acte de desglossar una seqüència de cadenes en peces com ara paraules, paraules clau, frases, símbols i altres elements anomenats fitxes. Les fitxes poden ser paraules individuals, frases o fins i tot frases completes. En el procés de tokenització, es descarten alguns caràcters com els signes de puntuació. Les fitxes es converteixen en l’input per a un altre procés com analitzar i minar.


La tokenització s'utilitza en informàtica, on té un gran paper en el procés d'anàlisi lèxica.

Una introducció a Microsoft Azure i al Microsoft Cloud | Durant aquesta guia, podreu conèixer què és la informàtica en núvol i com Microsoft Azure us pot ajudar a migrar i executar el vostre negoci des del núvol.

Techopedia explica Tokenització

La Tokenization es basa principalment en simple heurística per tal de separar els testimonis seguint uns quants passos:

  • Els testimonis o les paraules estan separats per espais en blanc, signes de puntuació o salts de línia
  • Es pot incloure o no un espai blanc o signes de puntuació segons la necessitat
  • Tots els caràcters de les cadenes contigües formen part del testimoni. Els testimonis es poden constituir només per tots els caràcters alfa, caràcters alfanumèrics o nombres.

Els tokens també poden ser separadors. Per exemple, en la majoria de llenguatges de programació, es poden situar identificadors amb operadors aritmètics sense espais blancs. Tot i que sembla que aparegui com una sola paraula o testimoni, la gramàtica de la llengua considera realment l'operador matemàtic (un testimoni) com un separador, de manera que fins i tot quan es combinen diversos testimonis, encara es poden separar mitjançant la matemàtica operador