Montevive

/ Blog /

Noticias

Montevive

El tokenizador de ALIA: por qué el español, catalán, euskera y gallego cuestan casi la mitad de tokens que en Llama 3

·erobles·Artificial Intelligence
El tokenizador de ALIA: por qué el español, catalán, euskera y gallego cuestan casi la mitad de tokens que en Llama 3

Lo que no ves cuando usas un LLM: no lee tu texto, lee tokens

Cuando le pides algo a ChatGPT, a Claude o a tu LLM local, el modelo nunca ve la frase que has escrito. Lo primero que pasa es que un componente llamado tokenizador parte tu texto en piezas — tokens — y al modelo solo le llegan números. Toda la inferencia (y todo el coste) opera sobre esos tokens, no sobre las palabras.

La consecuencia, que casi nadie discute en público: dos modelos pueden gastar cantidades muy distintas de tokens para procesar exactamente el mismo texto. Y los modelos entrenados pensando en inglés son mucho menos eficientes con el resto de idiomas.

Hace unas semanas publicamos ALIA cuantizado a NVFP4 para que cualquiera pudiera ejecutarlo en una NVIDIA DGX Spark. Investigando esa parte descubrimos algo que merece su propio artículo: el tokenizador de ALIA es radicalmente diferente al de Llama 3, Mistral o GPT, y para los idiomas peninsulares es entre 1,7 y 2 veces más eficiente.

Como un párrafo no convence a nadie, hemos construido una herramienta para que lo veas tú mismo:

🌐 Pruébalo en directo: labs.montevive.ai/alia-tokenizer-comparison/ — comparador en directo entre los tokenizadores de ALIA, Llama 3 y Mistral. Pega cualquier texto y mira en tiempo real cómo cada modelo lo trocea. Se ejecuta 100 % en tu navegador: ningún texto sale de tu equipo.

🎥 Demo en vídeo (3 min): — un recorrido visual por la demo con ejemplos en castellano, catalán, euskera y gallego.

Los números, en una tabla

Tomamos un párrafo administrativo en cada uno de los cuatro idiomas peninsulares y lo pasamos por los tres tokenizadores. El resultado es contundente:

IdiomaALIALlama 3MistralALIA vs Llama 3
Castellano (texto jurídico-administrativo)31 tokens53671,71× más eficiente
Catalán (texto institucional)34 tokens62781,82× más eficiente
Euskera (servicios públicos)42 tokens811021,93× más eficiente
Gallego (administración local)38 tokens65801,71× más eficiente
Inglés (texto equivalente)47 tokens41500,87× (Llama 3 gana)

Donde más se nota es en el vocabulario administrativo y propio del territorio — exactamente el caso de uso que más interesa a una administración pública española:

  • Generalitat1 token en ALIA, 3 tokens en Llama 3 (Gen, eral, itat)
  • ayuntamiento1 token en ALIA, 3 tokens en Llama 3 (ay, untami, ento)
  • Cataluña1 token en ALIA, 3 tokens en Llama 3
  • Euskadi1 token en ALIA, 4 tokens en Llama 3
  • Xunta1 token en ALIA, 2 tokens en Llama 3
  • concejalía1 token en ALIA, 4 tokens en Llama 3

ALIA reconoce estas piezas como unidades atómicas. Llama 3 las descompone en fragmentos sin significado.

¿Y eso por qué importa? Cuatro razones concretas

1. Coste

El precio de cualquier API LLM se mide en tokens, no en palabras. Si tu RAG procesa 10 millones de palabras al mes en castellano, con un tokenizador anglosajón pagas un 70-90 % más sobre lo que pagarías con un tokenizador como el de ALIA. La diferencia se compone: prompt + contexto recuperado + respuesta, todo cuenta.

Para un sistema RAG sobre el BOE, expedientes municipales o documentación sanitaria — donde un solo prompt puede llevar varios miles de palabras de contexto — la cuenta anual cambia de orden de magnitud.

2. Velocidad

La velocidad de generación de un LLM se mide en tokens por segundo, no en palabras por segundo. Si tu modelo genera a 50 tok/s, y tu tokenizador necesita 1,7× más tokens para el mismo párrafo, tu usuario percibe 1,7× menos velocidad. Para un asistente conversacional en castellano, ese factor es la diferencia entre "instantáneo" y "se nota la latencia".

3. Ventana de contexto

Todos los LLMs tienen un límite de contexto medido en tokens. Con un tokenizador eficiente, en la misma ventana cabe casi el doble de texto en español:

  • Llama 3 con 8.192 tokens de contexto ≈ ~6.000 palabras de español
  • ALIA con 8.192 tokens de contexto ≈ ~10.000 palabras de español

Para RAG sobre documentos largos (sentencias, expedientes administrativos, historias clínicas) eso es la diferencia entre "tengo que partir el documento en cinco trozos" y "cabe entero".

4. Calidad

Es la consecuencia más sutil pero quizá la más importante. Cuando un modelo trocea ayuntamiento en ay + untami + ento, su mecanismo de atención tiene que reconstruir el significado a partir de fragmentos sin sentido individual. Cada token "ve" peor el resto de la frase, y el modelo gasta capacidad en re-ensamblar palabras antes incluso de empezar a razonar sobre ellas.

Cuando ALIA ve ayuntamiento como un único token, ese token ya carga la semántica completa de la palabra desde el principio. La calidad de las respuestas en español sube — no porque el modelo sea mejor en abstracto, sino porque el input es más limpio.

Por qué ALIA es así: un vocabulario hecho a medida desde cero

La mayoría de modelos open source actuales heredan su tokenizador de Llama (128.000 tokens, BPE estilo tiktoken) o de Mistral (32.000 tokens, SentencePiece). Esos vocabularios fueron entrenados sobre corpus dominados por el inglés. Las palabras en español, catalán, euskera o gallego no estaban suficientemente representadas para conseguir una codificación eficiente, así que aparecen troceadas.

ALIA hace algo diferente: el equipo del Barcelona Supercomputing Center entrenó un tokenizador SentencePiece desde cero sobre un corpus multilingüe ibérico, con un vocabulario de 256.000 tokens — el doble que Llama 3 y ocho veces el de Mistral. Ese tamaño extra se gasta en piezas útiles para los idiomas peninsulares: nombres de instituciones, vocabulario jurídico-administrativo, morfología verbal del catalán, sufijos del euskera, raíces del gallego.

El resultado es lo que muestra la demo: cada palabra "natural" de la administración ibérica se codifica como una sola pieza, no como un puzzle de fragmentos.

Lo que esto significa para tu proyecto

Si trabajas con texto en castellano, catalán, euskera o gallego — y especialmente si trabajas con texto administrativo, jurídico o sectorial español — usar un LLM con un tokenizador anglosajón es una pérdida silenciosa de eficiencia que se nota en factura, en latencia y en calidad de respuesta.

ALIA en NVFP4 te da las dos cosas a la vez:

  1. El tokenizador ibérico: ~1,7× menos tokens para el mismo texto en lenguas peninsulares
  2. Un modelo de 40B parámetros entrenado sobre datos representativos de la cultura ibérica, ahora ejecutable y adaptable en una NVIDIA DGX Spark de 4.000 € gracias a la cuantización NVFP4

Si quieres entender cómo desplegar y adaptar ALIA al dominio de tu organización, lo contamos en este otro artículo.

Pruébalo ahora mismo

La demo está en labs.montevive.ai/alia-tokenizer-comparison/. Pega un párrafo de tu BOJA local, una sentencia del Tribunal Constitucional, una circular de tu empresa. Verás los tres tokenizadores trabajando en paralelo, con el conteo de tokens, el ratio de eficiencia y los chips coloreados de cada pieza.

Y todo se ejecuta 100 % en tu navegador, con transformers.js: ningún texto que pegues sale de tu equipo, ni siquiera para hacer la tokenización. Coherente con cómo construimos las cosas en Montevive.

Más demos en el laboratorio

Esta es la segunda demo de labs.montevive.ai. La primera, también local-first y privada, detecta información personal (PII) en el texto que pegas, sin servidores y sin enviar datos a ningún sitio:

Mismo principio en ambos casos: lo que se pueda hacer en local sin perder calidad, debe hacerse en local.

Sobre ALIA: colaboración entre el BSC y centros de investigación españoles

ALIA está coordinado por el Barcelona Supercomputing Center (BSC-CNS), bajo el liderazgo de la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA) y el impulso del Gobierno de España.

El proyecto se construye sobre ILENIA (Impulso de las Lenguas en Inteligencia Artificial), un consorcio que integra centros de investigación especializados en tecnologías del lenguaje para cada lengua cooficial:

Centros participantes

Financiación: Plan de Recuperación, Transformación y Resiliencia (NextGeneration EU), EuroHPC Joint Undertaking (consorcio europeo de supercomputación) y comunidades autónomas.

ALIA representa la convergencia de estos esfuerzos previos hacia una infraestructura única, multilingüe y soberana, entrenada sobre MareNostrum 5 (BSC, Barcelona).

¿Quieres adaptar ALIA a tu organización?

En Montevive AI ayudamos a administraciones, empresas reguladas y cooperativas a desplegar IA generativa dentro de su propia infraestructura, manteniendo los datos en casa:

  • Fine-tuning de dominio sobre ALIA, adaptado a tu terminología (legal, sanitaria, sectorial)
  • Despliegue en NVIDIA DGX Spark, servidores Blackwell o cloud privada
  • Integración con tus sistemas existentes: APIs, RAG, agentes especializados

📧 Contacto: info@montevive.ai
🌐 Más información: montevive.ai

ALIA es de todos. Y su tokenizador, además, es para nosotros.