¿Se incluirán las palabras de aviso del sistema en el cálculo del token AI?

Muchas personas tendrán la misma pregunta después de comenzar a usar AI API: ¿Las indicaciones del sistema y las instrucciones del sistema que escribí yo mismo también se contarán como tokens?

La respuesta es lo primero: normalmente sí. Siempre que ese contenido se envíe al modelo en la solicitud, sin importar que se llame mensaje del sistema, instrucciones del sistema o instrucciones del desarrollador, en principio es parte del extremo de entrada y afectará el token de entrada, la longitud del contexto y, generalmente, el costo. Este es el punto central de su manuscrito.

Si está buscando esta pregunta ahora, generalmente no desea conocer la definición abstracta, pero desea saber tres cosas:

¿Las palabras del sistema se comerán el token de entrada?

¿Las palabras del sistema afectarán el costo?

Las palabras del sistema serán demasiado largas y el contexto explotará rápidamente

Este artículo responde directamente a estas tres preguntas e intentará explicarlas claramente de la manera más vernácula.

Hablemos primero de la versión más vernácula

Puede pensar en una solicitud de API como un paquete de datos enviado al modelo. Siempre que el modelo lea el contenido de este paquete, generalmente se cuenta en el lado de entrada.

Indicaciones del sistema/instrucciones del sistema que escribiste

Archivos, imágenes y contenido PDF cargados

Otros contextos que incorporaste activamente a la solicitud

Entonces, ¿cuentan las palabras de las indicaciones del sistema?

Olvídalo. La premisa es que usted mismo introduce el mensaje del sistema en la solicitud. Este es también el principio que debe adoptar al realizar estimaciones de costes.

¿Por qué el aviso del sistema suele contar para el token?

La razón es realmente muy simple: porque el modelo no solo analiza la pregunta del usuario, sino que también analiza el paquete completo de información que usted le proporcionó en la solicitud.

Puedes entender el mensaje del sistema como "primero le dices las reglas de fondo del modelo". Dado que el modelo realmente necesita leer estas reglas, no puede ocupar tokens por completo. Es por eso que mucha gente sabe que la pregunta del usuario es muy corta, pero el token de entrada en segundo plano sigue siendo muy alto, porque lo que realmente se envía al modelo no es solo una oración, sino:

indicador del sistema

La suma de todo es el aporte de esa solicitud.

Lo que confunde a mucha gente: la palabra del mensaje del sistema no es solo el párrafo "sistema"

Muchos novatos piensan que solo el párrafo marcado con la función del sistema se llama costo de la palabra del mensaje del sistema. Pero, de hecho, las reglas, roles, herramientas y requisitos de formato que le informa al modelo desde el principio a menudo se convierten en cargas de entrada.

Cosas comunes que consumen tokens de entrada juntos

Esquema JSON de salida

En otras palabras, no es solo la pregunta del usuario lo que cuenta. Muchas cosas que cree que simplemente se "configuran primero" en realidad pueden incluirse en el cálculo del token.

Esta es la razón por la que una vez que se completa el producto oficial o el proceso automatizado, la gente a menudo comienza a estudiar:

Cómo acortar el mensaje del sistema

Qué reglas se pueden eliminar

Qué contenido vale la pena almacenar en caché

¿Se puede simplificar más la definición de la herramienta

Porque lo que realmente hace que la entrada engorde a menudo no es el usuario, sino la capa del sistema en sí.

¿El mensaje del sistema también se incluirá en el límite de contexto?

Esto no es solo una cuestión de costos, sino también una cuestión de ventana de contexto. Si el mensaje de su sistema es muy largo y tiene muchas descripciones de herramientas, además de historial de conversaciones y fragmentos de archivos, pronto descubrirá que el usuario solo hace una pregunta, pero toda la solicitud se ha vuelto muy pesada.

Por lo tanto, si el aviso del sistema es demasiado largo, las consecuencias generalmente no son solo un ligero aumento de costos, sino que también pueden hacer que usted:

Llega al límite del contexto más rápido

Es más fácil comprimir el espacio de salida

Es más fácil que las definiciones largas de herramientas ralenticen el rendimiento general de los costes

Para los principiantes, la forma más práctica de entender es:

El aviso del sistema no se trata solo de si cuesta dinero, sino que también consume el espacio que el modelo puede manejar.

Después del almacenamiento en caché, ¿seguirán contando las palabras del mensaje del sistema?

Sí, pero es posible que no se calcule utilizando el algoritmo de entrada general.

Si la plataforma tiene almacenamiento en caché, las palabras de aviso del sistema o los prefijos fijos utilizados repetidamente pueden aparecer en uso en forma de entrada en caché o lectura en caché más tarde. Este también es un punto muy importante mencionado en su manuscrito original: después del almacenamiento en caché, no "no se cuenta", pero "todavía se cuenta, pero el algoritmo generalmente cambia y, a menudo, es menos costoso".

Si utilizas el mismo mensaje largo del sistema cada vez, a veces verás esto en segundo plano:

Parte de esto es entrada normal

Parte de esto es entrada en caché/lectura de caché

Algunas plataformas también pueden tener costos adicionales de almacenamiento en caché

Por lo tanto, la respuesta no es "no cuenta después del almacenamiento en caché", sino:

Aún cuenta después del almacenamiento en caché, pero generalmente es más barato que el reenvío completo cada vez.

Esta es la razón por la que vale la pena estudiar el almacenamiento en caché de flujos de trabajo con reglas fijas, roles fijos y fondos fijos.

¿Existe algún tipo de "contenido del sistema" que no cuente como su dinero?

Esta pregunta es muy importante porque mucha gente la malinterpretará aquí.

El enfoque más práctico y seguro es entenderlo de esta manera:

Usted mismo toma la iniciativa de enviar el contenido del sistema de la solicitud

Por lo general, primero trátelo como un cálculo. Esto incluye los que usted mismo escribió:

instrucciones del desarrollador

esquema de herramientas

los tokens de optimización internos agregados detrás de escena por la propia plataforma

Es posible que tales situaciones no se cuenten en su contenido pago. Usted mencionó un detalle muy importante en su manuscrito original: algunas plataformas agregarán algunos tokens adicionales dentro del sistema para la optimización, pero es posible que estos tokens de optimización del sistema del lado del proveedor no necesariamente se cuenten en el contenido por el que realmente se le cobra.

Para fines prácticos, la forma más segura de juzgar no es adivinar lo que se agrega detrás de la plataforma, sino utilizar directamente este principio:

Cualquier sistema/instrucción/herramienta/esquema que envíe explícitamente a la solicitud primero se considerará que afecta el costo de entrada y el contexto.

Esta es la forma menos probable de subestimar el costo.

¿Qué aviso del sistema tiene el mayor impacto en los costos?

Lo que es más probable que infle los costos no suele ser una frase corta "Eres un asistente", sino lo siguiente:

Formatos y ejemplos muy detallados

Una gran cantidad de herramientas/definiciones de funciones

Datos de fondo fijos que se reenvían con cada solicitud

Lo que estas cosas tienen en común es: no parecen contenido del usuario, pero en realidad consumen información cada vez.

Muchos equipos descubrirán más tarde que lo que realmente hace que la entrada sea pesada no es necesariamente un problema del usuario, sino que la capa del sistema que diseñaron es demasiado pesada.

¿Qué columna debo mirar en segundo plano para saber si el mensaje del sistema está incluido?

Si desea ver el uso, la atención se centra generalmente en los campos relacionados con el token de entrada/solicitud.

Para usted, el método más práctico no es adivinar, sino comparar directamente:

El primer paso es mantener el indicador actual del sistema y mirar primero el token de entrada.

El segundo paso es eliminar o acortar en gran medida el mensaje del sistema y volver a mirar el token de entrada.

El tercer paso es comparar la diferencia antes y después.

Si la diferencia es grande, significa que el indicador de su sistema necesita muchos tokens.

¿Dónde se utiliza mejor este tipo de inspección?

Sospechas que el mensaje del sistema es demasiado largo

Crees que las preguntas del usuario son breves, pero la entrada es muy alta

Vas a iniciar oficialmente el proceso

Empiezas a preocuparte por el costo mensual

Quieres saber si vale la pena acortar el mensaje antes de revisarlo

Para los principiantes, esto es más útil que simplemente mirar la teoría.

Porque no sólo sabes “cómo calcular”, sino que puedes saber directamente “cuánto puedes calcular”.

El cálculo del token AI generalmente tiene en cuenta las palabras de aviso del sistema que usted proporciona.

Siempre que sea parte de la solicitud, en principio pertenece al lado de entrada y afectará:

uso del token

ventana de contexto

generalmente también afecta el costo

Por lo tanto, una notación más práctica no es preguntar "¿Cuenta el mensaje del sistema?", sino preguntar:

¿Envié activamente este contenido al modelo? Si es así, trátelo como si supiera calcular primero.

De esta manera es menos probable que subestime el costo y es menos probable que se asuste con el token de entrada después de conectarse.

Palabras de aviso del sistema y preguntas del usuario, ¿cuál cuenta como entrada?

Ambos generalmente se consideran entradas. Siempre que estén ambos en la solicitud, los modelos se leen juntos. Está muy claro en su manuscrito original que los mensajes del sistema, la entrada de mensajes y las herramientas generalmente pertenecen al lado de entrada.

¿El esquema de herramienta/función también cuenta como token?

Normalmente sí. Porque las definiciones de herramientas, las descripciones de funciones y las reglas de parámetros son esencialmente lo que el modelo necesita leer y no son fondos gratuitos.

¿El mensaje del sistema no cuenta después del almacenamiento en caché?

No. Después del almacenamiento en caché, generalmente todavía se calcula, pero se puede cambiar a un método de cálculo más económico, como entrada en caché/lectura de caché.

¿Por qué el usuario solo pide una frase, pero la entrada es muy alta?

Porque lo que realmente se envía al modelo generalmente no es solo esa oración, sino que también puede incluir indicaciones del sistema, diálogos históricos, definiciones de herramientas, fragmentos de conocimiento, etc.

¿Las indicaciones del sistema afectarán el límite de contexto?

Normalmente sí. Debido a que es lo que el modelo quiere ver, ocupará el espacio del contexto juntos.

¿Qué aviso del sistema tiene más probabilidades de aumentar los costos?

Por lo general, una especificación de marca larga, muchos ejemplos, muchas definiciones de herramientas, un prefijo de base de conocimientos extenso e información general fija que se reenvía cada vez.

Fuente de datos y declaración de credibilidad

Este artículo está compilado y escrito en base a los documentos oficiales relacionados con el recuento de tokens, los precios y las estructuras de solicitud de las principales plataformas de IA, centrándose en las descripciones públicas de los tokens de entrada, las instrucciones del sistema, las definiciones de herramientas, los tokens almacenados en caché y el recuento rápido de OpenAI, Anthropic y Gemini. El contenido está organizado desde tres perspectivas: "estructura de la solicitud × costo de los insumos × impacto del contexto". El propósito no es sólo responder si contará, sino ayudar a los lectores a establecer una forma de comprensión que sea menos probable que subestime el costo. La dirección de su manuscrito original es correcta. Esta versión mía es para organizarla en una versión más completa que se pueda subir directamente al sitio web.

Si desea tener una comprensión más completa de la dirección de organización de este tipo de contenido, puede volver a AI Token y echar un vistazo.

Este artículo pertenece a la categoría de "Computación de tokens AI".

Esta categoría organiza principalmente el método de cálculo de AI Token, la diferencia entre entrada y salida, la conversión del recuento de palabras, la estimación de uso, la interpretación de costos del sistema y la lógica de facturación API. Ayuda a los principiantes cuando entran en contacto con ChatGPT, Claude, Gemini u otras API de IA a saber no solo cómo se calculan los tokens, sino también qué contenido se incluirá en la entrada.

¿Cómo calcular el token AI? Los novatos comprenden el método de cálculo más básico

¿Cómo comprobar el uso de AI Token? Los principiantes pueden comprender los números del backend y ya no confundirse

¿Cómo calcular el costo del token AI? Se puede ver más claramente en la separación de entrada y salida

¿Qué es la plataforma AI API? ¿Cuál es la diferencia entre usar herramientas de chat directamente?

uso de tokens
tokens de entrada

AI Token organiza los conceptos básicos, métodos de cálculo, tarifas de API y comparaciones de modelos de AI Token (elementos de palabras) y cubre modelos comunes como ChatGPT, Gemini, Claude, etc. para ayudarlo a establecer una comprensión clara y un juicio más rápido.

¿Se incluirán las palabras de aviso del sistema en el cálculo del token AI?