Cuestionario sobre Tokenización y Embeddings

Cuestionario sobre Tokenización y Embeddings

Professional Development

10 Qs

quiz-placeholder

Similar activities

Tema 4. Recepción y distribución de radio y TV satélite

Tema 4. Recepción y distribución de radio y TV satélite

Professional Development

15 Qs

UNI-MBA-IAS4 DATA MANAGEMENT

UNI-MBA-IAS4 DATA MANAGEMENT

Professional Development

10 Qs

Actividad Quiz Gerencia de Telecomunicaciones

Actividad Quiz Gerencia de Telecomunicaciones

Professional Development

10 Qs

IPE DAM IES TELESFORO BRAVO

IPE DAM IES TELESFORO BRAVO

Professional Development

12 Qs

EVALUACIÓN INICIAL AUTOMATISMOS

EVALUACIÓN INICIAL AUTOMATISMOS

Professional Development

10 Qs

Procesamiento de datos y machine learning

Procesamiento de datos y machine learning

Professional Development

13 Qs

Cuestionario de Álgebra Lineal

Cuestionario de Álgebra Lineal

Professional Development

10 Qs

UCSUR Evaluación Diagnóstica de Analisis de Contenidos

UCSUR Evaluación Diagnóstica de Analisis de Contenidos

Professional Development

10 Qs

Cuestionario sobre Tokenización y Embeddings

Cuestionario sobre Tokenización y Embeddings

Assessment

Quiz

Information Technology (IT)

Professional Development

Medium

Created by

Kevin Muñoz

Used 2+ times

FREE Resource

10 questions

Show all answers

1.

MULTIPLE CHOICE QUESTION

1 min • 1 pt

¿Cuál es el propósito principal de la tokenización en el Procesamiento del Lenguaje Natural (PLN)?

Traducir el texto a diferentes idiomas.

Dividir el texto en unidades más pequeñas y manejables para que los modelos puedan procesarlo.

Corregir errores gramaticales en el texto.

Generar un resumen automático del texto.

2.

MULTIPLE CHOICE QUESTION

1 min • 1 pt

Según el texto, ¿cómo manejan los modelos avanzados como GPT-4o la tokenización de palabras como 'maúlla'?

Siempre la tratan como un único token porque es una palabra completa.

La dividen en subpalabras más pequeñas (por ejemplo, 'ma', 'úll', 'a').

La ignoran si no está en su vocabulario principal.

La convierten directamente en un embedding sin tokenizarla.

3.

MULTIPLE CHOICE QUESTION

1 min • 1 pt

¿Cuál es una ventaja clave de la tokenización de subpalabras mencionada en el documento?

Hace que el proceso de tokenización sea más rápido que la tokenización por palabras.

Reduce la necesidad de generar embeddings.

Permite manejar palabras raras o desconocidas dividiéndolas en partes que el modelo ya conoce.

Asegura que cada palabra siempre corresponda a un único token.

4.

MULTIPLE CHOICE QUESTION

1 min • 1 pt

¿Por qué es necesario asignar un ID numérico único a cada token después de la tokenización?

Para contar el número total de palabras en el texto.

Para que las computadoras, que solo trabajan con números, puedan procesar los tokens y usarlos como base para los embeddings.

Para facilitar la traducción del token a otros idiomas.

Para ordenar los tokens alfabéticamente antes de generar embeddings.

5.

MULTIPLE CHOICE QUESTION

1 min • 1 pt

¿Qué es un 'embedding' en el contexto del PLN, según la explicación proporcionada?

Un algoritmo para tokenizar texto de forma eficiente.

Una representación numérica (un vector) de un token que captura su significado en contexto.

Un identificador único asignado a cada palabra del vocabulario.

Una técnica para comprimir el texto y reducir su tamaño.

6.

MULTIPLE CHOICE QUESTION

1 min • 1 pt

¿Cuál es la idea clave detrás de los embeddings respecto a palabras con significados similares?

Tendrán embeddings con un mayor número de elementos.

Sus embeddings serán muy diferentes para evitar confusión.

Tendrán representaciones vectoriales (embeddings) cercanas en el espacio multidimensional.

Serán tokenizadas usando un menor número de subpalabras.

7.

MULTIPLE CHOICE QUESTION

1 min • 1 pt

¿Qué significa que los LLM modernos generan 'embeddings contextuales'?

Que el embedding de una palabra es siempre el mismo, sin importar la oración.

Que el embedding de una palabra cambia dependiendo de las otras palabras que la rodean en la oración.

Que solo se generan embeddings para palabras que aparecen en contextos muy específicos.

Que los embeddings se actualizan cada vez que el contexto global del documento cambia.

Create a free account and access millions of resources

Create resources
Host any resource
Get auto-graded reports
or continue with
Microsoft
Apple
Others
By signing up, you agree to our Terms of Service & Privacy Policy
Already have an account?