RAG vs. Fine-tunning vs. Ingeniería de prompts: todo lo que necesita saber

RAG vs. Fine-tunning vs. Ingeniería de prompt

Retrieval Augmented Generation (RAG), el fine-tunning y la ingeniería de prompt son tres de las formas más populares de entrenar modelos de IA para casos concretos de uso empresarial.

Cada método ofrece ventajas distintas y la elección del enfoque correcto, o de una combinación de enfoques, puede influir significativamente en el éxito de la aplicación de IA.

Este artículo desglosa cada enfoque, examinando sus puntos fuertes, limitaciones y casos de uso idóneos. Exploraremos cuándo utilizar cada método, cómo implementarlos eficazmente y cómo InterSystems IRIS encaja con la estrategia elegida.

Tanto si se está empezando con la mejora de la IA como si se busca optimizar las aplicaciones existentes, esta guía contribuirá a tomar decisiones informadas sobre qué enfoque adoptar para implementar la IA.

Criterios

Ingeniería Prompt

RAG

Fine-tuning

Aplicación

Fácil

Medio

Complejo

Coste

Bajo

Medio

Alta

Precisión

Variable

Alta

Mantenimiento

Bajo

Medio

Alta

Resumen de las diferencias

Cada método ofrece ventajas únicas para mejorar el rendimiento de los grandes modelos lingüísticos (LLM):

Ingeniería de promt: es un enfoque básico consistente en elaborar instrucciones específicas para guiar las respuestas de los modelos lingüísticos.
RAG (Retrieval Augmented Generation): mejora los resultados del LLM conectando con fuentes externas de conocimiento.
Fine-tunning: adapta los modelos preentrenados a tareas específicas mediante un entrenamiento adicional.

Los tres responden a necesidades diferentes y pueden utilizarse de forma independiente o conjunta. La ingeniería de prompt ofrece el camino más rápido hacia la implementación, por lo que encaja perfectamente en proyectos y pruebas iniciales de IA.

RAG añade fiabilidad conectando las respuestas de IA a fuentes de información verificadas, lo que ayuda a evitar resultados incorrectos y mantiene las respuestas actualizadas.

Fine-tunning requiere más trabajo previo, pero puede crear modelos de IA muy especializados que funcionen de forma consistente para tareas específicas. Muchas implantaciones de IA que han tenido éxito combinan varios enfoques: por ejemplo, el uso del RAG para proporcionar información precisa, al tiempo que se aprovecha el fine-tunning para mantener formatos de respuesta coherentes.

Fundamentos de ingeniería de prompt

La ingeniería Prompt ofrece el camino más rápido hacia la implantación, lo que la hace perfecta para los proyectos iniciales de IA.

Qué es y cómo funciona

La ingeniería de prompt implica crear instrucciones claras para que los LLM generen los resultados deseados. Es la base de una interacción eficaz con la IA y requiere una cuidadosa atención a la redacción y la estructura.

Componentes clave

Una ingeniería prompt eficaz depende de que varios componentes esenciales trabajen juntos.

1. Instrucciones claras

En su base hay instrucciones claras que le dicen al LLM exactamente lo que se quiere que haga. Estas instrucciones deben ser específicas e inequívocas, evitando indicaciones vagas que puedan dar lugar a resultados incoherentes.

2. Contexto

La contextualización proporciona al LLM información de fondo sobre su función y propósito. Por ejemplo, puede especificarse que el LLM debe actuar como especialista en soporte técnico con experiencia en sistemas de bases de datos, o indicar que debe escribir en un tono específico para su público objetivo.

3. Ejemplos

Los ejemplos, a menudo denominados few-shot learning, muestran al LLM cómo son los buenos resultados. Al proporcionar 2-3 ejemplos de alta calidad de preguntas y respuestas, se ayuda al modelo a comprender los patrones que debe seguir. Este enfoque es especialmente eficaz cuando se necesita un formato específico o estilos de respuesta coherentes.

4. Especificaciones del formato de salida

Las especificaciones del formato de salida indican al LLM exactamente cómo estructurar su respuesta. Esto puede incluir requisitos de formato JSON, cabeceras específicas o formas particulares de organizar la información. Unas directrices de formato claras garantizan que los resultados del LLM puedan ser procesados fácilmente por el resto de la aplicación.

Analyst or Scientist uses a computer and dashboard for analysis of information on complex data sets on computer.

Ventajas y limitaciones

Ventajas:

Fácil de poner en práctica: la creación de prompts sólo requiere conocimientos básicos de escritura y comprensión de los LLM. Cualquiera puede empezar a crearlos con un mínimo de conocimientos técnicos.
No necesita infraestructura adicional: se puede empezar a utilizar la ingeniería prompt con sólo una clave API y acceso a un servicio LLM. No se necesitan bases de datos, servidores ni complejas configuraciones técnicas.
Rápido de modificar y probar: los cambios en los prompt pueden hacerse al instante y probarse inmediatamente con consultas reales. Esta rápida iteración permite perfeccionar las respuestas de la aplicación de IA con agilidad.
Punto de partida rentable: dado que sólo se paga por el uso de la API sin costes adicionales de infraestructura, la ingeniería prompt ofrece una forma práctica de iniciar proyectos de IA con una inversión mínima.

Limitaciones:

Limitado por el tamaño de la ventana de contexto: cada LLM tiene un número máximo de tokens que puede procesar a la vez. Esto significa que no se pueden incluir grandes cantidades de información o largas conversaciones en un solo mensaje.
Requiere experiencia en la elaboración de prompt: aunque empezar es fácil, crear prompt siempre eficaces requiere práctica y un profundo conocimiento de cómo interpretan las instrucciones los LLM. Los pequeños cambios en la redacción pueden influir significativamente en los resultados.
Puede producir resultados incoherentes: sin controles estrictos, el mismo prompt puede generar respuestas diferentes cada vez. Esta variabilidad puede dificultar el mantenimiento de una calidad de producción constante.
No se pueden añadir nuevos conocimientos al modelo: el modelo solo puede trabajar con la información de sus datos de entrenamiento originales. Cualquier dato nuevo o actualización debe incluirse en cada consulta, lo que lo hace ineficaz para aplicaciones que requieren muchos conocimientos actuales o especializados.

Cuándo utilizar la ingeniería de prompt

Elija la opción de ingeniería si puede responder SÍ a:

¿Puede explicarse claramente la tarea en un aviso?
¿Le basta con tener conocimientos generales?
¿Se siente cómodo con cierta variación en las respuestas?
¿Necesita una solución rápida?
¿Tiene un presupuesto limitado?

Si responde NO a dos o más de estas preguntas, conviene considerar el explorar enfoques RAG o de ajuste.

Banderas rojas

Prompt engineering podría NO ser la mejor opción si:

Es necesarios hacer referencia a grandes cantidades de información específica sobre la que no se formó el LLM.
La aplicación requiere resultados perfectamente coherentes.
Los datos que se manejan son sensibles o confidenciales.
Se necesita información en tiempo real o actual.
La aplicación gestionará miles de peticiones por hora.
Es necesario un razonamiento complejo, de varios pasos y de gran precisión.

Generación de Recuperación Aumentada (RAG)

RAG combina la potencia de los LLM con el acceso a los datos en tiempo real, por lo que es idónea para las aplicaciones que necesitan información actualizada.

Cómo funciona RAG

What is RAG? (Retrieval Augmented Generation)

RAG combina los LLM con fuentes de datos externas, lo que permite acceder en tiempo real a información no incluida en la formación original. Esto lo hace especialmente útil para aplicaciones que requieren conocimientos actuales o especializados.

Componentes del sistema

1. Base de conocimientos o almacén de documentos

El núcleo de cualquier sistema RAG es su base de conocimientos, que alberga toda la información a la que puede acceder el sistema. Este componente almacena los documentos, artículos, manuales y otros recursos basados en texto de la organización. La calidad y la organización de esta información influyen directamente en la precisión de las respuestas del sistema.

Female IT specialist, male coder talking to connect internet, information update and cloud computing

2. Base de datos vectorial

La base de datos vectorial sirve como motor de búsqueda inteligente del sistema RAG. A diferencia de las tradicionales, que coinciden con palabras exactas, las vectoriales entienden el significado que hay detrás del texto. Almacenan la información en un formato matemático que permite realizar búsquedas rápidas por similitud, haciendo posible encontrar información relevante incluso cuando la redacción difiere de la consulta original.

3. Modelo Embedding

El modelo Embedding, o de incrustación, actúa como traductor, convirtiendo el lenguaje humano en un formato que los ordenadores puedan procesar eficazmente. Toma el texto, tanto de los documentos almacenados como de las consultas entrantes, y lo transforma en vectores numéricos que captan el significado del contenido. Estos vectores permiten al sistema comprender las relaciones y similitudes entre distintos fragmentos de texto, lo que hace posible la búsqueda semántica.

4. Sistema de recuperación

El sistema de recuperación funciona como coordinador, gestionando cómo fluye la información entre los componentes. Cuando llega una pregunta, este sistema la procesa a través del modelo de incrustación, busca en la base de datos vectorial y se asegura de que los datos recuperados son relevantes antes de pasarlos al LLM.

5. Gran modelo lingüístico

El LLM funciona como comunicador experto, recibiendo tanto la pregunta del usuario como la información relevante recuperada. Procesa esta entrada combinada para generar respuestas naturales y coherentes que incorporen los conocimientos recuperados. El LLM garantiza que las respuestas no sólo sean precisas en función de la información recuperada, sino también bien estructuradas y fáciles de entender.

Ventajas y retos

Ventajas:

Acceso a información actualizada: El LLM puede referenciar y utilizar la información más reciente de la base de conocimientos, lo que lo hace perfecto para aplicaciones que necesitan datos actuales como detalles de productos o políticas de empresa.
Reducción de las alucinaciones: al basar las respuestas en documentos y datos reales, RAG disminuye significativamente la probabilidad de que el LLM invente información o que sea incorrecta.
Respuestas verificables: cada respuesta puede rastrearse hasta fuentes específicas de su base de conocimientos, lo que facilita la validación de la exactitud de las respuestas y genera confianza entre los usuarios.
Base de conocimientos ampliable: el sistema puede crecer con las necesidades de la empresa a medida que se añaden nuevos documentos e información, sin necesidad de volver a entrenar el modelo.

Desafíos:

Implantación más compleja: la configuración de un sistema RAG requiere múltiples componentes que trabajen juntos, algo que lo convierte en un reto técnico mayor que la simple ingeniería prompt.
Tiempo de procesamiento adicional: la necesidad de buscar y recuperar información relevante añade pasos adicionales a cada consulta, lo que puede aumentar los tiempos de respuesta en comparación con las llamadas directas a LLM.
Gastos generales de gestión de datos: mantener la base de conocimientos actualizada, con el formato adecuado y bien organizada requiere un esfuerzo continuo y una cuidadosa atención a la calidad de los datos.

Cuándo utilizar RAG

How to set up RAG - Retrieval Augmented Generation (demo)

Elija RAG si puede responder SÍ a:

¿Es necesario hacer referencia a documentos o fuentes de datos concretos?
¿La exactitud de los datos es fundamental para la aplicación?
¿La base de conocimientos se actualiza con frecuencia?
¿Son necesarias fuentes verificables para las respuestas?
¿Se trabaja con información de dominio específico o patentada?
¿Puede invertirse en una infraestructura adecuada?

Si la respuesta es NO a dos o más de estas preguntas, conviene considerar la posibilidad de utilizar la ingeniería de prompt o explorar fine-tunning en su lugar.

Banderas rojas

RAG podría NO ser la mejor opción si:

La información se ajusta fácilmente a la longitud estándar de los mensajes.
No se pueden dedicar recursos a mantener una base de conocimientos.
El caso de uso requiere respuestas instantáneas con una latencia mínima.
Se carece de recursos técnicos para la instalación y el mantenimiento.
La principal necesidad es un formato coherente más que una información precisa.
El presupuesto no puede soportar la infraestructura necesaria.
Es necesaria la funcionalidad offline sin acceso a la base de datos.

Análisis en profundidad del fine-tuning

Fine-tunning no consiste en enseñar nuevos hechos, sino nuevos comportamientos.

Resumen del proceso

Fine-tunning ajusta los parámetros de un modelo preentrenado utilizando datos específicos para mejorar el rendimiento en tareas concretas. Así, se crea un modelo más especializado y adaptado a las necesidades particulares.

Cómo funciona

Fine-tunning se basa en las capacidades de un modelo de IA existente, de forma similar a la enseñanza de una nueva especialidad a un profesional cualificado. El proceso comienza con grandes modelos lingüísticos preentrenados que ya entienden el lenguaje y tienen amplios conocimientos. Este modelo de base sirve de fundamento, del mismo modo que una educación general sirve de base para una formación especializada.

El proceso de ajuste real comienza con la recopilación de ejemplos que muestren exactamente lo que se quiere que aprenda el modelo. Estos ejemplos vienen en pares: una entrada (lo que se puede pedir al modelo) y una salida (cómo se quiere que responda). La calidad es más importante que la cantidad: unos cientos de ejemplos bien elaborados suelen funcionar mejor que miles de ejemplos mediocres.

Abstract image of AI brain in technology tunnel.

A medida que se empieza a afinar, el modelo empieza a ajustar sus conexiones internas basándose en estos ejemplos. En lugar de aprender el lenguaje desde cero, aprende tus pautas y preferencias específicas.

El proceso utiliza una técnica llamada "adaptación de bajo rango" (LoRA), que es extraordinariamente eficaz. En lugar de modificar todos los parámetros del modelo, algo que sería como reescribir un libro entero, LoRA ajusta un pequeño conjunto estratégico de conexiones. De este modo, se ahorra tiempo y recursos informáticos, y se obtienen excelentes resultados.

Durante el entrenamiento, el modelo procesa repetidamente los ejemplos, mejorando gradualmente su capacidad para generar respuestas que se ajusten al estilo o formato que desea el desarrollador o la empresa. Se pone a prueba constantemente: intenta predecir los resultados correctos para los datos de entrada, compara sus respuestas con los ejemplos y ajusta su enfoque en función de los errores que comete.

El proceso requiere una supervisión cuidadosa para evitar el "sobreajuste", es decir, que se centre demasiado en los ejemplos concretos y pierda su capacidad para manejar situaciones nuevas y ligeramente diferentes. Es como asegurarse de que un estudiante aprende principios generales en lugar de limitarse a memorizar respuestas concretas.

Una vez completado el ajuste, se dispone de una versión especializada del modelo original que mantiene sus amplias capacidades, pero que ahora destaca en su tarea específica. Este nuevo modelo necesitará menos instrucciones detalladas en sus avisos porque el comportamiento deseado se ha incorporado a sus parámetros. Sin embargo, fine-tunning no añade nuevos conocimientos fácticos sino que, principalmente, enseña al modelo nuevos patrones de comportamiento, formateo o formas especializadas de responder.

Cuándo utilizar fine-tunning

Elija fine-tunning si puede responder SÍ a:

¿Se necesita un formato o estilo de salida muy coherente?
¿Se procesa un gran volumen de solicitudes similares?
¿Puede crear ejemplos de formación de alta calidad?
Este modelo ¿va a utilizarse durante un periodo prolongado?
¿Tiene acceso a expertos en machine learning?
¿Es importante reducir la duración de los avisos y los costes de inferencia?

Si se responde NO a dos o más de estas preguntas, conviene considerar la posibilidad de utilizar la ingeniería prompt o RAG en su lugar.

Banderas rojas

Fine-tunning podría NO ser la mejor opción si:

El caso de uso cambia con frecuencia o requiere actualizaciones constantes.
No se pueden crear, al menos, 50-100 ejemplos de formación de alta calidad.
Se necesita consultar información actual o en tiempo real.
El presupuesto no cubre los costes de formación inicial.
Es necesario que la solución se aplique en cuestión de días.
Se carece de recursos técnicos para el mantenimiento del modelo (la puesta a punto suele requerir muchos recursos).
Los requisitos de la tarea aún no están claramente definidos.
Se necesitan respuestas transparentes y basadas en las fuentes.

Escenarios ideales

Fine-tunning funciona mejor cuando:

Se crean respuestas coherentes de atención al cliente.
Generación de documentos normalizados (informes, correos electrónicos, resúmenes).
Conversión de datos a formatos específicos.
Escribir con una voz o estilo de marca particular.
Procesamiento de grandes volúmenes de solicitudes similares.
Aplicación de normas o políticas empresariales específicas.
Reducción de los costes operativos de las tareas repetitivas.

Cómo InterSystems IRIS puede potenciar la estrategia de mejora de la IA

Elegir entre ingeniería prompt, RAG y fine-tunning no tiene por qué ser una decisión compleja. InterSystems IRIS ofrece la flexibilidad necesaria para aplicar cualquiera de estos enfoques, o combinarlos, en función de las necesidades y objetivos específicos de la organización.

Lo que diferencia a InterSystems IRIS es su compatibilidad integral con los tres métodos de mejora de la IA en una única plataforma. No es necesario unir varios sistemas ni preocuparse por integraciones complejas. Tanto si se está empezando con una simple ingeniería prompt como si está construyendo sistemas RAG avanzados, InterSystems IRIS proporciona la base necesaria para ello. Pruebe InterSystems IRIS hoy mismo y descubra cómo su organización puede aprovechar estos enfoques de mejora de la IA de forma eficaz, con el apoyo de una plataforma que entiende y se adapta a sus necesidades.

Búsqueda semántica e IA generativa con Vector Search

InterSystems IRIS Data Platform 2024.1 introduce la búsqueda vectorial,

una nueva y potente herramienta que permite añadir fácilmente la búsqueda semántica y la búsqueda generativa

Capacidades de IA en las aplicaciones.

Más información

RAG vs. Fine-tunning vs. Ingeniería prompt: todo lo que se necesita saber

RAG vs. Fine-tunning vs. Ingeniería de prompt

Resumen de las diferencias

Fundamentos de ingeniería de prompt

Qué es y cómo funciona

Componentes clave

1. Instrucciones claras

2. Contexto

3. Ejemplos

4. Especificaciones del formato de salida

Ventajas y limitaciones

Cuándo utilizar la ingeniería de prompt

Banderas rojas

Generación de Recuperación Aumentada (RAG)

Cómo funciona RAG

Componentes del sistema

1. Base de conocimientos o almacén de documentos

2. Base de datos vectorial

3. Modelo Embedding

4. Sistema de recuperación

5. Gran modelo lingüístico

Ventajas y retos

Cuándo utilizar RAG

Banderas rojas

Análisis en profundidad del fine-tuning

Resumen del proceso

Cómo funciona

Cuándo utilizar fine-tunning

Banderas rojas

Escenarios ideales

Cómo InterSystems IRIS puede potenciar la estrategia de mejora de la IA

Búsqueda semántica e IA generativa con Vector Search

Búsqueda semántica e IA generativa con Vector Search

Contenido relacionado

Dar el siguiente paso

Construya aplicaciones de datos intensivos y de misión crítica con InterSystems IRIS. Empiece a escribir código gratis hoy mismo.