¿Cómo crear una extensión de Google Docs con GPT-4 para la generación de cuestionarios de noticias?

Las news quizzes ofrecen una forma atractiva de conectar con la audiencia y de reutilizar el contenido de las noticias. Sin embargo, su creación requiere una importante inversión de tiempo y recursos para garantizar que cada pregunta esté cuidadosamente elaborada y sea relevante. Ahí es donde está el potencial de la IA generativa que ayuda a automatizar este flujo de trabajo. The NRI Nation ha integrado las capacidades de la IA generativa, en concreto GPT-4, para agilizar el proceso de elaboración de news quizzes, lo que permite ofrecer noticias a la audiencia en un formato atractivo que amplía el alcance.

Desarrollado internamente, "AI Assist" es una extensión de Google Docs que ofrece la posibilidad de acceder a la potencia de GPT-4 dentro de su workflow. La herramienta se está probando actualmente para múltiples usos, como la creación de titulares, resúmenes, metadatos SEO, publicaciones en redes sociales y preguntas sobre noticias. Al igual que con otras herramientas más sencillas, como el corrector ortográfico, se trata de una herramienta más para ayudar a producir noticias. En este articulo el equipo de Generative AI Newsroom Challenge explica cómo crear un sistema eficaz generar preguntas e incorporarlo a una extensión de Google Docs.

Para los cuestionarios, “decidimos centrarnos en la creación de preguntas de opción múltiple y de respuesta múltiple. Antes de empezar a probar las preguntas, definimos claramente una serie de criterios para garantizar la calidad de la pregunta generada”, asegura Nikita Roy, quien asegura que utilizan los siguientes criterios para juzgar la pregunta.

Importancia: ¿Es la pregunta más relevante para el objetivo principal del artículo?
Claridad: ¿La pregunta está redactada con claridad y es fácil de entender? ¿Tiene la pregunta alguna ambigüedad, jerga o formulación engañosa?
Capacidad de respuesta: ¿Son plausibles las opciones de respuesta incorrectas? ¿Se distingue claramente la respuesta correcta del resto de las opciones basándose en la información del artículo?

Las preguntas generadas se clasificaron en tres grupos: publicables tal cual, publicables con pequeñas modificaciones y no publicables. También registramos los criterios que faltaban en la pregunta para ayudar a perfeccionar las instrucciones.

“Empezamos a experimentar sistemáticamente con la elaboración de diferentes preguntas utilizando ChatGPT para obtener el resultado deseado y decidimos centrarnos en las preguntas de opción múltiple. Inicialmente, empezamos con una pregunta general que pedía a ChatGPT que generara una pregunta de opción múltiple basada en un artículo de noticias. Sin embargo, las preguntas generadas no solían ser publicables, ya que ChatGPT a menudo se saltaba el punto principal del artículo y se centraba en un detalle oscuro del mismo”, asegura Roy.

“Después revisamos nuestra estrategia y le dimos a ChatGPT los criterios antes mencionados como parte de la pregunta. Aunque los resultados mejoraron, seguía habiendo muchos casos en los que la IA generaba preguntas basándose en detalles poco claros del artículo”, añade el equipo de Generative AI Newsroom Challenge.

Preguntas de opción múltiple

El gran avance se produjo cuando se pidió a ChatGPT que generara una pregunta de opción múltiple para el artículo. Este método dio como resultado preguntas de opción múltiple de gran calidad. Al comparar la pregunta generada por ChatGPT con sus anteriores preguntas, la mejora consistió en proporcionar explícitamente un resumen de una línea centrado en el objetivo principal del artículo. “Esto nos hizo darnos cuenta de la importancia de ser específicos a la hora de dar instrucciones a ChatGPT para guiarle en la producción de resultados más precisos. Sin embargo, de vez en cuando, las preguntas seguían sin cumplir los criterios de relevancia o presentaban opciones poco claras”, aclara Roy.

Así que, basándose en las orientaciones recibidas en el marco del Generative AI in the Newsroom Challenge, paaron a utilizar GPT-4 directamente en la zona de juegos de OpenAI y añadieron una pregunta al sistema que decía "¿Eres un periodista preciso?". El objetivo era guiar a GPT hacia la creación de preguntas más objetivas.

La mayoría de las preguntas generadas a partir de ese cuestionario eran lo suficientemente buenas como para publicarlas tal cual. Algunas de las preguntas requerían ligeras revisiones en aras de la claridad. “Nos dimos cuenta de que una pregunta sobre la presentación de un nuevo proyecto de ley no funcionaba bien como pregunta de respuesta múltiple, ya que el artículo se centraba en varios puntos, pero la pregunta sólo se centraba en el último punto del proyecto. Esto demostró que, en algunos casos, se necesitan preguntas con respuestas múltiples”, explica Roy.

Su atención se centró entonces en las preguntas de respuesta múltiple. “Volvimos a utilizar la pregunta de opción múltiple que habíamos formulado con éxito y sustituimos opción múltiple por respuesta múltiple” aclara la profesional. Sin embargo, estos intentos fueron infructuosos, ya que GPT generaba a menudo preguntas en las que todas las respuestas eran correctas. Esto les llevó a modificar aún más la pregunta, especificando el requisito de proporcionar al menos una opción de respuesta incorrecta. Como resultado, observaron una mejora en la calidad de las preguntas de respuesta múltiple generadas.

Primeras pruebas

Para agilizar aún más el proceso, intentaron automatizar la selección entre preguntas de opción múltiple y de respuesta múltiple pidiendo a GPT que decidiera. Sin embargo, este intento no tuvo éxito, ya que GPT-4 parecía tener un claro sesgo hacia la producción de preguntas de opción múltiple, generándolas sistemáticamente para los diez artículos que probaron. “Esto puso de manifiesto la continua necesidad de supervisión editorial humana en el proceso final de toma de decisiones” asegura Roy.

Tras ello, decidieron que su herramienta AI Assist generaría ambos tipos de preguntas, dejando que el editor revisara las opciones y eligiera la pregunta más adecuada. También automatizaron la tarea de hacer un resumen de una línea del artículo para incluirlo en la pregunta.

Después probaron el primer cuestionario generado por AI-Assist con diez artículos. Según el experimento, observaron que el resultado de las preguntas de opción múltiple superaba al de las preguntas de respuesta múltiple en términos de calidad. Las preguntas de respuesta múltiple seguían sin ser capaces de centrarse en el objetivo exacto del artículo, lo que ponía de manifiesto que no todos los artículos de noticias eran apropiados para una pregunta de respuesta múltiple.

Basándose en los resultados de las pruebas con los avisos para news quizzes, han llegado a unas conclusiones:

Seguir un proceso iterativo: Perfeccionar y ajustar continuamente las instrucciones hasta obtener los resultados deseados.
Aprovechar la propia potencia de GPT: Si las instrucciones no están dando los resultados esperados, se puede solicitar a ChatGPT que cree una orden para sí mismo. Esto puede darle nuevas ideas y perfeccionar aún más el mensaje.
La precisión es la clave: Asegurarse de que las preguntas sean específicas y definan claramente el objetivo del artículo, los criterios de calidad de la pregunta y el número de respuestas incorrectas requeridas. Una pregunta detallada tiene más probabilidades de generar el resultado esperado.
Optimizar con una pregunta del sistema: Asignar una función específica a GPT a través de la pregunta del sistema, ya que esto tiende a ayudar a crear respuestas más precisas.

La integración de la IA generativa en las redacciones resulta prometedora para automatizar varias tareas manuales, como la creación de news quizzes. Sus pruebas ponen en relieve la importancia de un enfoque sistemático de la ingeniería de avisos a la hora de obtener resultados de alta calidad de los LLM.

Sin embargo, aunque LLM como GPT-4 demuestran extraordinarias capacidades en la generación de contenidos, su formación general tiende a quedarse corta a la hora de producir resultados que se ajusten con precisión al tono, la voz y los estándares editoriales propios de las publicaciones. Como resultado, el equipo adoptó un enfoque doble: perfeccionar las instrucciones para una amplia gama de casos de uso utilizando GPT-4 para mejorar su herramienta AI Assist y, al mismo tiempo, ajustar los LLM de código abierto para tareas específicas dentro de la redacción.

Al entrenar los LLM con datos representativos de la redacción, se pretende generar resultados más acordes con los estándares de la publicación. Por ello prevén que un LLM perfeccionado irá más allá de la mera comprensión contextual para adquirir un profundo conocimiento del público objetivo, de la naturaleza única de cada contenido y de las directrices periodísticas.

Así que uno de sus próximos pasos será experimentar con la creación de un modelo personalizado y perfeccionado para su redacción, diseñado específicamente para potenciar el rendimiento del LLM en tareas específicas de su redacción.

Fuente: Generative-ai-newsroom

NC6 de julio de 2023Comentario