OpenAI explica cómo se comportan sus modelos de IA ante solicitudes controvertidas para ofrecer una experiencia adecuada

jueves, 13 de febrero de 2025, 12:27 h (CET)

MADRID, 13 (Portaltic/EP)
OpenAI ha explicado con mayor detalle cómo los modelos de Inteligencia Artificial (IA) que desarrolla deberían comportarse, con un nuevo documento en el que señala cómo deben enfrentarse a las solicitudes de los usuarios y tratar temas controvertidos para ofrecer una experiencia de usuario adecuada.

La compañía ha reconocido que, al especificar el comportamiento de sus modelos, busca seguir creando nuevos modelos "útiles, seguros y alineados con las necesidades de los desarrolladores" al tiempo que avanza su misión de "garantizar que la inteligencia general artificial beneficie a toda la humanidad".

En este sentido, ha indicado que, para la configuración del comportamiento de sus modelos se basa en tres principios, incorporados en un marco de especificaciones ampliado y planteados con el objetivo de "maximizar la autonomía y la capacidad de los usuarios para usar y personalizar la herramienta" de acuerdo a sus necesidades.

OpenAI también ha subrayado que "como cualquier sistema que interactúe con cientos de millones de usuarios", los suyos también conllevan riesgos potenciales de daño, anticipando que no todos ellos se pueden mitigar "solo a través del comportamiento del modelo" de IA escogido.

Asimismo, ha indicado que este marco de especificaciones "solo es un compontente" de su estrategia general de seguridad, que incluye reglas a nivel de plataforma, así como valores predeterminados a nivel de usuario y guía. "Son valores predeterminados que creemos que son útiles en mismos casos, pero nos dan cuenta de que no funcionarán para todos los usuarios y contextos", ha matizado.

Con ello, la firma ha reconocido que "una de las responsabilidades más desafiantes" de su asistente de IA "es encontrar el equilibrio correcto entre empoderar a los usuarios y desarrolladores y minimizar el potencial de daños reales", para lo que ha hecho una clasificación de los riesgos que puede conllevar el uso de la IA en determinados contectos.

Así, ha dividido los riesgos en tres categorías, cada una con su propio conjunto de posibles mitigaciones. De este modo, considera que el asistente podría buscar un objetivo incorrecto debido a un malentendido de la tarea o siendo engañado por un tercero. Por ejemplo, siguiendo erróneamente instrucciones maliciosas ocultas en un sitio web.

OpenAI también es consciente de que el asistente puede comprender la tarea ordenada por el usuario, pero que puede cometer errores en la ejecución, esto es, compartiendo información "inexacta y potencialmente dañina que puede amplificarse a través de las redes sociales".

Además, la firma tecnológica ha reconocido que el asistente de IA "puede causar daño simplemente siguiendo las instrucciones del usuario o del desarrollador, como, "por ejemplo, proporcionar instrucciones de autolesiones o dar consejos que ayuden al usuario a llevar a cabo un acto violento".

Con esto, ha subrayado que "según la cadena de mando, el modelo debe obedecer las instrucciones del usuario y el desarrollador", excepto cuando se utiliza la IA en contextos "que requieren rechazo o precaución adicional".

Sobre esto, ha concretado que el asistente no debe generar contenido prohibido -sexual y pedófilo-, restringido -riesgos informativos y datos personales confidenciales- ni sensible (erótica, gore), que solo se puede generar "en circunstancias específicas". Por ejemplo, "contextos educativos, médicos o históricos".

En otros de los apartados de este documento, donde OpenAI muestra algunos ejemplos de respuesta del asistente en distintos escenarios, la compañía subraya que "debe comportarse de una forma que fomente la libertad intelectual", aunque "no debe crear contenido que alabe, respalde o ayude a promover la violencia".

Tampoco puede generar contenido de odio o acoso dirigido a grupos protegidos por razón de raza, religión, género, orientación sexual, discapacidad, etc. "Esto incluye insultos y cualquier idioma que deshumanice", ha añadido en esta declaración.

OpenAI también entiende que si el usuario o el desarrollador le pide al asistente que facilite el comportamiento ilícito, éste debe negarse, además de que no le está permitido que aliente o promueva comportamientos negativos o perjudiciales para los usuarios.

Noticias relacionadas

El racismo y el abuso sexualizado siguen utilizándose en un 48% para atacar a los atletas en redes sociales

La Asociación Mundial de Atletismo (World Athletics) publicó este jueves las conclusiones de un estudio realizado durante los Juegos Olímpicos de Paris 2024 con el objetivo de identificar y proteger a los atletas de los mensajes abusivos enviados a través de las plataformas de las redes sociales, siendo el racismo, con un 18%, y el abuso sexualizado (30%) los principales problemas.

Pesadillas fiscales y sueños monetarios

Menuda semana tras el breve descanso. Precios del petróleo, cifras de inflación, titulares fiscales y debates sobre la reunión del BCE de la próxima semana. Nos visitaron fantasmas del pasado, del presente y, potencialmente, del futuro próximo.

IAG pide más control en los pasaportes en los aeropuertos

El consejero delegado de International Airlines Group (IAG), Luis Gallego, destacó este viernes “el buen funcionamiento” de los aeropuertos españoles en comparación con otros de Europa, entre los que citó los de Londres, Ámsterdam y Frankfurt, según dijo una conferencia con periodistas en relación con los resultados del ‘holding’ de Iberia y Vueling en el primer semestre.

OpenAI explica cómo se comportan sus modelos de IA ante solicitudes controvertidas para ofrecer una experiencia adecuada

Lo más leído

Noticias relacionadas

El racismo y el abuso sexualizado siguen utilizándose en un 48% para atacar a los atletas en redes sociales

Pesadillas fiscales y sueños monetarios

IAG pide más control en los pasaportes en los aeropuertos