La inteligencia artificial no sabe comer pipas, pero ya ha aprendido a comer espaguetis
Una campaña publicitaria muestra lo mucho que le cuesta a la IA generar imágenes de una persona comiendo pipas. Detrás de estos videos fallidos hay una explicación que tiene que ver con los retos que la comida le plantea a la inteligencia artificial


A mediados de febrero, la marca de snacks y frutos secos Grefusa colgó en sus redes sociales un vídeo publicitario creado con inteligencia artificial, acompañado del siguiente texto: “La IA puede resolver la ecuación más compleja del mundo, pero no es capaz de comerse una pipa”. Dejando a un lado el debate de si es más o menos cuestionable utilizar esta herramienta en trabajos creativos —aunque, en este caso, se trate de una burla sobre la propia IA—, desde el punto de vista gastronómico, este anuncio pone sobre la mesa un asunto que tiene su miga: ¿por qué la inteligencia artificial tiene problemas para generar imágenes de ciertos alimentos y gestos relacionados con el acto de comer? Y más concretamente, ¿por qué no sabe comer pipas?
Recurrimos a dos expertas para arrojar algo de luz sobre el tema: Nerea Luis, doctora en ciencias de la computación, especializada en inteligencia artificial, y Mariia Chizhikova, ingeniera de Modelos de Lenguaje, también especializada en IA, que divulga sobre ello en su cuenta en Instagram @mariia.en.ia.
“El problema principal no es la comida en sí”, afirma Nerea, “sino la física de la interacción de la acción de comer. Generar un vídeo requiere entender cómo la materia cambia. Al comer, intervienen fluidos, sólidos que se deforman (masticación), oclusiones (la comida entra en la boca y desaparece) y una coordinación motora finísima. La IA no sabe qué es ‘comer’, solo predice qué píxel debería ir después de otro basándose en patrones visuales, y esa transición suele volverse caótica”. En los vídeos, más que en las imágenes estáticas, es donde ese “caos” se hace evidente y mantener la coherencia se convierte en un verdadero reto técnico. “Los vídeos generados por IA siguen siendo reconocibles precisamente por esas pequeñas inconsistencias físicas. Son los síntomas de un sistema que sabe cómo parece que funciona el mundo, pero no cómo funciona realmente”, apunta Mariia.
Los grandes modelos de lenguaje de IA, por tanto, no entienden muy bien la física de ciertos objetos, sobre todo cuando se trata de líquidos y texturas viscosas. “Reflejos, transparencias y salpicaduras son difíciles de calcular. En el caso del queso fundido, el hielo en los vasos o los espaguetis, su forma cambia continuamente y la IA pierde el hilo de dónde empieza el objeto y dónde termina la comida”, señala Nerea. Comer pipas no parece el escenario más predecible para estos modelos. Y todo aquello que requiera manipulación con las puntas de los dedos tampoco le resulta fácil de procesar.
El caso de las pipas es una especie de tormenta perfecta. A la dificultad que tiene la inteligencia artificial para lidiar con objetos de comportamiento caótico, se suma el hecho de que los prompts (las instrucciones con las que interactuamos con los sistemas de IA) han sido entrenados mayoritariamente con datos anglosajones. Y, tal y como nos han demostrado las redes sociales a lo largo de los años, los anglosajones no entienden muy bien qué es “comer pipas”. Cada cierto tiempo, aparece un vídeo en el que alguien ajeno a esta costumbre tan nuestra las engulle con cáscara o se pregunta si comer pipas en un banco es parte de la cultura española (la respuesta, por supuesto, es “sí”).
@1000experiencias En #finlandia NO SABEN comer pipas 😳 me quedé loco cuando vi que se venden solo en la seccion para animales, ya que son para los pajaros y ardillas silvestres… Asi fueron los primeros intentos de mi novia finlandesa comiendo PIPAS 😅🤣 #choquesculturales #pipas #aprendeentiktok
♬ Stories 2 - Danilo Stankovic
Puesto que la IA aprende de datos ya existentes, podemos deducir que, en el caso de las pipas, lo que le faltan son esos datos. “Cuantos más vídeos haya en internet de una acción concreta, mejor habrá podido aprenderla el modelo”, indica Mariia. Por eso, aquellos alimentos que más presencia tengan en medios y redes sociales, estarán mejor representados y serán más fáciles de generar para la IA.
“En inglés no existe un verbo equivalente a ‘comer pipas’ como concepto cultural propio. Se diría ‘eating sunflower seeds’, que describe el producto, pero no la acción tal como la vivimos aquí. Ahora bien, estos modelos son multilingües y España no es el único país donde se comen pipas: en Rusia, por ejemplo, es una costumbre igual de arraigada, así que el concepto existe en más idiomas de lo que parece“, explica Mariia. Nerea añade que, en inglés, sunflower seeds se asocia más con comida para pájaros o con un topping para ensaladas.
De todas maneras, para Mariia, aunque el tema del idioma puede influir, no cree que sea el factor principal. El problema tiene más que ver con el hecho de que las pipas sean objetos muy pequeños, ligeros y de movimiento impredecible y con los datos. “Aunque en España comer pipas es algo totalmente cotidiano, no hay tantos vídeos de esa acción en internet, y menos aún en la calidad y variedad que necesitaría un modelo para generalizarla bien”, señala la experta.
Will Smith y el test de los espaguetis
Hace unas semanas, un usuario de Reddit publicó en esa red social un vídeo que recogía la evolución de la IA generativa con un ejemplo muy concreto: Will Smith comiendo espaguetis. Este vídeo, que nació como un meme en 2023, ha acabado convirtiéndose en una especie de test para medir el avance de los modelos en los últimos años. La publicación es, en realidad, un anuncio del generador de vídeo Kling 3.0, desarrollado por la compañía china Kuaishou Technology, donde podemos ver cómo el Will Smith comiendo espaguetis de 2026 ha mejorado exponencialmente con respecto al de hace solo tres años.
El de 2023, aclara Mariia, había sido generado con ModelScope, “el modelo de vídeo más avanzado de aquel momento”. “El resultado era... una pesadilla. Pero captó perfectamente cuál era el talón de Aquiles de la IA generativa de vídeo en aquel momento”. Como las pipas, los espaguetis son especialmente difíciles para estos modelos, porque son un sistema caótico. “Cada hebra se mueve de forma independiente, con su propia física, su propia interacción con el tenedor, con la boca, con el resto de la pasta. No hay un patrón homogéneo que aprender”.
El vídeo de Will Smith resultó ser el benchmark o punto de referencia perfecto porque, como dice Nerea, “concentraba todos los errores posibles: deformación facial, manos que se fusionaban con la comida y una estética que, con los años, ha servido para mostrar el realismo que ha ido aprendiendo la IA. Además, tenía ese punto humorístico viral que en redes funciona muy bien; sin que seas un experto, entiendes el avance al ser un ejemplo tan visual”.
¿Cómo ha podido evolucionar tanto este vídeo en tan poco tiempo? Nerea explica que hemos pasado de modelos que solo generaban imágenes una detrás de otra sin demasiada coherencia entre ellas (“casi como fotogramas de películas antiguas”) a modelos como Sora o Veo3, que entienden mejor la consistencia temporal, el volumen de los objetos en un espacio 3D y el sonido. “El cambio ha sido exponencial porque ahora la IA ‘comprende’ que el tenedor es un objeto independiente de la cara y tiene muchas más referencias físicas de cómo se ‘mueve’ en el entorno”. Además de los numerosos avances en los modelos y de que estos han visto más datos y, por tanto, están mejor entrenados, Mariia cree que también es fundamental que ha habido una atención específica a los problemas de coherencia física. “Las empresas que desarrollan estos modelos saben perfectamente cuáles son sus puntos débiles —y los espaguetis de Will Smith han sido, de forma literal, uno de los ejemplos que han guiado esas mejoras—. La viralidad de ese meme lo convirtió en un referente técnico real, y eso es algo que casi ningún benchmark académico logra“.
El valle inquietante de la comida hecha con IA
Un estudio piloto publicado en 2025 en la revista científica Appetite concluyó que las imágenes de comida creadas con inteligencia artificial pueden caer en el “valle inquietante”. Este concepto suele utilizarse para definir la frontera en la que los robots con apariencia humana pasan de generarnos una cierta empatía a provocarnos rechazo y extrañeza por su parecido imperfecto con nosotros.
“Nuestro cerebro detecta algo que casi es real, pero no del todo, y eso genera una incomodidad difusa. En el caso de la comida, solemos procesar esas imágenes con una capa adicional de expectativa sensorial —el olor, la textura, el sabor imaginado— y cualquier inconsistencia en la apariencia interfiere con esa experiencia“, señala Mariia. “Ahora mismo, el problema más frecuente no es que las imágenes sean malas, sino que tienden a ser demasiado perfectas: texturas demasiado uniformes, brillos demasiado simétricos, composiciones que parecen sacadas de un manual de diseño gráfico más que de una cocina real. Y paradójicamente, eso es lo que las delata y lo que las hace menos apetecibles”.
Según el estudio, estas imágenes pueden desencadenar una reacción de neofobia alimentaria (miedo a probar alimentos nuevos o desconocidos). Es decir, que al ver comida generada por IA, nuestro cerebro no la percibe como lo que intenta representar, sino como un alimento que no conoce y que, por tanto, podría suponer una amenaza para nosotros.
Ahora que las imágenes de comida generadas con inteligencia artificial parecen ir ganando terreno en la publicidad e incluso en los menús de algunos restaurantes y empresas de comida a domicilio, no está de más tener en cuenta estos estudios antes de reemplazar una foto auténtica de un plato por una que no lo es. Estas imágenes, además, podrían llevar a que el consumidor se sienta engañado, por no entrar en el problema ético que plantea que los modelos que las generan hayan sido entrenados con imágenes reales creadas por personas que difícilmente pueden reclamar que se hayan usado sin su permiso.
¿Llegará algún día la IA a generar imágenes de comida que sí nos resulten apetitosas? Y si eso ocurre, ¿no seguiremos prefiriendo la imagen real antes que la artificial? “La comida fotogénica de verdad tiene imperfecciones, pequeños accidentes que la hacen humana. Por eso creo que el camino no es sustituir la fotografía de comida real con IA, sino usarla como herramienta de apoyo cuando tiene sentido. Ya he visto plataformas de delivery que empiezan a usar imágenes generadas para representar sus platos, y creo que es un error, no solo técnico, sino estratégico. La fotografía real comunica autenticidad, y en alimentación la autenticidad importa“, concluye Mariia.
Tu suscripción se está usando en otro dispositivo
¿Quieres añadir otro usuario a tu suscripción?
Si continúas leyendo en este dispositivo, no se podrá leer en el otro.
FlechaTu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.
¿Tienes una suscripción de empresa? Accede aquí para contratar más cuentas.
En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.








































