14 de enero de 2019

Premios Goya 2019: ¿Puede un algoritmo de BigData elegir al ganador? #BigData #MachineLearning

El próximo 2 de febrero se celebrará en la histórica ciudad de Sevilla la ceremonia de la 33ª Edición de los Premios Goya que otorga la Academia de Cine Español. El plazo para que los académicos  con derecho a voto envíen sus elegidos finaliza mañana, 15 de Enero y por supuesto hay gran expectación en el resultado. El futuro de muchos largometrajes, actores, directores, actrices, y demás trabajadores de esta industria del noveno arte puede cambiar para mejor o para peor después de los resultados obtenidos en estos premios.

Figura 1: Premios Goya 2019: ¿Puede un algoritmo de BigData elegir al ganador?

La pregunta que nos podemos hacer es, viviendo en el mundo del BigData, de los datos, de la Analítica Descriptiva, Prescriptiva y Predictiva es si realmente debemos esperar tanto para tener una idea de los resultados de esa votación.  Es decir, ¿se podría crear un modelo analítico que evalúe determinados factores en forma de datos que puedan hacer que una película tenga, a priori, más posibilidades de ganar que otra, independientemente de su guión, interpretación y demás cualidades? Juguemos a eso.

Paso 1: Crear nuestra Base de Datos

Vamos a jugar a crearnos un repositorio con la información de las películas ganadoras otros años para ver si se puede crear un modelo de Analítica Predictiva que nos de información sobre quién puede tener más o menos probabilidades de triunfar. Para hacer eso, utilizaremos la herramienta BigML para crear un modelo que explique la relación entre el premio a "Mejor Película" donde nuestra población son los datos que tenemos de las 32 ediciones anteriores, y variables como la fecha de estreno, la distribuidora, el género o la recaudación, entre otras.

Figura 2: Base de datos con información de las pleículas

Para ello hemos utilizado una base de datos previamente tratada y limpiada, cedida por Longyear Studios (http://bit.ly/2HlvsYi) Hay que tener en cuenta que, aunque suene muy frío el uso de datos cuantitativos como fechas, distribuidoras o recaudación, estos datos llevan por detrás valores cualitativos que recogen cosas como la calidad de la cinta. Tened en cuenta que una película que tiene alta calidad (en guión, en sentimiento, en escénica, en interpretación, etcétera) por regla general obtendrá mejores resultados en taquilla - aunque puedan existir excepciones -. Y eso no hace que sea la ganadora. Los Premios Goya no siempre - y por lo general es justo al contrario - premian a películas premiadas en taquilla.

Otra variable, como puede ser la distribuidora, puede parecer desconexo o anecdótico, pero de nuevo recoge la cultura, el saber y la forma de trabajar ante unos premios de una empresa. Implica las acciones de marketing, de posicionamiento entre miembros de la academia o de inversión en difusión que suele tener una película por el mero hecho de estar en una distribuidora u otra. Así que, para nuestro modelo pueden aportar mucha información.

Paso 2: Entrenar y testear nuestro modelo

Como hay que construir un modelo, lo primero que tenemos que hacer es separar el 80% de los datos que se convertirán en el conjunto de datos que usaremos para entrenar nuestro modelo y nos guardamos el 20% para testear si el modelo al que hemos llegado predice correctamente o con qué grado de fiabilidad el 20% de los datos restantes.

En este caso utilizaremos la modalidad de optimización automática de Deepnets que ofrece BigML que, a pesar de ser lenta, es muy efectiva a la hora de trazar correlaciones entre variables de este tipo.

Figura 3: Datos de entrenamiento del modelo

Una vez nuestro modelo se ha entrenado, testearemos la precisión del modelo con el 20% de los datos restantes, que como podemos comprobar, es muy alta, con un R2 de 0,995.

Figura 4: Prueba del modelo con los datos de test

Un grado tan algo nos dice que, si hubiéramos tenido el modelo que hemos creado hoy hace justo un año, hubiéramos acertado en un 99'95 % de los casos. Por desgracia esto no funciona así, ya que para tener este modelo el año anterior deberíamos haber usado solo el 80% de los datos de los datos de las 31 primeras ediciones, lo que nos arrojaría un modelo sesgado y diferente al que poseemos ahora.

Paso 3: Predicción del resultado

Tras probar las cinco películas nominadas a "Mejor Película" en nuestro modelo, tenemos como resultado que el previsible ganador será "Todos lo saben", de Asghar Farhadi, con un 41% de probabilidades según este modelo creado. Seguida de la taquillera de Movistar + "Campeones".

Figura 5: Resultados obtenidos con el modelo

Por supuesto, esto es solo un ejercicio de Analítica Predictiva sobre un conjunto de datos concreto. Si fuéramos capaces de tomar muchas más fuentes de datos que no están en la base de datos con la que trabajamos, como las calificaciones que tenía cada película en las principales revistas del sector, como el número de espectadores antes de los premios, como la temática de la película, como los actores que participan, los premios de cada uno de ellos, las calificaciones de actuación que habían recibido antes de los premios por los críticos de cine en sus webs, redes sociales, artículos, etcétera...


Figura 6: Trailer oficial de "Todos los Saben"

Es decir, cuantos más datos tuviéramos para entrenar el modelo, probablemente más seguridad tendríamos sobre la predicción de este modelo, pero como ejemplo de hacia donde puede ir esto en el futuro es una buena muestra.

Reflexión final

Este ejercicio nos invita a pensar en el futuro del Big Data en sectores que no son puramente tecnológicos, como el audiovisual o el cinematográfico. Startups como Pilot, o Longyear Studios, exploran las correlaciones de variables propias de estos sectores y el resultado en taquilla de los films así como LUCA la unidad de BigData & AI de Telefónica lo aplica a innumerables sectores y proyectos - incluso al mundo del esfuerzo en el ciclismo -.


Figura 7: Campeonato del mundo de ciclismo en ruta en datos

¿Nos encontraremos en un futuro cercano con un algoritmo que decida qué será lo próximo que veamos en la gran pantalla? El algoritmo podría saber qué es lo que más gusta a la gran mayoría ¿es acaso eso una mala noticia? ¿Podría un algoritmo decidir los galardones de los próximos premios, desde un punto de vista objetivo? ¿Sería esto más justo? ¿Podremos llegar a cuantificar el valor artístico de una obra? ¿El futuro nos depara más ciencia y menos ficción?

Autor: Pablo García



☛ El artículo completo original de [email protected] (Chema Alonso) lo puedes ver aquí