Reconocimiento de expresiones faciales con redes profundas livianas usando Label Distribution Learning y el espacio de Action Units

Nicolas Mastropasqua; Daniel Acevedo

Nicolas Mastropasqua Departamento de Computación, Fac. de Cs. Exactas y Naturales, Universidad de Buenos Aires - Instituto de Investigación en Cs. de la Computación (ICC). CONICET-UBA.
Daniel Acevedo Departamento de Computación, Fac. de Cs. Exactas y Naturales, Universidad de Buenos Aires, Ciudad de Buenos Aires, Argentina.

Palabras clave: Reconocimiento de expresiones faciales, Aprendizaje de distribuciones de etiquetas, Redes convolucionales livianas, Reconocimiento de Action Units

Resumen

Hoy en día, la búsqueda de soluciones lightweight que logren resultados comparables a modelos de Deep learning robustos ha recibido particular atención debido a su implementación factible en dispositivos móviles. Uno de los problemas que podrían aprovechar esta cualidad es el de Facial Expression Recognition (FER). Considerando que una gran cantidad de datasets de expresiones faciales suelen estar anotados con emociones categóricas cuando en realidad la mayoría de las expresiones exhibidas en escenarios ‘in the wild’ ocurren como combinaciones o composición de emociones básicas, se puede hacer uso de Label Distibution Learning (LDL) como estrategia para el entrenamiento. En este trabajo se abordará el problema de FER a través de redes neuronales livianas
entrenadas con LDL. Bajo el supuesto de que las imágenes de expresiones faciales deberían tener una distribución de emoción similar a la de su vecindad en un espacio de etiquetas auxiliares adecuado, como aquel determinado por la tarea de Action Unit recognition, se puede aprovechar
la información de las distribuciones e incorporarla como parte la función de pérdida. Concretamente, se estudiarán en profundidad la arquitectura lightweight EfficientFace y se analizará el impacto de distintos acercamientos para implementar LDL considerando datasets ‘in the wild’ como
RAF-DB, CAER-S, FER+ y AffectNet.