[FER] AFEW_전처리

AFEW 데이터 전처리 정리

AFEW 데이터란?

FER(얼굴감정인식) 분야에서 사용하는 데이터중 하나로 영화들의 짧은 영상으로 구성되어있다. 영화데이터인 만큼, 얼굴 감정인식을 위하여 정갈하게 찍은 얼굴 데이터가 아니라, 주변 환경도 다양하고, 인물들의 인종, 연령, 성별이 다양하다. 또한, 영화데이터라 전체적으로 어두우며 얼굴이 온전히 나오지 않은 데이터도 있거나 옆 얼굴만 있는 데이터, 움직임이 많은 데이터 등등 다양한 영상으로 구성되어있다. 총 957개의 데이터로 구성되어있으며 Angry, Happy, Disgust, Fear, Sad, Surprise 이렇게 6개의 기본 감정과 Neutral (무표정) 까지 총 7개의 카테고리로 레이블링 되어있다.

무제

AFEW is an acted facial expressions dataset in tough conditions. Given that there is a huge amount of video data on the web which is posed, it is worthwhile to investigate the problem of facial expressions analysis in tough conditions (unlike lab conditions). Ideally, the authors set a dataset of facial expressions in challenging real-world environments. It contains 957 videos labelled with six basic expressions Angry, Happy, Disgust, Fear, Sad, Surprise and the Neutral expression.

AFEW를 타겟으로 정한 이유

노이즈가 많은 데이터인 만큼 학습하기도 어렵거니와 다른 데이터셋들과 비교했을때 정확도가 높지 않다. 하지만 이 데이터셋에 대하여 일반화가 잘 된 모델을 만들 수 있다면 현실에서도 사람들의 감정을 잘 인식할 수 있는 딥러닝 모델을 만들 수 있을 것이라 판단하였다.

전처리에 사용한 모델과 코드

MTCNN 모델을 사용하여 각 프레임에서 얼굴을 추출하여 기울기를 조정하고 224사이즈로 resize 시켜주었다.

preprocessing

1) 먼저, avi 동영상 파일에서 1초당 32개의 프레임을 추출하고,

2) 프레임 안에서 얼굴을 찾아서 crop 하여 저장!

3) 얼굴만 모아진 이미지 데이터를 갖고 align 시켜주기!

완성!

이렇게 align 된 이미지로 학습하면 된다!

references

[1] https://github.com/KirillDemochkin?tab=repositories

댓글남기기