JFT-300M 데이터셋이란?

JFT-300M, unlabeled dataset

noisy student 논문 [noisy student 경로] 을 읽다가 JFT-300M 데이터셋에 대해 의문을 갖게 되었다.

단순히 이미지에 레이블링 되지 않은 이미지 데이터 셋이라고 생각했는데.. 그 해석을 찾아서 보니

해석을 해보자면!

300M images that are labeled with 18291 categories

JFT-300M은 구글자체에서 생성한 데이터셋으로 이미지 분류 모델학습에 사용된다.

JFT-300M은 웹페이지와 사용자 피드백 사이의 연결인 웹 시그널을의 혼합 복합체를 사용하는 알고리즘을 써서 이미지를 레이블 한다. 이를 통해 3억 개의 이미지들에 1억개가 넘는 레이블을 하는 결과를 낳는다. (하나의 이미지가 여러 레이블을 가질 수 있기 때문에 나온 결과)

선택된 이미지들의 레이블 정확도를 최대화하는 것을 목표로 하는 알고리즘을 통해서! 1억개의 이미지 레이블들은 약 3억 7천5백개가 선택된다.

하지만, annotation 작업을 하지 않았기에, 아직 레이블에 고려되는 노이즈가 남아있다. 약 20%의 선택된 이미지 레이블들은 noisy 하며 레이블의 재현률(recall)을 측정할 방법이 없는 문제가 남아있다.


정리해 보자면!

JFT 데이터셋은 구글내에서 만든 레이블 되지않은 이미지 데이터 셋으로, 학습할 때, 웹에서 발생하는 정보들을 얻어서 이미지에 label이 되도록 학습할때 쓰는 데이터 셋인 것이다! 그럼 이거 쓰려면.. 구글의 동의가 필요한가? 해서 찾아보니 제공되지 않는 데이터 셋이라고 한다..

😅 어쩔 수 없네 구글 가즈아!


reference

[1] https://ai.googleblog.com/2017/07/revisiting-unreasonable-effectiveness.html

[2] https://www.arxiv-vanity.com/papers/1707.02968/

댓글남기기