고성능 이미지 분류 모델을 생산하기 위해 훨씬 적은 데이터와 컴퓨팅 리소스를 필요로 한다.

3일 동안 단일 8-GPU 서버로 DeiT 모델을 훈련하여, 학습에 외부 데이터를 사용하지 않고 널리 사용되는 이미지넷(ImageNet) 벤치마크에서 84.2 top-1 정확도를 달성했다.

 

 

페이스북은 최근에 인공지능(AI)의 많은 분야에서 획기적인 심층 신경망 아키텍처인 트랜스포머(Transformers)를 활용하는 컴퓨터 비전 모델을 훈련시키는 새로운 방법을 개발했다.

 

트랜스포머 모델은 자연어 처리(NLP) 및 기계 번역에서 최첨단 결과를 냈으며 페이스북 AI는 언어 인식, 상징 수학(Symbolic Mathematics) 및 프로그래밍 언어 간의 번역과 같은 작업과 새로운 기반을 개척하기 위해 아키텍처를 사용했다. 또 AI 연구 커뮤니티는 지난해 초 발표된 DETR 객체 탐지 아키텍처와 같은 프로젝트로 트랜스포머를 컴퓨터 비전 분야에 끌어들이기 시작했다.

 

데이터 효율적인 이미지 변환기(Data-efficient image Transformers. 이하, DeiT)라는 페이스북의 새로운 기술은 고성능 이미지 분류 모델을 생산하기 위해 훨씬 적은 데이터와 컴퓨팅 리소스를 필요로 한다. 3일 동안 단일 8-GPU 서버로 DeiT 모델을 훈련하여, 학습에 외부 데이터를 사용하지 않고 널리 사용되는 이미지넷(ImageNet) 벤치마크에서 84.2 top-1 정확도를 달성했다.

 

18825_20755_5135.png

이 그래프는 페이스북의 접근 방식(Distillation 통한 DeiT 및 DeiT)을 이전의 시각적 트랜스포머 모델 및 최신 CNN과 비교하는 성능 곡선을 보여준다. 여기에 표시된 모델은 ImageNet에서 학습됐다.

 

이 그래프는 페이스북의 접근 방식(Distillation 통한 DeiT 및 DeiT)을 이전의 시각적 트랜스포머 모델 및 최신 CNN과 비교하는 성능 곡선을 보여준다. 여기에 표시된 모델은 ImageNet에서 학습됐다.
이러한 결과는 수년 동안 이미지 분류에 대한 접근방식이었던 최첨단 컨볼루션 신경망(CNN)의 성능과 비교된다.

 

이는 일반적인 학술 데이터 세트만 사용하여 이미지 분류를 위해 트랜스포머를 효율적으로 학습할 수 있다는 것을 보여줌으로써, 컴퓨터 비전 분야를 발전시키고, 트랜스포머를 새로운 사용 사례로 확장하며, 대규모 AI 모델을 훈련하기 위해 대규모 시스템에 접근할 수 없는 연구원과 엔지니어들이 이 작업을 더 쉽게 할 수 있도록 돕는다.

[기사 더보기]

 

 

[출처 : 인공지능신문 www.aitimes.kr]

[기자 : 최창현 기자]