Abstract 5초 이내 single 입력 이미지로부터 3D 모델 예측하는 최초의 lrm 제안함 NeRF를 직접 예측하기 위해서 학습 가능한 5억개의 매개변수를 갖춤 확장성 뛰어난 Transformer 기반의 아키텍처를 제안함 대규모 다중 뷰 데이터에 대해 end-to-end 방식으로 train함 일반화 가능한 모델 → 고품질 3D 재구성 생성 가능 1. Intro 임의 개체의 single 이미지에서 즉시 3D 모양을 만드는 것 3D geometry의 ambiguity 대문에 초기 학습 기반 방법은 class 데이터 활용해서 특정 범주에서 잘 수행되었었음 형태별 최적화(NeRF 최적화) 일관된 geometry를 구성 근데 이게 느리고 비현실적임 Transformer 는 확장성 뛰어나고 효과적임 3D 데..