Bootstrapping Sign Language Annotations with Sign Language Models
Summary
품질 좋은 주석 데이터 부족으로 AI 기반 수어 통역에 한계가 있어, 수어 모델로 수어 주석을 부트스트랩하는 파이프라인 개발에 대한 연구입니다.
Key Points
- AI 기반 수어 통역은 고품질 주석 데이터 부족으로 어려움을 겪고 있습니다.
- 새로운 데이터셋(ASL STEM Wiki, FLEURS-ASL)은 전문 통역사가 참여하고 수백 시간의 데이터를 포함하지만 부분적으로만 주석이 달려있어 충분히 활용되지 못하고 있습니다.
- 이 연구는 서명된 비디오와 영어를 입력으로 받아 시간 간격을 포함한 주석을 생성하는 의사-주석 파이프라인을 개발했습니다.
- 파이프라인은 K-Shot LLM 접근 방식과 더불어 손가락 철자 인식기 및 고립된 수어 인식기(ISR)의 예측을 사용합니다.
- 전문 통역사가 ASL STEM Wiki의 거의 500개 비디오에 주석을 달아 골드 스탠다드 벤치마크를 제공했으며, 300시간 이상의 의사 주석 데이터와 함께 공개될 예정입니다.
Notable Quotes & Details
Notable Data / Quotes
- 6.7% CER (FSBoard)
- 74% top-1 accuracy (ASL Citizen datasets)
- 500 videos
- 300 hours of pseudo-annotations
Intended Audience
AI 연구자, 수어 연구자, HCI 연구자