콘텐츠로 이동

메타, 1,600개 언어 지원하는 '옴니링구얼 ASR' 공개…AI 언어 장벽 허문다

원제목: Meta's Omnilingual ASR brings speech recognition to 1,600 languages

핵심 요약

  • 메타 AI, 1,600개 언어에 대한 음성 인식 기술 '옴니링구얼 ASR' 선보임.
  • 지금까지 AI 지원이 미흡했던 수많은 저자원 언어들의 AI 접근성 대폭 향상함.
  • 오픈 소스 공개 및 데이터셋 제공으로 전 세계 AI 연구 및 개발에 기여할 전망임.

상세 내용

메타의 기초 AI 연구팀(FAIR)이 1,600개 이상의 언어로 음성을 인식할 수 있는 '옴니링구얼 ASR(Omnilingual ASR)' 시스템을 공개했습니다. 기존의 음성 인식 도구들은 대부분 소수의 잘 지원되는 언어에 집중되어 있었으며, 전 세계 7,000여 개 언어 중 상당수는 AI의 지원을 거의 받지 못했습니다. 옴니링구얼 ASR은 이러한 격차를 해소하기 위해 개발되었으며, 지원 언어 중 500개는 이전까지 어떤 AI 시스템에서도 다뤄지지 않았던 언어들입니다. 메타는 이를 전 세계 언어 장벽을 허물기 위한 '보편적 전사 시스템'을 향한 한 걸음으로 보고 있습니다. 모델의 정확도는 학습 데이터의 양에 따라 달라지는데, 테스트된 1,600개 언어의 78%에서는 10% 미만의 문자 오류율을 보였습니다. 최소 10시간의 학습 오디오가 있는 언어의 경우 95%가 이 기준을 충족하거나 상회하며, 10시간 미만의 저자원 언어에서도 36%가 10% 미만의 오류율을 기록했습니다. 메타는 추가 연구와 실제 사용을 지원하기 위해 350개 언어의 음성 데이터와 전사본으로 구성된 '옴니링구얼 ASR 코퍼스'도 함께 공개했습니다. 이 데이터셋은 크리에이티브 커먼즈(CC-BY) 라이선스로 제공되어 개발자와 연구자들이 특정 지역의 요구에 맞는 음성 인식 모델을 구축하거나 수정하는 데 도움을 줄 것입니다. 옴니링구얼 ASR의 핵심 기능 중 하나는 '당신의 언어를 가져오세요(Bring Your Own Language)' 옵션으로, 이는 인컨텍스트 학습(in-context learning)을 활용합니다. 이는 대규모 언어 모델에서 차용한 기술로, 사용자가 소수의 오디오-텍스트 쌍 샘플을 제공하면 시스템이 직접 학습하게 됩니다. 따라서 모델을 다시 훈련시키거나 많은 컴퓨팅 자원을 투입할 필요가 없습니다. 메타는 이 방식을 통해 이론적으로 옴니링구얼 ASR을 현재 업계 표준을 훨씬 뛰어넘는 5,400개 이상의 언어로 확장할 수 있다고 밝혔습니다. 최소한의 지원을 받는 언어의 인식 품질은 아직 완벽하게 훈련된 시스템에 미치지 못하지만, 이 기술은 이전에 접근할 수 없었던 커뮤니티에 실질적인 음성 인식 기능을 제공합니다. 메타는 옴니링구얼 ASR을 오픈 소스(Apache 2.0 라이선스)로 공개하여 연구자 및 개발자들이 자유롭게 사용, 수정하고 상업적으로도 활용할 수 있도록 했습니다. 데이터셋은 CC-BY 라이선스로 이용 가능하며, 옴니링구얼 ASR 제품군은 저전력 장치를 위한 3억 개 매개변수 모델부터 최고 수준의 정확도를 위한 70억 개 매개변수 모델까지 다양하게 제공됩니다. 모든 모델은 FAIR의 PyTorch 기반 fairseq2 프레임워크를 기반으로 구축되었으며, 데모도 제공됩니다.


편집자 노트

이번 메타의 '옴니링구얼 ASR' 공개는 AI 기술 발전에서 매우 중요한 이정표를 세웠다고 볼 수 있습니다. 기존에는 언어의 '자원' 즉, 학습 데이터의 양에 따라 AI 접근성이 극명하게 나뉘었습니다. 영어나 중국어처럼 방대한 데이터를 가진 언어들은 이미 뛰어난 음성 인식 및 번역 기술을 누리고 있었지만, 상대적으로 화자가 적거나 기록이 부족한 언어들은 AI 기술의 혜택에서 소외되어 왔습니다. 옴니링구얼 ASR은 바로 이 '언어 불평등'을 해소하려는 야심찬 시도입니다. 특히 500개 언어는 AI가 처음으로 지원하는 것이라는 점에서 그 의미가 크며, 이는 소수 언어 사용자들에게 자신들의 언어로도 AI 기술을 경험하고 활용할 수 있는 새로운 가능성을 열어줍니다. 마치 디지털 문맹 퇴치와 같은 맥락에서, AI 문맹 퇴치, 즉 AI 기술에 대한 언어적 접근성을 높이는 데 크게 기여할 것입니다. 또한, 인컨텍스트 학습을 통해 적은 데이터로도 새로운 언어를 지원할 수 있다는 점은 앞으로 AI가 언어 장벽을 얼마나 빠르게 허물 수 있을지를 보여줍니다. 이는 단순히 정보 접근성을 높이는 것을 넘어, 문화 보존, 교육, 지역 사회 소통 등 다양한 영역에서 긍정적인 영향을 미칠 수 있습니다. 예를 들어, 특정 지역의 토착 언어로 된 구술 기록을 쉽게 디지털화하고 접근 가능하게 만들 수 있으며, 이는 곧 그 언어와 문화를 후대에 전달하는 데 귀중한 자산이 될 것입니다. 오픈 소스로 공개되어 누구나 이 기술을 활용하고 개선할 수 있다는 점도 주목할 만합니다. 이는 AI 기술의 민주화를 가속화하고, 더욱 다양하고 혁신적인 응용 프로그램 개발을 촉진할 수 있습니다. 물론, 학습 데이터가 부족한 언어에서의 초기 정확도는 다소 떨어질 수 있겠지만, 지속적인 연구와 커뮤니티의 참여를 통해 빠르게 개선될 것으로 기대됩니다. 개인적으로는 저 또한 AI 기술이 특정 언어에만 국한되지 않고, 지구상의 모든 언어 사용자들에게 동등하게 제공될 수 있기를 바라왔는데, 옴니링구얼 ASR이 그 첫걸음을 뗀 것으로 보입니다. 앞으로 이 기술이 어떻게 발전하고 우리 삶에 스며들지 매우 기대됩니다.



원문 링크