이러나 설마 인간과 동일한 수준까지 올라오면 어캐 되는 거지요? 라벨링되지 않은 데이터에서 말과 입술 움직임을 동시에 모델링하는 최초의 인간 수준의 AI음성 인식 플랫폼으로 AV-HuBERT는 최고의 시청각 음성 인식 시스템(화자의 소리와 이미지를 모두 사용하여 말하는 사람의 말을 이해하는 시스템)보다 75% 더 정확하다 우리처럼 대화에서 보는 것과 듣는 것 사이의 미묘한 상관 관계를 인식하고 음성을 이해하는 최첨단 자기 지도(self-supervised) 프레임워크인 AV-휴버트(이미지:영상캡처) 스마트 스피커부터 난청이나 언어 장애가 있는 사람들을 위한 도구 개발에 이르기까지 보다 광범위한 분야에서 음성 인식 및 이해 작업 등에 인공지능(AI)을 사용하고 있다. 그러나 이러한 음성 인식과 이해 시스템..