인간의 소리에 대한 데이터셋이 많아짐에 따라 AI를 통한 혁신이 발생한 가운데 동물의 소리에 대한 미국 연구진의 데이터셋 구축이 활발합니다. 특히 일부 연구진에서는 이미 이들 돔물들의 소리에 대한 의미해석을 AI를 통해 이뤄내고 있어서 큰 주목을 받고 있습니다. 하지만 아직은 동물 의사소통 데이터 셋은 인간 언어에 비해 사용할 수 있는 양이 상당히 적습니다.
동물의 소리에 대한 데이터셋을 보유중인 곳.
Cornell Lab of Ornithology의 Macaulay Library1로, 여기에는 2,674종의 양서류, 어류, 포유류 등의 오디오, 사진, 비디오가 포함되어 있으며, 주로 조류에 초점을 맞춥니다.(https://www.macaulaylibrary.org)
동물 발성에 대한 또 다른 대규모 라이브러리는 Animal Sound Archive2로, 1,800마리의 조류와 580종의 포유류의 소리를 축적하고 있습니다. (https://www.tierstimmenarchiv.de/)
해양 포유류와 관련된 여러 데이터 세트도 있습니다. Ness et al. (2013)은 20,000개가 넘는 범고래 발성 녹음의 대규모 데이터 세트를 제시했습니다.
Watkins Marine Mammal Sound Database3에는 60종 이상의 해양 포유류에 대한 15,000개의 주석이 달린 사운드 클립이 포함되어 있습니다.
개 발성의 경우 가장 인기 있는 데이터 세트 중 하나는 Pongrácz et al. (2005)이 도입했습니다. 여기에는 12마리의 무디 개가 포함되며 244개의 녹음으로 구성되어 있습니다.
또 다른 데이터 세트는 UT3 데이터베이스 Gutiérrez-Serafín et al. (2019)로, 74마리의 개와 6,000개의 개별 오디오가 있습니다.
그러나 개발성과 관계된 이 두 데이터 세트 모두 공개적으로 사용할 수 없습니다.
미시건대학교의 최근 연구
미시간 대학 연구진에서는 자체적으로 다양한 품종, 연령, 성별의 개 74마리의 짖는 소리, 으르렁거리는 소리, 훌쩍이는 소리 등을 수집했다. 이를 인간 음성 분석용 AI 모델인 ‘Wav2Vec2’에 적용하여 개짖는 소리의 뉘앙스를 이해할 수 있는지를 연구했습니다. (해당논문링크)
그 결과 AI는 장난치는 소리와 공격적인 짖는 소리를 구별할 수 있으며, 개의 나이, 성별, 품종도 식별할 수 있었습니다. 그리고 이 방식이 효과적이라는 것을 발견했습니다. 이 모델이 4가지 분류 작업에만 성공한 것은 물론, 개 짖는 소리 데이터에 대해 특별히 훈련된 다른 모델보다 정확도가 최대 70%까지 뛰어났다고 밝혔습니다.
이과정을 보면 AI는 수많은 인간 목소리를 학습, 음성의 미묘함을 이해하는 데 큰 진전을 이루며, 톤, 피치, 액센트의 뉘앙스를 구별해내는 것으로 관계자들은 밝히고 있습니다.
연구진이 이처럼 인간의 소리에 대한 지금까지의 음성 처리 자료를 활용하여 개 짖는 소리의 뉘앙스를 이해하는 방법을 고안해낸 것은 동물의사소통 연구의새로운 창을 열은 것으로 평가되고 있습니다. 아래도표는 미시건 연구진이 만든 동물 데이터셋에 대한 상세표입니다
Table 1: 14종의 개 울음소리와 해당 세그먼트 수 및 지속 시간(미시건대학)
맥락 | 세그먼트 수 | 지속 시간 (초) |
---|---|---|
낯선 사람에게 매우 공격적으로 짖기 (L-S2) | 2,843 | 2,778.66 |
낯선 사람에게 정상적으로 짖기 (L-S1) | 2,772 | 2,512.92 |
주인 공격으로 인한 짖기 (L-A) | 829 | 956.58 |
낯선 사람의 존재 중 부정적인 꿀꿀 소리 (GR-N) | 637 | 746.60 |
낯선 사람의 존재 중 부정적인 비명 (CH-N) | 298 | 546.72 |
슬픔/불안으로 인한 짖기 (L-TA) | 288 | 200.27 |
게임 중 긍정적인 비명 (CH-P) | 91 | 150.49 |
게임 중 짖기 (L-P) | 76 | 51.21 |
산책 중 자극으로 인한 짖기 (L-PA) | 62 | 84.06 |
낯선 사람에게 두려움으로 짖기 (L-S3) | 54 | 45.08 |
게임 중 긍정적인 꿀꿀 소리 (GR-P) | 51 | 79.56 |
주인이 집에 도착했을 때 짖기 (L-H) | 24 | 26.20 |
놀이도 아니고 낯선 사람도 아닌 짖기 (L-O) | 9 | 9.50 |
개가 아닌 소리 (목소리, TV, 자동차, 가전제품 등) (S) | 8,755 | 14,304.05 |
합계 | 16,789 | 22,491 |
미시건 대학의 연구진은 사용 가능한 데이터가 부족함을 원래 인간의 말을 분석하도록 설계된 기존 모델을 재활용하여 이러한 과제를 극복했습니다. 이러한 모델은 톤, 피치, 악센트와 같은 인간 음성의 뉘앙스를 구별하도록 훈련되고, 이 정보를 컴퓨터가 말하는 단어를 식별하고 말하는 사람을 인식하는 데 사용할 수 있는 형식으로 변환할 여지가 충분합니다.
<이하 광고>