피아노 음악 채보 - 1.전처리

By kuper0201

Published in 인공 지능

2023-09-11

4 min read

바로가기

서론

피아노 연주를 악보의 형태로 변환하는 작업을 "채보(Transcription)"라 합니다. 기존에는 인간이 직접 연주를 청취하여 악보로 변환하는 방식으로 채보를 하였습니다. 하지만 이는 청취하는 사람에 따라 결과의 정확도가 천차만별일 뿐 아니라 많은 시간이 소요되는 방식이었습니다.

AI 모델을 학습하여 채보를 진행한다면 인간에 비해 적은 시간 소요로 비교적 높은 정확도를 달성 할 수 있습니다.

따라서 본 프로젝트에서는 피아노 연주(WAV, MP3)를 입력 받아 컴퓨터가 연주 할 수 있는 형태인 MIDI 형태로 변환할 수 있는 채보 모델을 학습시키고자 합니다.

데이터셋 확보

AI 모델을 학습하기 위한 첫 단계는 데이터를 확보하는 일입니다.

데이터셋을 조사하기에 앞서 데이터셋의 기준을 설정하였습니다.

피아노 오디오를 채보할 것 이므로, 다른 악기의 오디오는 포함되지 않음
입력 데이터, 정답 데이터가 필요하므로, 오디오와 악보 데이터가 동시에 존재

상기한 조건을 만족하는 데이터셋을 조사해 본 결과 아래와 같이 3종류의 데이터셋을 찾을 수 있었습니다.

YAMAHA MIDI 데이터셋은 피아노 연주를 MIDI 파일의 형태로 제공하여 해당 MIDI 파일을 오디오 파일로 변환하는 작업이 필요합니다.

MAPS 데이터셋은 음악의 연주가 아닌 단일 음과 다중 음에 대한 데이터셋입니다. 전체 음악에 대한 데이터가 아니므로 각 데이터의 길이가 짧아 음악의 긴 패턴을 학습하기에는 부족해 보였습니다.

마지막으로 Magenta MAESTRO 데이터셋은 MIDI 파일과 WAV 파일을 모두 제공해 주었고, 전체 음악에 대한 데이터이므로 음악의 긴 패턴을 학습하기에도 적합해 보였습니다.

따라서 본 프로젝트에서는 Magenta프로젝트의 MAESTRO 데이터셋을 이용하기로 했습니다.

전처리 방식 분석

모델에 공급할 데이터셋을 확보하였으므로 데이터의 전처리 과정을 거쳐야 합니다.

데이터셋의 전처리 과정을 위한 데이터를 분석해 보겠습니다.

소리는 진동으로 인해 발생하는 파형으로 표현되며, 이 파형은 여러 다른 주파수의 파장들이 서로 어우러져 하나의 복합 신호를 형성합니다. 이러한 복합 신호를 디지털화 하여 저장한 것이 WAV, MP3 등의 오디오 파일입니다.

이론적으로는 모델이 이러한 복합 신호를 직접 처리할 수 있어야 하지만, 프로토타입 모델의 구현 결과 다양한 주파수, 진폭, 위상 등의 파형 구성이 다양하기 때문에 복합 신호의 모든 패턴을 학습하기는 어려웠습니다.

이러한 문제를 해결하기 위해 원본 복합 신호를 구성하는 파형을 추출하고 이를 모델에 입력 데이터로 사용하는 전처리 과정의 필요성을 느끼게 되었고, 복합 신호에서 각각의 구성 파형을 추출할 수 있는 기법을 조사해 보았습니다.

Fourier Transform

원본 데이터에서 파형을 추출하는 방법 중 하나로 푸리에 변환(Fourier Transform)이 존재합니다.

푸리에 변환은 복합 신호를 구성하는 파형들을 추출 할 수 있는 변환 기법입니다. 푸리에 변환을 사용하면 원본 신호에서 구성 파형을 추출할 수 있지만, 각 파형의 시간 정보를 잃어버린다는 문제가 존재합니다.

"젓가락 행진곡" 오디오 데이터를 이용하여 푸리에 변환을 시각화 해 보겠습니다.

해당 오디오 파일은 아래의 재생 버튼을 클릭하여 직접 들어 볼 수 있습니다.

user48602683 · Chopsticks

아래 이미지는 "젓가락 행진곡" 오디오를 푸리에 변환한 이미지입니다.

이미지를 확인해 보면 복합 신호에서 구성 주파수들을 추출하였지만 시간 정보는 잃어버린 것을 볼 수 있습니다.

피아노 채보를 위해서는 시간의 흐름에 따라 연주되는 파형을 음표의 형태로 변환해야 하므로 시간 정보를 보존하는 것은 필수적입니다.

따라서 푸리에 변환은 해당 프로젝트에 적합하지 않다고 결론 내렸습니다.

STFT

푸리에 변환이 시간 정보를 잃어버린다는 문제를 해결하기 위한 기법이 STFT입니다. STFT(Short Time Fourier Transform)는 전체 신호를 작은 시간 단위(Frame)로 나누어서 각 시간 단위에 대한 푸리에 변환을 수행합니다. 따라서 주파수 정보와 시간 정보를 동시에 보존 할 수 있습니다.

아래의 이미지는 "젓가락 행진곡"을 STFT를 이용해 스펙트로그램으로 변환한 이미지입니다.

상기하였듯 시간 정보를 유지하며 시간에 따른 주파수를 올바르게 추출하는 것을 확인 할 수 있습니다.

시간 정보를 유지하며 구성 주파수를 추출하는 또 다른 기법으로 CQT(Constant-Q Transform)이 존재합니다. CQT(Constant-Q Transform)는 주파수 대역을 로그 스케일로 나누어 변환하는 방법입니다. 이 방법은 주파수 대역을 고정된 비율(로그 스케일)로 분할하여 각 시간 단위에 대한 주파수 성분을 추출하여 주파수 정보와 시간 정보를 모두 보존할 수 있습니다.

아래의 이미지는 "젓가락 행진곡"을 CQT를 이용해 스펙트로그램으로 변환한 이미지입니다.