몰라도 음악듣고 곡 쓰는데는 지장없는, 오디오파일의 비트전송률과 샘플링주파수와 비트뎁스 이야긔 를 하다가 앱천포로 마무리

정리 2011. 5. 29. 02:23

이 색깔의 글씨로 써놓은건 본문의 맥락에서 벗어난 내용이므로 일단 제쳐놨다가 나중에 읽긔!

비트전송률bitrate.

비트bit는 바이너리 디지트binary digit에서 굵게 해놓은 글자만 따다 줄인 말이다
전기 또는 빛 신호를 켜고 끄는 두가지 상태를 연쇄시켜서 그 조합으로 뜻을 전달하는 원리라는구나
켜진건 1이고 꺼진건 0으로 부르자고 정했는데, 보통 0은 없음-부정-낮음-닫힘의 개념이고 1이면 있음-긍정-높음-열림이다
이 비트 8개를 뭉쳐놓은 단위가 바이트Byte인데, 양쪽의 첫번째 글자가 같아서 줄여 표시할 때에 작은 bit는 소문자로, 보다 큰 Byte는 대문자가 된다
그래서 Bit라고 하면 틀림

인터넷 회선 제공업체나 랜장치나 외장하드같은거 광고에 보면 속도가 몇메가비트니 몇기가비트니 하잖아
그런데 파일의 크기는 바이트단위이므로 이 수치를 8로 나눠주어야 실제 가능한 전송속도를 알 수 있다
속지마라

레이트rate는 비율이라는 뜻이고, 여기에 1초라는 시간단위를 편의상 생략해서 표기한다
그러므로 비트레이트 또는 비트전송률은 1초에 몇bit씩 처리 또는 전송되느냐를 뜻한다
음악파일에서의 비트전송률은, 그놈을 재생시키면 1초마다 몇비트씩 전송 및 해석해야 저장된걸 온전히 풀려나오게 할 수 있는건지를 의미하는 것이고 실제로 그렇게 한다
흔히 쓰는 mp3파일포맷은 초당 320Kbit흔히 320Kbps; bit per second로 표기한다. 대소문자 구별 주의하긔!까지의 저장이 가능한데, K는 1000이라는 뜻이니까 320에 1000을 곱해서 320000비트또는 1024배인 327680비트, 그리고 320을 8로 나눈 40킬로바이트씩이 1초마다 처리되는 양이다
즉, 320K의 음악파일이 문제없이 재생되기 위해서는 음원의 정보가 들어있는 저장장치와 그걸 풀어내어 소리로 변환하는 처리장치간의 통신속도가 최소한 1초에 40킬로바이트씩은 되어야 한다는 뜻이지

이게 대략 어느 수준인지 감좀 잡아보라고 비교를 해두는것도 좋을 것 같아서 탐색기로 파일을 들어서 전송하는 상황에만 한정하여 각종 장치들의 전송속도를 살펴보자
하드디스크(HDD)의 지속적인 전송속도는 데스크탑용 3.5인치 중 중간성능의 제품 기준으로 초당 최대 150메가바이트, 플래터 집적도와 회전속도가 높고 설계도 훌륭할 경우 200메가바이트 이상까지도 가능은 하나 보통은 50메가바이트 정도로 나올 때가 많다
500메가쯤 되는 파일을 복사하는데 걸리는 시간이 길어봐야 한 10초쯤, 옮길 양이 3기가일 경우 대략 1분 이하의 시간이 필요한 셈이다
HDD를 메인보드와 연결하는 SATA전송 프로토콜의 경우 리비전2의 대역폭이 3기가비트=375메가바이트인데, 75메가바이트어치는 신호제어와 패리티에 전용하거나 버려지기 때문에 스펙상 전송속도의 최대는 300메가바이트라고 한다

SATA 리비전3는 이보다 두배 넓고 두배가량 빠른 초당 600메가바이트이고, 쓸만한 SSD라면 순차 읽기쓰기가 대개 450~550메가바이트씩 되므로 SATA3의 성능을 사실상 모두 활용한다고 볼 수 있다
컴퓨터에서의 CD 읽기쓰기는 52배속이 가능한 최외곽 영역에서 약 7.7메가바이트까지도 가능은 하지만 실제 속도는 대개 그 절반에 못미치고, 오디오기기의 CD픽업은 음질이나 가격과는 별 관련 없이 그보다 더 느린 편이다
DVD도 24배속 영역에서 잠깐동안 32메가바이트가 나올 수가 있지만 파일복사나 영화감상등의 실질적인 사용중에는 20메가를 넘길 때가 거의 없다
USB의 경우 리비전2 기준 대역폭이 이론상으로만 60메가바이트이나 실제로 이걸로 연결한 외장하드와 플래쉬메모리의 전속속도는 아무리 빨라봐야 20~30메가 정도에 머문다(대부분의 사례에서 나타나는 이같은 속도는 사실 해당 기기의 병목현상 때문. 진짜 한계속도는 이보다 조금 더 높다)
휴대용 MP3재생기나 스마트폰 종류는 자료전송과 보관이 주용도는 아니다보니 대부분 이보다 약간 느린 10메가 내외의 전송성능이 나오도록 만들어지는 편이다
USB3도 스펙상의 대역폭으론 SATA3에 버금가지만 이걸 지원하는 물건들의 실제 속도는 메인보드가 최고급이 아닌 이상 적절한 상황과 조합 하에서 잘 뽑힐 때가 210메가바이트 정도, 평균잡아 150메가바이트 쯤으로 나온다
모두 1초당 전송속도이다
즉 하나에 몇기가짜리 HD어쩌고 하는 영상포맷이라면 모를까, 오디오매체만을 재생할 때 필요한 대역폭은 초당 끽해야 몇백 킬로바이트, 편집용 원본의 멀티트랙이나 영화용 5.1채널 같은걸 초고해상도로 돌려봐야 한번에 떼다넘겨야 하는 1초당의 분량이 십메가를 채 넘지 못하므로 통신속도로 인한 장애는 절대 생기지 않는다

그리고 mp3, wma등의 손실압축파일의 원본이 되는 PCM데이터오디오CD 및 웨이브파일. 이하 PCM는 통상 1411Kbit로써, 대부분의 손실압축 포맷에서 가장 용량이 큰 320K의 약 4배, 얼핏 들어서 그럴싸한 음질의 마지노선인 128K의 약 10배 내지는 11배에 해당한다

이 1411Kbps라는 비트전송률의 수치는, PCM의 기본스펙인 샘플링주파수Sampling Frequency 44.1KHz와 비트뎁스bit Depth 16bit를 각각 가로세로로 놓고 곱해서 나온거다구체적인 사정은 쩌 밑에 나옴. 일단 꼐속 읽긔

샘플링주파수는 샘플링빈도, 샘플링속도, 샘플링레이트Sampling Rate, 샘플율 등으로도 부른다
1초마다 몇번씩 샘플링채취, 기록, 표본화, 부호화을 했다는걸 표하는 말인데, 이 몇번에다가 보통 헤르츠HzHerz: 1초동안 진동한 횟수, 1초를 나누는 구분칸의 수를 붙여서 읽는다
앞으로는 샘플링주파수를 우리말인 척 하는 한자조어인 (1초당 )표본화빈도로 고쳐서 부르도록 하겠다

왜인지는 알거없고, 이게 44.1K44100Hz라고 돼있으면 그 절반인 22.05K22050Hz의 주파수까지 기록된다고 외우자
혹은 1초에 22050번씩 변화하는 음파까지 추출 또는 처리할 수 있는걸로 봐도 된다정확히는 표기 그대로 1/44100초마다 한번씩 찍어보는건데, 글쎄 그게 뭐때문이고 실제 주파수는 왜 그 절반만 나오는지 까지는 우리가 알 필요 없다. 그냥 무시해라. 그래도 검색해보면 뭔 얘긴지 쉽게 찾을 수 있으니까 각자 알아서
한편, 사람 가청주파수가 평균잡으면 20에서 20000Hz라고들 얘기하잖냐

남자가 여자보다, 어린이보다 노인이 높은 주파수의 소리를 못 듣는다고 한다
양쪽의 극단적인 예로써 비교한다면 청소년기 여성의 고막과 반고리관같은 청각기관이 늙은 남성의 그것보다 더 자잘하고 민첩하게 잘 떨어서 그만큼 빠른 빈도의 소리를 더 원활하게 감지할 수 있다는 뜻이다
저음역에 대한 민감도도 마찬가지로 여자쪽이 약간 더 낫고 역시 나이들수록 쇠퇴한다고 알려져 있는데, 이쪽은 어차피 들을일이 드물고 격차가 훨씬 덜하므로 볼 필요 없다
너무 큰 소리를 들어서 청력이 감퇴되어 난청등을 겪는건 결국 이 청각기관을 세게 맞았다가 어디가 살짝 뭉개진 상황이나 다름없다
그 결과, 원래보다 잘 안움직이게 되어 소리가 작게 들리는데 빨리 떠는것도 똑바로 못하게 되어 못듣는 정도가 고주파음으로 갈수록 심해진다
또한 같은 크기(피크레벨이 같은)의 소리를 같은 시간동안 듣게 될 경우 주파수가 높아질수록 그만큼 청각기관이 빨리 피로해질 것이라는 추리도 가능하다
단, 등청감곡선에 따르면 사람의 귀기관은 3000Hz에서 4000Hz사이쯤에 대해 가장 민감하게 반응하고 이게 7000Hz정도까지는 유지되므로 가장 주의할 곳은 이 부근이다
그리고 여기까지 이해한다면 돌고래나 박쥐같은애들 몸에 붙어있는 청각기가 사람거에 비해 존나 빨리 떨 수 있어서 시코 코찔찔이들의 숭배대상이 된것도 깨달을 수 있을거다

이걸 보다 이해하기 쉬운말로 바꾸면, 사람의 청각기는 1/20초50ms보다 긴 단위시간의 파동도식상 맨 밑에 깔려있다고 극저주파Infra-Sound은 너무 길어서 음파로 인식할 수 없고, 1/20000초0.05ms보다 짧은 단위시간의 파동사람귀에 안들린다는 맥락에서 초음파Ultra-Sound라고 부름. 따지고보면 극저주파도 초음파에 해당한다. 왜냐면 우리한테 안들리니까은 너무 짧아서 역시 소리로써 들리지 않는다는 정도가 된다

여기서 20000Hz보다 높은 주파수의 소리즉 1/20000초보다 짧은 시간동안 후딱 한바퀴 도는 파동의 변량는 안들리니까 저장해둘 필요가 없다는게 우선 보아야 할 부분이다
그래서 일단 PCM오디오의 디폴트옵션 비슷한게 22.05K를 온전히 소화하는 44.1K로 정해졌다
그러니까 표본화빈도는 소리의 표본을 뽑아내는 작업을 얼마나 자주 한건지를 뜻하고, 그보다 재빠른그래프로 표시하면 폭이 좁은. 내지는 크기가 작은 변화는 그 와중에 없어졌다는 뜻이 된다
이쯤해서 그럼 저음은 어떻게 하나요? 라고 물어보는 사람이 나올 수 있겠다
주파수마다를 전부 딱딱 맞춰줄 필요는 없는거고, 외려 표본화빈도가 높아질수록 저주파의 변화량은 물론이고, 음원에서 함께 발생되어 저주파 위에 한몸으로 얹힌 채 서로 묶여있는 음색요인. 즉 배음 및 고주파에 대한 기록도 덩달아 더 충실해진다고 해두겠다

디지털이 이런거야
아무튼 해당 음원파일에 저장되는 주파수대역의 상한을 표본화빈도가 좌우한다고 맺고, 이건 넘어간다20Hz미만의 존내 낮은 파동은 쓸모도 없는 주제에 에너지만 무지막지하게 빨아먹기 때문에 언어정보만 넘어가면 족한 무전기나 전화기같은 기계에선, 애당초 마이크도 그게 될만큼 큼직하고 성능좋은걸 쓰지도 않지만, 표본화빈도랑 상관없이 칼같이 끊는다. 음악쪽은 휴대기기나 손실압축 파일포맷같이 퍼포먼스와 비용의 제한이 필요한 경우 어느정도 억제하는 편이고, 본격 하이파이와 초고성능의 공연용 기기의 경우 확보는 해둔다 . 누구는 이런 음파를 몸통의 공명으로는 느낀다느니 맹수 울음소리에 이 성분이 섞여서 먹이감이 이걸 들으면 다리가 풀린다느니 한다던데, 이딴 구라에 섣부르게 흥미를 뒀다가 그런소리 들어보기도 전에 맛이 가는수가 있으니 제끼고 들리는 소리에만 주목하자

이제 비트뎁스bit Depth.
비트는 번역이 안되니까 이건 앞으로 비트깊이로 부르자

표본화빈도가 정한 때마다 한번씩 하는 짓이 바로 이 비트깊이가 얼마나 되느냐를 측정하는 짓이다
기냥 몇비트라고 대강들 부르는데, 나는 엄밀히 구분하여 표현할줄 아는 내 지성을 매번 자각하며 비트깊이라고 부를 때마다 기분이 좋아지드라
깊이가 뭐의 깊이냐 하면 소리크기의 깊이겠지
아주 흔하게 접할 수 있는 이것의 단위비는 데시벨dB
나처럼 젖문용어를 좆아하는 좆밥들은 이런거랑 관련있는 얘기를 하게 되었을 때 하필이면 음압Sound Pressure이라는 어휘를 골라서 준비해놓고 써먹을 기회를 호시탐탐 노린다~~그리고 해당 상황과는 맞지 않는 용어라서 얘기하고 있는 상대방의 표정이 이상해짐~~
총쏠 때 터지는 소리가 몇 데시벨이고 비행장에서 여객기 이륙할때 나오는 소음은 몇 데시벨, 전화받고 타자치고 선풍기 돌아가고 하는 사무실은 몇 데시벨. 이런식으로 많이 얘기하는데, 즉 소리가 없는 상태라기보다는 사람의 귀가 가장 민감한 주파수에서 가까스로 감지할 수 있는 존니게 작은 소리크기를 0데시벨의 기준으로 두고서 다른 소리들의 시끄러움이 걔보다 얼마나 큰지를 지면보다 윗쪽인 높이의 개념을 빌어 나타낸다는 얘기다

그런데 소리가 기록된 음원파일과 거기 담긴걸 다루는 오디오기기에 적용하는 데시벨은 약간 다르게, 반대방향으로 표기한다
0데시벨을 기준으로 두는것은 같되, 여기에서 음수로 내려가는 식으로 적는다
이 경우 해당 상황의 저장/전송/재생되는 음원 및 처리기계에서 분간이 가능한 가장 작은 소리와 가장 큰 소리의 비율을 뜻한다
그러니까 가능한 가장 큰 소리의 양을 기준점 0으로 잡고, 위가 아닌 아래로 파내려가며 그것보다 크기가 작은 소리를 계량하자는 규약이야
아래로 내려가는 거니까 깊이Depth의 개념을 빌어서 이해할 수 있겠고, 0보다 작은거니까 앞에 음수표를 붙여서 마이너스 몇 데시벨 이렇게 부르면 된다

그래서, 44.1K일 경우 대애충 1초에 20000번, 1/20000초마다 한번씩 음압이 어떻게 바뀐가를 본다고 했잖아1초에 22050번인지 20000번+표본 2050번어치 분량의 에러보정용 공간인지 말들이 분분한데, 찾아보니까 DAC의 출력물에서 표본화빈도 주파수의 띡똑대는 디지털클럭을 없애고 아날로그 신호만 내보내기 위한 로우패스필터 때문이라고 하드라. 뭔말이냐면...........................설명 제대로 할라면 이 글만큼의 분량으로 새로하나 더 써야된다는 뜻이야 난 그런거 못하겠당 거까지 너나 내가 알 필요도 없고
이 때마다의 판정이 16비트 단위로 된다
한개의 비트가 0과 1중 한 상태를 표할 수 있는 최소단위인데 16비트라면 비트 16개가 하나로 묶여있다는 뜻이니까

~~이명박의 1/1024²~~ 1010 1100 1111 0010

뭐 이런식으로 비트 16개의 덩어리잖겠냐소시적 울트라에딧으로 세이브파일 까던분들은 반갑겠지만 약간 다름. 그 때 그거는 16진수다
근데 자릿수 16참고로 프로그래머나 음향공학자같은 진짜 전문가들은 이걸 16word length, word size, word depth 등으로 부른다의 2진수네?

하여간 16word length의 예로써 아무렇게나 골라본 1010 1100 1111 0010을 계산기를 통해 10진수로 바꿔보니까 44530이라는 좀더 익숙한 숫자가 나온다
그리고 이 16자리를 몽땅 1로 채운 최대값인

1111 1111 1111 1111

를 10진수로 바꾸니까 65535가 된다
어차피 2진수도 0은 똑같이 0이니까, 2진수의 16비트라는 워드렝스 단위의 안에는, 10진수에서 0부터 65535까지로 표현되고 단계로 치면 65536가지인 서로 구별되는 상태 혹은 단계가 기록될 수 있다는거다

이제 정리한다
44.1K 16비트의 PCM오디오는 소리를 1/44100초마다 한번씩의 표본추출을 통해 저장한건데, 이 표본추출이란게 0부터 65535까지의 구분간격을 바탕으로 그 때마다의 소리크기신호의 전압이 얼마나 되는지를 적는 일이다

연속된 소리를 일정한 시간으로 끊고서 나름의 기준과 단계를 두고 매번 크기가 어느정도씩 되는지를 숫자로 바꿔놨다 이건데, 그런데 숫자는 곧 양量Quantity이잖아
그래서 이 작업을 양자화量子化Quantization라고 부른다

참고로 Quantization은 양자물리학에서도 쓰이는 용어인데, 소립자를 더 깊이 들여다보니 그걸 구성하는 요소가 어느 단계부터는 마치 파동처럼 출렁거리는 불명확함을 띄길래 요것을 연구하기 편하게 ~~모에화~~대상화시켜서 양자量子Quanta-Quantum 라는 이름을 붙이고, 모에양이나 크기가 아닌 요동치는 국면의 일정함을 측정해서 숫자로 바꿔놓는 짓이야

이쪽이 원판이다
그리고 음파 내지는 소리는, 물리적으로든 심상으로써든 정보로써건간에 분명 난해하고 복잡한 탐구대상이긴 하지만, 파동의 입자성이니 하는 골때리는 이념을 끌어다 해석하거나 계산할 수밖에 없는 인류의 아크에너미급 난제는 아니다
빌려온 개념인 이상 헷갈릴 수밖에 없으니까, Quantization의 한가지 번역어 量子化는 물리학자들 쓰게 놔두고 우리는 앞으로 신호처리의 Quantize를 양화量化라고 불러주자
지시성이 보다 명확해질 수 있는 수량화數量化라는 표현은 그보다도 더 이상적이겠다는 내 혼자 생각도 사족으로 달아본다

이번에는 위에서 표본화빈도와 비트깊이를 가로세로로 곱한다고만 하고 넘어간걸 다시 볼 차례다

세로축 비트깊이 가로축 표본화빈도ㅇㅋ?

그림은 위키에서 줏어왔다
보기 편하게 4자리수의 4비트로만 그려진 상태이고, 사인파를 틀어놓고 매 측정순간마다, 즉 표본화빈도의 때마다 양이 얼마나 되는지를 찍었더니 그 결과가

7-9-11-12-13-14-15-15-15-14-14-13-12-10-9-7-6-5-3-2-1-0-0-0-0-1-1-2-3-5-6-7

로 나왔다는 의미이지
앞에서 16비트가 16자리의 2진수랬으니 4비트면 4자리의 2진수일거잖아
이걸로 우리에게 익숙한 10진수랑 하나씩 대응시키면

[0000 - 　0] [0001 - 　1] [0010 - 　2] [0011 - 　3]

[0100 - 　4] [0101 - 　5] [0110 - 　6] [0111 - 　7]

[1000 - 　8] [1001 - 　9] [1010 - １0] [1011 - １1]

[1100 - １2] [1101 - １3] [1110 - １4] [1111 - １5]

처럼 나온다
그래서 위 그래프에서 표본화를 통해 양화된 결과물은 4비트의 2진수 코드

0111-1001-1011-1100-1101-1110-1111-1111-1111-1110-1110-1101-1100-1010-1001-0111-0110-0101-0011-0010-0001-0000-0000-0000-0000-0001-0001-0010-0011-0101-0110-0111

로 저장된다
그리고 이런걸 그린 위 그래프에서 세로축이 0에서 15까지 16단계가 있지

이게 65536단계로 더 잘게 쪼개진걸 상상해봐
그러면 표본의 수치가 0에서 15까지 16가지만 가능한게 아니라 깊이 혹은 높이의 더 좁은 구분을 통해 ~~65536~~65535가지중에 하나로 나오겠지사실 모든 word가 0으로 채워진 상태는 초과값 내지는 무효로 정의하며, 굳이 꼽자면 PCM오디오의 노이즈플로어에 상응한다. 즉 쓸 수 없다. 그래서 16비트에서는 최대치의 표기인 65535와 동일한 65535가지의 상태가 존재하고, 4비트도 위 그림과는 달리 15가지만 가능하다. RGB색상에서 #000000이 색속성이 없는 투명을 의미하는 것을 연상해보자

위에 나왔던 44530, 65535가 그런거야
그게 16비트다

위에 데시벨얘기도 쪼금 하다가 말았는데, 위에 보이는 4비트로 구현할 수 있는 깊이대비의 최대한은 약 24데시벨로 해석되고 16비트의 깊이대비는 96데시벨쯤 된단다

만약에 표본 1회에 담을 수 있는 비트의 깊이가 20비트20자리나 24비트24자리등과 같이 더 큰 규격이라면, 그래프상의 세로축 구분칸이 더 작게 나눠지고 그만큼 음압의 크고작은 단위를 더 세밀하게 분간할 수 있겠지?데시벨 대비와 십진수로 각각 얼만큼씩이 되는지는 직접 찾아본 사람만 알도록 생ㅋ략ㅋ
그리고 가로축은 표본화빈도다
이 한칸마다 표본을 따내는 의미라고 위에 적어놨다
빨간색으로 표시된 파형의 출렁임이 가로축 칸의 넓이보다 훨씬 넓으니까 가로세로로 띡띡 그어진 검은선이 이어주는 점이 상당히 비슷하게 따라가는걸 알 수 있는데, 이걸 보면서 두가지를 추론할 수 있다
그중 첫번째는, 비트깊이의 경우와 마찬가지로 표본화빈도에 해당하는 세로칸이 촘촘해지면표본화가 더 빠르게 더 자주 수행되면 그만큼 보다 정확하게, 빨간색 선의 자취에 더 가깝게 기록할 수 있게 될것이란 추측이다
크고 넓게 출렁대는 저주파의 움직임에 대한 기록과 재현도 표본화빈도가 잦아지면 잦아질수록 더 정확해지고 보다 충실해진다
그리고 표본채취를 더 자주 하는만큼 더 짧은 구간의 변화, 즉 더 높은 고주파음까지 살려내는게 가능해짐이 두번째인데, 굳이 구분은 했지만 사실 동전의 양면이랄까? 아무튼 그게 그거다나무도 숲도 못 보는 스펙병자들이 샘플링이 몇헤르츠니 주파수가 어디까지 나오니 하면서 열광하거나 실망하는데, 생각하는 방식만 어떻게 딱 바꾸면 이게 그닥 의미있는 주의사항은 아니라는 사실을 이해할 수 있게 되지만 그게 힘들더라. 아무튼 난 분명히 이걸 두번째 항목으로 놨다

PCM의 44.1K이 가장 보편적이고 이보다는 쓰임이 드물지만 48K, 88.2K, 96K, 176.4K, 192K등의 규격도 있다저것들 사이사이에 비표준 내지는 훨씬 드물게 사용하는 표본화빈도의 규격이 또 많이 있으며 192K보다 큰것도 존재는 한다. 그리고 비트깊이의 경우 주종인 16비트에 더해 24비트와 20비트의 순서로 눈에 띄고, 12비트나 8비트처럼 질이 낮은건 음악 말고 통신용 포맷이나 구형 오락실게임에 들어간다. 역시 32비트나 48비트같은 더 큰 스케일도 정해져있기는 하다만 감상용 음원으로 풀려나온건 무척 드물고 주로 녹음실에서 뭐 만들 때 쓰는 원본용 포맷이거나 프로덕션용 장비의 내부 연산을 위한 규격이다
역시 표시된 수치의 절반만큼이 저장이 가능한 가장 높은 주파수이므로, 예를들어 96K라면 사실상 48000Hz, 192K의 경우 96000Hz까지의 좌우지간 존나높은 초음파까지의 식별과 저장이 된다
그걸 우리 귀가 들을 수 없기야 하지만, 중요한건 그게 아니라 들리는 영역의 소리에 대한 저장과 재현도 훨씬 정확하게 이루어진다는 것이다이런 고품질 포맷을 써야만 하는 중대한 이유가 두어가지 더 있다만 여기 곁들여 설명할 필요도 없고 반드시 알 필요도 역시 없다. 궁금하다고 덤비는 사람한테만 메신저든 메일로든 대충 알캬드리겟슴

다시 정리한다
비트깊이는 매 순간 소리크기라기보다는 그 순간의 파형이 취한 높이가 얼마나 되는지에 대한 양의 표현이다

비트깊이는 쌓는 양이고 쌓여진 층이다
이 단위로 나누어 표현 가능한 가장 작은 크기와 가장 큰 크기끼리의 비율차이 내지는 깊이대비를 다이나믹레인지Dynamic-Range라 부르는데, 차이가 엄청 크기 때문에 표기의 단위수를 줄이기 위해 데시벨로 계산하기로 했다
깊이가 16비트일 경우 이놈의 다이나믹레인지는 약 96데시벨이 된다
표본화빈도는 시간을 ~~달리는 소녀~~가르는 촘촘함이다
일정하게, 사람의 몸으로 그냥 감각하거나 상상할 수 없을 정도로 아주 짧게 시간을 쪼개고 그 간격대로 비트깊이의 양을 되풀이하며 잰다
이것의 간격이 작아지면 작아질수록, 달리 말하면 표본화빈도의 주파수가 높아질수록 같은 단위시간동안 더 자주 측정하고 이로써 더 짧은 기간동안의 변화량을, 심지어 더 잠깐동안 출렁대고 마는 고주파수의 소리까지 더 알차게 기록될 수 있게 된다

그러나 용량을 아무리아무리 키워봐야 그 단위수만큼 근접만 가능할 뿐 온전한 저장과 재현은 어차피 할 수 없다
절대로 안된다
위에 그래프 다시 잘 보라고
시간격과 음량을 각각 주파수와 깊이라는 칸으로 나눈 교차하는 좌표들의 점이 빨간색의 자취에 가능한 가장 가깝게 박혀있긴 하지만 완전히 겹치지는 못하고, 게다가 점들끼리도 서로 떨어져 있잖아
오디오를 비롯한 디지털신호를 다루는 사람들은 이러한 오차를 양자화노이즈(내식대로 부르면 양화노이즈)Quantization Noise로 부른다
그리고 이 노이즈의 일상적인 수준이 비트깊이의 최소단위와 나아가 다이나믹레인지의 최소값 이하에 머무른다는 점왜냐면 이보다 큰건 저장되니까에 착안하여, 이것을 식별이 더이상 되지 않는 밑바닥이란 뜻에서 노이즈플로어Noise Floor라고도 한다

사실상 다르지 않은 맥락으로써, 자연의 이어지는 현상을 칸칸이 끊어내어 서로 고립시킨 후 숫자로 바꿔 어떤 이치일지 추측하는 양자물리학에서도 동일한 맹점이 존재하는데, 걔넨 성격이 이상해서 모르는걸 모른다고 진술하는 논문아닌 논문까지 써버리고는 그것의 제목을 불확정성의 원리라고 지었다
이처럼 우리가 누리는 모든 학문은 이같은 한계의 완전한 극복을 포기한 바탕에서 시작되었고, 다만 꾸역꾸역 개선될 뿐이다
그 무엇도 결국은 불가능하다
그리고 이 시점에서 소수의 막나가는 공돌이와 물리학자는 비약한 후 좌절하고, 신학으로 테크트리를 옮겨탄다
신은 세상 만물 모든 것 모든 곳의 가장 작고 깊고 짧은 ~~노이즈플로어~~찰나에 거하며 우리를 지켜보신다고 하더라고

그러니까 이것들 둘을 곱한다는 거다
위에서 보편적인 PCM오디오는 44.1K의 빈도와 16개 문자열의 비트라고 했잖아
이 둘을 곱한다
44.1K가 44100이니까 44100하고 16을 곱하자는 것인데, 스테레오니까 이걸 또 두배로 해줘야 한다
그러면

44100×16×2=1411200

요렇게 된다
천단위를 내리고 대신 K를 붙이면 1411K지
아까 위에서 말만 꺼냈다가 만 PCM오디오의 비트전송률, 즉 1초마다 보내고 처리해야 하는 수치가 이런식으로 정해졌다는 얘기다
그리고 1411K비트면 8로 나눠서 약 176K바이트가 되지
이게 CD 굽고 읽을 때 나오는 배속의 기준 1배속 전송속도다
굽는 프로그램이나 정보문서를 찾다보니 150K바이트라고 되어있는게 더 많이 보이는데 왜그런진 모르겠다 중간에 만드는 회사들끼리 회의해서 살짝 고쳤겠지
참고로 DVD의 1배속 전송속도는 CD보다 9배 향상된 1350K바이트이고, 블루레이의 1배속은 DVD의 4배인 4.5M바이트이다

그건그렇고 앞으로는 본격 K를 킬로로 바꿔서 표기해야 좋을 것 같다

CD의 1배 정속이자 PCM오디오 비트전송률의 디폴트인 176킬로바이트는 확장자 .wav로 된 웨이브파일이 1초마다 점유하는 파일의 크기도 된다
흔한 16/44.1 기준으로 1분짜리 웨이브파일이면 여기에 60을 곱해서 10560킬로바이트이고, 1024로 나눠서 약 10.3메가바이트가 되니까 대충 웨이브는 1분에 10메가라고 보면 되겠다
만약 표본화빈도를 44.1K의 두배인 88.2K로 잡는다면 뽑아낸 파일도 두배가 되고, 비트깊이를 24비트로 했다면 16비트의 3/2배니까 역시 파일크기가 3/2배로 뿔어난다즉 비트깊이를 높이는게 데이터가 점유하는 용량대비 충실도의 향상에 있어서는 표본화빈도보다 효율이 높은 방식이라고 생각할 수 있다. 하지만 PCM을 풀어내는데 필요한 프로세싱자원의 효율성은 그 반대
예를 들어 양쪽 다를 적용해서 88.2K에 24비트짜리 파일이라면 44.1K 16비트보다 3배 많은 데이터가 들어가므로 비트전송률은 4233K이고 저장하면 1분마다 31메가씩을 잡아먹게 되겠지

그리고 아까 위에서 손실압축 포맷의 보편적인 가장 큰 와꾸가 320K만큼의 용량이고 이게 1411K의 약 1/4어치라고도 했었지
얘의 실제 파일크기 역시 원본으로 삼은 PCM웨이브파일의 1/4정도다
1분에 2.4메가쯤 된다
128K도 마찬가지로 1411K의 1/10이나 1/11정도인 비트전송률에 맞춰서 1분당 1메가에 약간 모자라는 꼴로 나오고, 이 추세는 다른 모든 음악파일에 똑같이 적용된다
128K, 192K, 320K등등으로 비트전송률이 똑같다면, 태그랑 고유한 뭔 코드같은게 찌꺼기로 앞뒤에 다르게 붙은거 약간만을 제외하고 mp3, ogg, wma, m4a등등 전부 파일크기가 똑같다근데 파일 몸뚱이가 1/10이라고 표본화빈도가 4.1K이거나 비트깊이가 1.6이거나 하지는 않는다? 풀어내면 같은게 튀어나오는 압축파일이라서 이런거야? 다만 손실압축을 하느라고 산출물이 완전히 똑같지는 않은것이고?

굳이 차이점을 꼽아보자면 음질의 우열은 얘기할 수 있겠네
비트전송률이 200K 이상쯤으로 괜찮아지면 거의 뭐 구분이 의미없고 웨이브 원판격인 PCM이나 무손실압축이랑의 비교에서도 꿀리지 않는데무결한 음질까지는 아직 한참 멀었지만 적어도 귀를 혹사시키는 왜곡만큼은 전혀 없는 것처럼은 튜닝이 진행된 엘루이에서 같은 음악을 MP3와 웨이브로 번갈아 들어본적이 있는데, MP3쪽 저음역의 밑바닥 대역폭만 약간 좁을 뿐 다른 소리는 차이가 없더라. 엘루이 만큼이라도 된 클럽은 외국에 나가도 드무니까 이 문제에 대해 너무 걱정하지는 말자, 낮은 비트전송률에서는 제일 구식인 mp3가 많이 후달리는 편이다

어떤 사람은 96K의 wma와 m4a가 128K짜리 mp3보다 음질이 뛰어나다고도 하더라
그놈이 한번, 나도 좋다고 또한번 실험해봤고 나는 후회하고 있으니 너만은 추잡한 삽질로 젊음을 낭비하지 말고 여유롭게 웰빙해라
꼬우면 아이팟 사고 m4a파일 구해서 쳐들어
존나 짱이야

저작자표시 비영리 변경금지

'정리' 카테고리의 다른 글

지능이 높지 않은 내가 이해한 만큼 정리했기 때문에 너도 알아먹을 수 있는 야매 악식론 1 - Song (2)	2012.02.01
비트매칭과 bpm에서 시작해서, 꼬리에 꼬리를 물고 삼천포로 달려가버린 추잡한 헛소리들 (0)	2010.05.11
혼Horn, 웨이브가이드Waveguide, 컴프레션드라이버Compression driver (0)	2010.01.18

Posted by 우다리

글 이제 안 씀

몰라도 음악듣고 곡 쓰는데는 지장없는, 오디오파일의 비트전송률과 샘플링주파수와 비트뎁스 이야긔 를 하다가 앱천포로 마무리

'정리' 카테고리의 다른 글

카테고리

티스토리툴바