주요 피처 추출 기술

고해상도 주파수 추출로 인한 전처리단계의 성능 향상으로 음성 관련 인공지능시스템의 전반적 성능 및 효율을 향상시킬 수 있습니다.

고해상도 스펙트로그램을 사용하는 딥러닝 기반의 음성인식 기술

음성이 주어지면 고해상도 스펙트로그램을 추출한 후, 스펙트로그램의 최소 시간 단위가 세밀한 상태에서 시간 단위별로 음소 확률을 추출하거나 음소의 발생시간 범위를 추출하여 음성인식을 수행합니다. 하나의 시간 단위에 두 개 이상의 음소가 들어가는 상황을 줄일 수 있으므로 음성인식 정확도를 높일 수 있습니다.

아래 그림은 시간 단위가 큰 경우(저해상도 스펙트로그램 사용)와 작은 경우(고해상도 스펙트로그램 사용)를 비교한 예제입니다. 시간 단위가 크면 하나의 구간에서 발생 확률이 큰 음소가 두 개 이상 존재할 수 있고 시간 단위가 작을수록 하나의 시간 단위에 두 개의 음소가 발생할 확률은 점점 작아지게 됩니다.

저해상도 스펙트로그램 사용
고해상도 스펙트로그램 사용

시간 단위가 크면 하나의 단어를 구성하는 각각의 글자를 여러 사람이 동시에 말하는 이구동성 상황에서 단어를 인지하는 것과 같은 상황이 됩니다. 예를 들어, "음성인식"이라는 단어가 주어졌을 때 4명이 "음", "성", "인", "식"을 한 글자씩 순차적으로 말하면 "음성인식"으로 쉽게 들리지만, 4명이 한 글자씩 맡아서 동시에 말하면 "음성인식"이라고 듣기 어렵게 됩니다. 이와 같은 원리에 의해서 고해상도 스펙트로그램을 사용하면 음성인식의 정밀도가 높아지게 됩니다.

고해상도 스펙트로그램을 사용하는 딥러닝 기반의 화자인식 기술

고해상도 스펙트로그램을 사용하면 사람의 음성을 구분하는 목소리 높낮이 정보, 음절 지속 시간이나 음성 톤의 변화 등을 정밀하게 추출할 수 있습니다. 따라서, 정밀하게 추출된 정보를 이용하여 화자 인식을 하게 되면 기존보다 더 정밀한 결과를 얻을 수 있게 됩니다.

음성의 높낮이 정보는 음성의 기본주파수에 의해서 정해집니다. 음성의 기본주파수는 아래 그림과 같이 대체로 남자보다 여자가 높고 성인보다 어린이가 더 높게 나타납니다.

고해상도 스펙트로그램을 사용하면 음성의 기본주파수와 톤의 변화를 정밀하게 추출할 수 있습니다. 특히 노이즈 환경에서 기존 방법 대비 고해상도 스펙트로그램의 장점이 더욱 부각됩니다.

지적재산권: 핵심 알고리즘 및 응용 알고리즘 특허 출원 (국내 및 해외)

구분 제목 출원(등록)일 출원번호
특허 디제이 변환에 의한 주파수 추출 방법 2019.1.11 10-2019-0003620
PCT 디제이 변환에 의한 주파수 추출 방법 2019.11.26 PCT/KR2019/016347
특허 디제이 변환에 기초한 기본주파수 추출 방법 2020.10.05 제10-2164306
특허 복합음을 구성하는 순음의 추출 방법 2020.7.21 10-2020-0089961
PCT 디제이 변환에 기초한 기본주파수 추출 방법 2020.11.12 PCT/KR2020/015910
PCT 복합음을 구성하는 순음의 추출 방법 2021.2.10 PCT/KR2021/001807
US Frequency extraction method using DJ transform 2021.2.12 US17/268,444
US Fundamental frequency extraction method using DJ transform 2021.4.23 US17/288,459