비교2026-02-24

한국어 STT·TTS 비교: 어떤 엔진이 AI 전화에 가장 적합한가

AI 전화 에이전트를 만들 때 가장 기본이 되는 두 가지 기술이 있습니다. **STT(Speech-to-Text, 음성인식)**와 **TTS(Text-to-Speech, 음성합성)**입니다. 고객의 말을 텍스트로 바꾸고(STT), AI의 응답을 음성으로 바꾸는(TTS) 과정이 전화 통화의 근간입니다.

문제는 한국어입니다. 영어에서는 뛰어난 성능을 보이는 엔진이 한국어에서는 맥을 못 추는 경우가 많습니다. 한국지능정보사회진흥원(NIA)에서도 한국어 AI 음성 기술의 품질 격차를 주요 과제로 지적하고 있습니다. 이 글에서는 주요 STT/TTS 엔진을 한국어 기준으로 비교하고, AI 전화에 가장 적합한 조합을 찾아보겠습니다.

한국어 음성인식이 어려운 이유

먼저 왜 한국어 STT가 영어 대비 어려운지 이해하고 가겠습니다.

1. 교착어(Agglutinative Language)

한국어는 어근에 다양한 접사가 붙어서 단어를 만듭니다.

가다 → 갔다, 가겠다, 가셨다, 가보시겠어요, 가셨었는데요...
먹다 → 먹었다, 먹겠습니다, 드셨어요, 잡수셨습니까...

영어의 go/went/gone 수준이 아닙니다. 하나의 동사가 수십 가지 변형을 가집니다. STT 모델이 이 모든 변형을 정확히 잡아내야 합니다.

2. 존댓말 체계

같은 의미가 완전히 다른 형태로 표현됩니다.

의미	반말	해요체	합니다체	존경어
먹다	먹어	먹어요	먹습니다	드세요 / 잡수세요
가다	가	가요	갑니다	가세요 / 가십시오
있다	있어	있어요	있습니다	계세요 / 계십니다

전화 상담에서는 주로 해요체나 합니다체가 쓰이지만, 고객은 어떤 말투든 사용할 수 있습니다. STT가 이 다양한 표현을 모두 올바르게 인식해야 합니다.

3. 코드스위칭

한국 사람들은 대화 중에 영어를 자연스럽게 섞어 씁니다. 특히 기술/비즈니스 분야에서는 더합니다.

"그 API 콜이 타임아웃 걸렸는데요"
"디플로이먼트 스케줄 좀 확인해주세요"
"캔슬하려면 어떻게 해요?"

STT가 한국어 모드에서 영어 단어를 제대로 잡지 못하면 의미가 완전히 달라집니다.

4. 전화 음질 문제

전화는 8kHz 샘플링 레이트에 좁은 주파수 대역을 사용합니다. 일반 마이크 녹음(16kHz 이상)과는 품질 차이가 큽니다. 한국어의 미묘한 발음 차이가 전화 음질에서는 더 구분하기 어렵습니다.

STT 엔진 비교

OpenAI Whisper

Whisper는 OpenAI가 공개한 오픈소스 음성인식 모델입니다. 2022년 첫 공개 이후 꾸준히 업데이트되고 있습니다.

한국어 성능:

large-v3 모델 기준 WER(Word Error Rate) 약 10~15% (깨끗한 오디오)
전화 음질에서는 **15~20%**까지 올라갑니다
긴 문장보다 짧은 발화에서 더 정확합니다

장점:

오픈소스: 셀프호스팅이 가능합니다. 비용을 통제할 수 있습니다
99개 언어 지원: 다국어 에이전트에 하나의 모델로 대응 가능
API도 제공: OpenAI API로 쉽게 사용할 수 있습니다
커뮤니티 활발: 한국어 파인튜닝 모델도 여럿 공개되어 있습니다

단점:

실시간 스트리밍이 기본 지원 안 됨: 전화 통화에서는 치명적입니다. whisper-streaming 같은 래퍼를 써야 합니다
한국어 특화 학습이 부족: 범용 모델이라 한국어 전용 모델보다 정확도가 낮습니다
레이턴시: large 모델은 처리 시간이 깁니다. GPU가 필수입니다

# Whisper API 사용 예시
import openai

audio_file = open("call_recording.wav", "rb")
transcript = openai.audio.transcriptions.create(
    model="whisper-1",
    file=audio_file,
    language="ko"
)
print(transcript.text)

네이버 CLOVA Speech

한국어에 가장 특화된 상용 STT 엔진입니다.

한국어 성능:

WER 약 5~10% (깨끗한 오디오)
전화 음질에서도 8~13% 수준을 유지합니다
존댓말, 사투리, 전문 용어에 강합니다

장점:

한국어 최강: 한국어만 놓고 보면 가장 정확합니다
실시간 스트리밍 지원: 전화 통화에 바로 적용 가능
화자 분리: 여러 사람이 말하는 경우 누가 말했는지 구분 가능
커스텀 사전: 업종별 전문 용어를 등록할 수 있습니다

단점:

네이버 클라우드 종속: 네이버 클라우드 계정이 필요합니다
비용: 월 사용량에 따라 다르지만 다른 옵션 대비 비싼 편입니다
다국어 전환이 어렵습니다: 한국어에 특화된 만큼 영어/일본어로 전환할 때 별도 엔진이 필요합니다

Google Cloud Speech-to-Text

구글의 클라우드 기반 STT 서비스입니다.

한국어 성능:

WER 약 8~12% (깨끗한 오디오)
전화 음질 전용 모델(telephony 모델)이 있어서 전화에서 10~15% 수준
v2 API에서 성능이 크게 개선되었습니다

장점:

전화 전용 모델: telephony 모델이 별도로 있어서 전화 음질에 최적화되어 있습니다
실시간 스트리밍: 안정적인 스트리밍 API 제공
다국어 지원: 125개 이상 언어를 지원하며 자동 언어 감지 가능
Chirp 모델: 최신 Chirp 모델은 한국어 성능이 상당히 좋아졌습니다

단점:

CLOVA보다 한국어가 약합니다: 특히 구어체, 사투리, 축약어에서 차이가 납니다
비용 관리: 사용량이 많아지면 비용이 꽤 나옵니다
콜드 스타트: 첫 요청에 레이턴시가 발생할 수 있습니다

# Google Cloud STT - 전화 전용 모델 사용 예시
from google.cloud import speech

client = speech.SpeechClient()
config = speech.RecognitionConfig(
    encoding=speech.RecognitionConfig.AudioEncoding.MULAW,
    sample_rate_hertz=8000,  # 전화 음질
    language_code="ko-KR",
    model="telephony",  # 전화 전용 모델
    use_enhanced=True,
)

Deepgram

API-first STT 서비스로, 개발자 경험에 집중합니다.

한국어 성능:

WER 약 15~20% (깨끗한 오디오)
전화 음질에서는 **20~25%**까지 떨어지기도 합니다
Nova-2 모델 기준, 영어 대비 한국어 성능 격차가 큽니다

장점:

속도가 빠릅니다: 실시간 처리 속도가 매우 빠릅니다. 레이턴시에 민감한 전화에 유리합니다
개발자 친화적: API 설계가 깔끔하고 문서가 좋습니다
비용이 저렴한 편: 대량 사용 시 경쟁력 있는 가격
실시간 스트리밍: WebSocket 기반 안정적인 스트리밍

단점:

한국어가 아직 약합니다: 영어에서는 최고 수준이지만 한국어는 그렇지 않습니다
한국어 커스텀 사전 제한: 영어만큼 세밀한 커스터마이징이 안 됩니다

STT 비교 요약표

엔진	한국어 정확도 (전화)	스트리밍	레이턴시	비용	다국어
Whisper	중 (15~20%)	별도 구현	높음	낮음 (셀프호스팅)	99개
CLOVA	최상 (8~13%)	지원	중	높음	약함
Google	상 (10~15%)	지원	중	중	125개+
Deepgram	하 (20~25%)	지원	최저	낮음	제한적

TTS 엔진 비교

ElevenLabs

음성 합성 분야의 대세로 떠오른 서비스입니다.

한국어 성능:

자연스러움이 매우 뛰어납니다. 사람과 구분이 어려운 수준입니다
감정 표현, 속도 조절이 세밀하게 가능합니다
한국어 전용 보이스 다수 제공

장점:

음질이 압도적: 현존 TTS 중 가장 자연스러운 음성을 생성합니다
보이스 클로닝: 원하는 목소리를 복제할 수 있습니다
스트리밍 지원: 실시간 음성 생성 가능
다국어: 한국어, 일본어, 영어 등 다양한 언어 지원

단점:

비용이 높습니다: 글자 수 기반 과금이라 통화량이 많으면 부담됩니다
한국어 발음이 가끔 어색합니다: 고유명사나 숫자 읽기에서 실수할 때가 있습니다
레이턴시: 최초 생성에 약간의 지연이 있습니다

네이버 CLOVA Voice

네이버의 TTS 서비스입니다. STT와 마찬가지로 한국어에 특화되어 있습니다.

한국어 성능:

한국어 발음이 매우 정확합니다
다양한 한국어 화자(남성, 여성, 아나운서 톤 등) 제공
전화 상담 전용 톤 설정 가능

장점:

한국어 발음 정확도 최고: 고유명사, 주소, 전화번호 읽기가 정확합니다
다양한 화자: 용도별로 선택할 수 있는 화자가 많습니다
SSML 지원: 세밀한 발화 제어 가능
비용이 합리적: ElevenLabs 대비 저렴한 편입니다

단점:

자연스러움에서 ElevenLabs에 밀립니다: 약간 기계적인 느낌이 있습니다
감정 표현이 제한적: 단조로운 톤이 될 수 있습니다
네이버 클라우드 종속

Google Cloud Text-to-Speech

구글의 TTS 서비스입니다.

한국어 성능:

WaveNet/Neural2 음성이 상당히 자연스럽습니다
Studio 음성(고품질)과 Standard 음성(저비용) 선택 가능
한국어 화자 수가 제한적입니다

장점:

안정적: 구글 인프라라 다운타임이 거의 없습니다
WaveNet: 딥러닝 기반으로 자연스러운 음성
다국어 전환이 쉽습니다: SSML로 문장 중간에 언어를 바꿀 수 있습니다
비용이 합리적: 월 무료 한도가 넉넉합니다

단점:

한국어 화자 선택이 적습니다: 영어 대비 선택지가 부족합니다
ElevenLabs만큼 자연스럽지 않습니다: 특히 긴 문장에서 차이가 납니다

TTS 비교 요약표

엔진	한국어 자연스러움	한국어 발음 정확도	스트리밍	비용	다국어
ElevenLabs	최상	상	지원	높음	지원
CLOVA Voice	상	최상	지원	중	약함
Google TTS	중상	상	지원	중	최상

AI 전화에서 가장 중요한 기준: 레이턴시

블로그 글 요약이나 팟캐스트 생성은 몇 초 걸려도 상관없습니다. 하지만 전화 통화는 다릅니다. 레이턴시 최적화에 대한 심층 분석은 음성 AI 레이턴시 최적화 가이드에서 다루고 있습니다.

고객이 말을 끝내고 AI가 응답하기까지의 시간:

500ms 이하: 자연스러운 대화 (목표)
500ms~1초: 약간의 지연이 느껴지지만 수용 가능
1초~2초: 불편함을 느끼기 시작
2초 이상: "여보세요? 거기 있어요?" 반응이 나옵니다

이 시간 안에 들어가야 하는 처리:

[고객 발화 종료 감지] → [STT 처리] → [LLM 추론] → [TTS 생성] → [음성 재생]
         50ms            100~300ms     200~500ms     100~300ms      즉시

전체 파이프라인을 500ms~1초 안에 넣으려면 각 단계가 빨라야 합니다. 특히 STT와 TTS는 스트리밍 방식이 필수입니다. 고객이 말하는 도중에 STT가 동시에 처리하고, LLM 응답이 나오는 동시에 TTS가 음성을 생성해야 합니다.

레이턴시 관점 추천

STT: Google Cloud(telephony 모델) 또는 Deepgram이 스트리밍 레이턴시가 가장 낮습니다. 한국어 정확도와 레이턴시의 균형점을 찾아야 합니다.
TTS: ElevenLabs의 스트리밍 API 또는 CLOVA Voice의 스트리밍이 적합합니다.

비용 비교

월 1,000건 통화, 평균 통화 시간 3분 기준으로 대략적인 비용을 계산해보겠습니다.

STT 비용 (월 3,000분 = 50시간)

엔진	월 예상 비용
Whisper (셀프호스팅)	GPU 서버 비용 (월 10~30만 원)
Whisper (OpenAI API)	약 $36 (약 4.8만 원)
CLOVA Speech	약 15~25만 원
Google Cloud STT	약 $72 (약 9.6만 원)
Deepgram	약 $44 (약 5.9만 원)

TTS 비용 (월 예상 글자 수 약 150만 자)

엔진	월 예상 비용
ElevenLabs (Scale)	약 $99 (약 13.2만 원)
CLOVA Voice	약 5~10만 원
Google Cloud TTS (Neural2)	약 $24 (약 3.2만 원)

비용만 보면 Google이 합리적이지만, 한국어 품질까지 고려하면 단순 비교가 어렵습니다.

ClawOps의 접근 방식

ClawOps는 한국어 전화 통화에 최적화된 인프라를 제공합니다. 개발자가 전화 인프라를 직접 구축할 필요 없이 API로 바로 사용할 수 있습니다.

주요 특징:

한국 전화 인프라: 070 번호 발급, SIP, 통화 녹음 등 전화에 필요한 인프라를 API로 제공
AWS 서울 리전 운영: 국내 네트워크 경로로 동작해 해외 경유 대비 왕복이 짧음
웹훅 기반 통화 제어: 통화 이벤트를 웹훅으로 받아서 비즈니스 로직에 집중 가능
개발자가 STT/TTS를 직접 선택: 전화 인프라는 ClawOps가 처리하고, 음성 처리 엔진은 개발자가 자유롭게 조합 가능. 예시 SDK에서는 OpenAI Realtime API를 사용했고 이를 추천

직접 STT/TTS를 조합해서 쓰고 싶은 개발자에게는 이 글의 비교가 도움이 될 것이고, 인프라에 시간을 쓰고 싶지 않다면 ClawOps처럼 한국어에 최적화된 전화 인프라 플랫폼을 고려해볼 수 있습니다. STT/TTS가 전체 AI 전화 시스템 아키텍처에서 어떤 위치를 차지하는지 함께 이해하면 더 좋은 설계가 가능합니다.

정리

한국어 STT/TTS 선택은 정확도, 레이턴시, 비용 세 축의 트레이드오프입니다.

한국어 정확도만 보면 CLOVA가 최강입니다
레이턴시만 보면 Deepgram이 가장 빠릅니다
비용만 보면 Whisper 셀프호스팅이 저렴합니다
자연스러운 음성은 ElevenLabs가 앞섭니다

AI 전화에서는 이 세 가지를 다 잡아야 해서 어렵습니다. 결국 자신의 서비스에서 가장 중요한 기준이 무엇인지 먼저 정하고, 그에 맞는 조합을 선택하는 게 핵심입니다.

한 가지 확실한 건, 2026년 현재 한국어 음성 AI의 수준은 실서비스에 충분히 쓸 수 있는 단계에 왔다는 것입니다. 소프트웨어정책연구소(SPRi)의 보고서에서도 국내 음성 AI 기술이 상용화 단계에 진입했다고 평가하고 있습니다. 완벽하진 않지만, 고객이 수용할 수 있는 수준은 넘었습니다. 어떤 LLM을 함께 쓸지 고민이라면 AI 전화용 LLM 비교도 참고해보세요.

한국어 STT·TTS 비교: 어떤 엔진이 AI 전화에 가장 적합한가

한국어 STT·TTS 비교: 어떤 엔진이 AI 전화에 가장 적합한가

한국어 음성인식이 어려운 이유

1. 교착어(Agglutinative Language)

2. 존댓말 체계

3. 코드스위칭

4. 전화 음질 문제

STT 엔진 비교

OpenAI Whisper

네이버 CLOVA Speech

Google Cloud Speech-to-Text

Deepgram

STT 비교 요약표

TTS 엔진 비교

ElevenLabs

네이버 CLOVA Voice

Google Cloud Text-to-Speech

TTS 비교 요약표

AI 전화에서 가장 중요한 기준: 레이턴시

레이턴시 관점 추천

비용 비교

STT 비용 (월 3,000분 = 50시간)

TTS 비용 (월 예상 글자 수 약 150만 자)

추천 조합

한국어 품질 최우선

비용 효율 우선

레이턴시 최우선

다국어 지원

ClawOps의 접근 방식

정리

관련 글 더 보기

트윌리오 대안 비교 (2026): 한국 070 번호가 필요하다면

AI 전화 에이전트 프레임워크 비교: 오픈소스부터 상용 플랫폼까지 한눈에

Twilio 한국 070 안 됨 — 한국 번호 발급되는 CPaaS 대안 비교 (2026)

CLOVA AiCall vs API 자체 구축: 네이버 솔루션, 직접 만드는 것과 뭐가 다를까?

AI 콜센터 Build vs Buy: API로 직접 만들까, SaaS를 도입할까?

ClawOps AI 전화 API로 시작하기