한국어 STT·TTS 비교: 어떤 엔진이 AI 전화에 가장 적합한가
한국어 STT·TTS 비교: 어떤 엔진이 AI 전화에 가장 적합한가
AI 전화 에이전트를 만들 때 가장 기본이 되는 두 가지 기술이 있습니다. **STT(Speech-to-Text, 음성인식)**와 **TTS(Text-to-Speech, 음성합성)**입니다. 고객의 말을 텍스트로 바꾸고(STT), AI의 응답을 음성으로 바꾸는(TTS) 과정이 전화 통화의 근간입니다.
문제는 한국어입니다. 영어에서는 뛰어난 성능을 보이는 엔진이 한국어에서는 맥을 못 추는 경우가 많습니다. 한국지능정보사회진흥원(NIA)에서도 한국어 AI 음성 기술의 품질 격차를 주요 과제로 지적하고 있습니다. 이 글에서는 주요 STT/TTS 엔진을 한국어 기준으로 비교하고, AI 전화에 가장 적합한 조합을 찾아보겠습니다.
한국어 음성인식이 어려운 이유
먼저 왜 한국어 STT가 영어 대비 어려운지 이해하고 가겠습니다.
1. 교착어(Agglutinative Language)
한국어는 어근에 다양한 접사가 붙어서 단어를 만듭니다.
가다 → 갔다, 가겠다, 가셨다, 가보시겠어요, 가셨었는데요...
먹다 → 먹었다, 먹겠습니다, 드셨어요, 잡수셨습니까...
영어의 go/went/gone 수준이 아닙니다. 하나의 동사가 수십 가지 변형을 가집니다. STT 모델이 이 모든 변형을 정확히 잡아내야 합니다.
2. 존댓말 체계
같은 의미가 완전히 다른 형태로 표현됩니다.
| 의미 | 반말 | 해요체 | 합니다체 | 존경어 |
|---|---|---|---|---|
| 먹다 | 먹어 | 먹어요 | 먹습니다 | 드세요 / 잡수세요 |
| 가다 | 가 | 가요 | 갑니다 | 가세요 / 가십시오 |
| 있다 | 있어 | 있어요 | 있습니다 | 계세요 / 계십니다 |
전화 상담에서는 주로 해요체나 합니다체가 쓰이지만, 고객은 어떤 말투든 사용할 수 있습니다. STT가 이 다양한 표현을 모두 올바르게 인식해야 합니다.
3. 코드스위칭
한국 사람들은 대화 중에 영어를 자연스럽게 섞어 씁니다. 특히 기술/비즈니스 분야에서는 더합니다.
"그 API 콜이 타임아웃 걸렸는데요"
"디플로이먼트 스케줄 좀 확인해주세요"
"캔슬하려면 어떻게 해요?"
STT가 한국어 모드에서 영어 단어를 제대로 잡지 못하면 의미가 완전히 달라집니다.
4. 전화 음질 문제
전화는 8kHz 샘플링 레이트에 좁은 주파수 대역을 사용합니다. 일반 마이크 녹음(16kHz 이상)과는 품질 차이가 큽니다. 한국어의 미묘한 발음 차이가 전화 음질에서는 더 구분하기 어렵습니다.
STT 엔진 비교
OpenAI Whisper
Whisper는 OpenAI가 공개한 오픈소스 음성인식 모델입니다. 2022년 첫 공개 이후 꾸준히 업데이트되고 있습니다.
한국어 성능:
- large-v3 모델 기준 WER(Word Error Rate) 약 10~15% (깨끗한 오디오)
- 전화 음질에서는 **15~20%**까지 올라갑니다
- 긴 문장보다 짧은 발화에서 더 정확합니다
장점:
- 오픈소스: 셀프호스팅이 가능합니다. 비용을 통제할 수 있습니다
- 99개 언어 지원: 다국어 에이전트에 하나의 모델로 대응 가능
- API도 제공: OpenAI API로 쉽게 사용할 수 있습니다
- 커뮤니티 활발: 한국어 파인튜닝 모델도 여럿 공개되어 있습니다
단점:
- 실시간 스트리밍이 기본 지원 안 됨: 전화 통화에서는 치명적입니다. whisper-streaming 같은 래퍼를 써야 합니다
- 한국어 특화 학습이 부족: 범용 모델이라 한국어 전용 모델보다 정확도가 낮습니다
- 레이턴시: large 모델은 처리 시간이 깁니다. GPU가 필수입니다
# Whisper API 사용 예시
import openai
audio_file = open("call_recording.wav", "rb")
transcript = openai.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
language="ko"
)
print(transcript.text)
네이버 CLOVA Speech
한국어에 가장 특화된 상용 STT 엔진입니다.
한국어 성능:
- WER 약 5~10% (깨끗한 오디오)
- 전화 음질에서도 8~13% 수준을 유지합니다
- 존댓말, 사투리, 전문 용어에 강합니다
장점:
- 한국어 최강: 한국어만 놓고 보면 가장 정확합니다
- 실시간 스트리밍 지원: 전화 통화에 바로 적용 가능
- 화자 분리: 여러 사람이 말하는 경우 누가 말했는지 구분 가능
- 커스텀 사전: 업종별 전문 용어를 등록할 수 있습니다
단점:
- 네이버 클라우드 종속: 네이버 클라우드 계정이 필요합니다
- 비용: 월 사용량에 따라 다르지만 다른 옵션 대비 비싼 편입니다
- 다국어 전환이 어렵습니다: 한국어에 특화된 만큼 영어/일본어로 전환할 때 별도 엔진이 필요합니다
Google Cloud Speech-to-Text
구글의 클라우드 기반 STT 서비스입니다.
한국어 성능:
- WER 약 8~12% (깨끗한 오디오)
- 전화 음질 전용 모델(telephony 모델)이 있어서 전화에서 10~15% 수준
- v2 API에서 성능이 크게 개선되었습니다
장점:
- 전화 전용 모델:
telephony모델이 별도로 있어서 전화 음질에 최적화되어 있습니다 - 실시간 스트리밍: 안정적인 스트리밍 API 제공
- 다국어 지원: 125개 이상 언어를 지원하며 자동 언어 감지 가능
- Chirp 모델: 최신 Chirp 모델은 한국어 성능이 상당히 좋아졌습니다
단점:
- CLOVA보다 한국어가 약합니다: 특히 구어체, 사투리, 축약어에서 차이가 납니다
- 비용 관리: 사용량이 많아지면 비용이 꽤 나옵니다
- 콜드 스타트: 첫 요청에 레이턴시가 발생할 수 있습니다
# Google Cloud STT - 전화 전용 모델 사용 예시
from google.cloud import speech
client = speech.SpeechClient()
config = speech.RecognitionConfig(
encoding=speech.RecognitionConfig.AudioEncoding.MULAW,
sample_rate_hertz=8000, # 전화 음질
language_code="ko-KR",
model="telephony", # 전화 전용 모델
use_enhanced=True,
)
Deepgram
API-first STT 서비스로, 개발자 경험에 집중합니다.
한국어 성능:
- WER 약 15~20% (깨끗한 오디오)
- 전화 음질에서는 **20~25%**까지 떨어지기도 합니다
- Nova-2 모델 기준, 영어 대비 한국어 성능 격차가 큽니다
장점:
- 속도가 빠릅니다: 실시간 처리 속도가 매우 빠릅니다. 레이턴시에 민감한 전화에 유리합니다
- 개발자 친화적: API 설계가 깔끔하고 문서가 좋습니다
- 비용이 저렴한 편: 대량 사용 시 경쟁력 있는 가격
- 실시간 스트리밍: WebSocket 기반 안정적인 스트리밍
단점:
- 한국어가 아직 약합니다: 영어에서는 최고 수준이지만 한국어는 그렇지 않습니다
- 한국어 커스텀 사전 제한: 영어만큼 세밀한 커스터마이징이 안 됩니다
STT 비교 요약표
| 엔진 | 한국어 정확도 (전화) | 스트리밍 | 레이턴시 | 비용 | 다국어 |
|---|---|---|---|---|---|
| Whisper | 중 (15~20%) | 별도 구현 | 높음 | 낮음 (셀프호스팅) | 99개 |
| CLOVA | 최상 (8~13%) | 지원 | 중 | 높음 | 약함 |
| 상 (10~15%) | 지원 | 중 | 중 | 125개+ | |
| Deepgram | 하 (20~25%) | 지원 | 최저 | 낮음 | 제한적 |
TTS 엔진 비교
ElevenLabs
음성 합성 분야의 대세로 떠오른 서비스입니다.
한국어 성능:
- 자연스러움이 매우 뛰어납니다. 사람과 구분이 어려운 수준입니다
- 감정 표현, 속도 조절이 세밀하게 가능합니다
- 한국어 전용 보이스 다수 제공
장점:
- 음질이 압도적: 현존 TTS 중 가장 자연스러운 음성을 생성합니다
- 보이스 클로닝: 원하는 목소리를 복제할 수 있습니다
- 스트리밍 지원: 실시간 음성 생성 가능
- 다국어: 한국어, 일본어, 영어 등 다양한 언어 지원
단점:
- 비용이 높습니다: 글자 수 기반 과금이라 통화량이 많으면 부담됩니다
- 한국어 발음이 가끔 어색합니다: 고유명사나 숫자 읽기에서 실수할 때가 있습니다
- 레이턴시: 최초 생성에 약간의 지연이 있습니다
네이버 CLOVA Voice
네이버의 TTS 서비스입니다. STT와 마찬가지로 한국어에 특화되어 있습니다.
한국어 성능:
- 한국어 발음이 매우 정확합니다
- 다양한 한국어 화자(남성, 여성, 아나운서 톤 등) 제공
- 전화 상담 전용 톤 설정 가능
장점:
- 한국어 발음 정확도 최고: 고유명사, 주소, 전화번호 읽기가 정확합니다
- 다양한 화자: 용도별로 선택할 수 있는 화자가 많습니다
- SSML 지원: 세밀한 발화 제어 가능
- 비용이 합리적: ElevenLabs 대비 저렴한 편입니다
단점:
- 자연스러움에서 ElevenLabs에 밀립니다: 약간 기계적인 느낌이 있습니다
- 감정 표현이 제한적: 단조로운 톤이 될 수 있습니다
- 네이버 클라우드 종속
Google Cloud Text-to-Speech
구글의 TTS 서비스입니다.
한국어 성능:
- WaveNet/Neural2 음성이 상당히 자연스럽습니다
- Studio 음성(고품질)과 Standard 음성(저비용) 선택 가능
- 한국어 화자 수가 제한적입니다
장점:
- 안정적: 구글 인프라라 다운타임이 거의 없습니다
- WaveNet: 딥러닝 기반으로 자연스러운 음성
- 다국어 전환이 쉽습니다: SSML로 문장 중간에 언어를 바꿀 수 있습니다
- 비용이 합리적: 월 무료 한도가 넉넉합니다
단점:
- 한국어 화자 선택이 적습니다: 영어 대비 선택지가 부족합니다
- ElevenLabs만큼 자연스럽지 않습니다: 특히 긴 문장에서 차이가 납니다
TTS 비교 요약표
| 엔진 | 한국어 자연스러움 | 한국어 발음 정확도 | 스트리밍 | 비용 | 다국어 |
|---|---|---|---|---|---|
| ElevenLabs | 최상 | 상 | 지원 | 높음 | 지원 |
| CLOVA Voice | 상 | 최상 | 지원 | 중 | 약함 |
| Google TTS | 중상 | 상 | 지원 | 중 | 최상 |
AI 전화에서 가장 중요한 기준: 레이턴시
블로그 글 요약이나 팟캐스트 생성은 몇 초 걸려도 상관없습니다. 하지만 전화 통화는 다릅니다. 레이턴시 최적화에 대한 심층 분석은 음성 AI 레이턴시 최적화 가이드에서 다루고 있습니다.
고객이 말을 끝내고 AI가 응답하기까지의 시간:
- 500ms 이하: 자연스러운 대화 (목표)
- 500ms~1초: 약간의 지연이 느껴지지만 수용 가능
- 1초~2초: 불편함을 느끼기 시작
- 2초 이상: "여보세요? 거기 있어요?" 반응이 나옵니다
이 시간 안에 들어가야 하는 처리:
[고객 발화 종료 감지] → [STT 처리] → [LLM 추론] → [TTS 생성] → [음성 재생]
50ms 100~300ms 200~500ms 100~300ms 즉시
전체 파이프라인을 500ms~1초 안에 넣으려면 각 단계가 빨라야 합니다. 특히 STT와 TTS는 스트리밍 방식이 필수입니다. 고객이 말하는 도중에 STT가 동시에 처리하고, LLM 응답이 나오는 동시에 TTS가 음성을 생성해야 합니다.
레이턴시 관점 추천
- STT: Google Cloud(telephony 모델) 또는 Deepgram이 스트리밍 레이턴시가 가장 낮습니다. 한국어 정확도와 레이턴시의 균형점을 찾아야 합니다.
- TTS: ElevenLabs의 스트리밍 API 또는 CLOVA Voice의 스트리밍이 적합합니다.
비용 비교
월 1,000건 통화, 평균 통화 시간 3분 기준으로 대략적인 비용을 계산해보겠습니다.
STT 비용 (월 3,000분 = 50시간)
| 엔진 | 월 예상 비용 |
|---|---|
| Whisper (셀프호스팅) | GPU 서버 비용 (월 10~30만 원) |
| Whisper (OpenAI API) | 약 $36 (약 4.8만 원) |
| CLOVA Speech | 약 15~25만 원 |
| Google Cloud STT | 약 $72 (약 9.6만 원) |
| Deepgram | 약 $44 (약 5.9만 원) |
TTS 비용 (월 예상 글자 수 약 150만 자)
| 엔진 | 월 예상 비용 |
|---|---|
| ElevenLabs (Scale) | 약 $99 (약 13.2만 원) |
| CLOVA Voice | 약 5~10만 원 |
| Google Cloud TTS (Neural2) | 약 $24 (약 3.2만 원) |
비용만 보면 Google이 합리적이지만, 한국어 품질까지 고려하면 단순 비교가 어렵습니다.
추천 조합
한국어 품질 최우선
STT: CLOVA Speech + TTS: ElevenLabs 또는 CLOVA Voice
한국어 인식 정확도가 가장 중요할 때입니다. 병원, 법률, 금융 등 오인식이 큰 문제가 되는 업종에 적합합니다. 비용은 높지만 품질도 높습니다.
비용 효율 우선
STT: Whisper (셀프호스팅) + TTS: Google Cloud TTS
비용을 최소화하면서도 쓸 만한 품질을 원할 때입니다. 스타트업 MVP나 개인 프로젝트에 적합합니다. 다만 Whisper의 실시간 스트리밍 구현에 추가 개발이 필요합니다.
레이턴시 최우선
STT: Deepgram 또는 Google Cloud + TTS: ElevenLabs (스트리밍)
응답 속도가 가장 중요할 때입니다. 한국어 정확도가 약간 떨어지더라도 자연스러운 대화 흐름을 유지하고 싶은 경우에 선택합니다.
다국어 지원
STT: Google Cloud (자동 언어 감지) + TTS: ElevenLabs (다국어)
한국어, 영어, 일본어를 동시에 지원해야 할 때입니다. 각 언어별로 엔진을 바꾸지 않고 하나의 파이프라인으로 처리할 수 있습니다. 다국어 음성 AI 구축에 관한 자세한 내용은 다국어 음성 AI 가이드를 참고하세요.
ClawOps의 접근 방식
ClawOps는 한국어 전화 통화에 최적화된 인프라를 제공합니다. 개발자가 전화 인프라를 직접 구축할 필요 없이 API로 바로 사용할 수 있습니다.
주요 특징:
- 한국 전화 인프라: 070 번호 발급, SIP, 통화 녹음 등 전화에 필요한 인프라를 API로 제공
- 낮은 레이턴시: GCP 서울 리전에서 500ms 미만의 응답 시간
- 웹훅 기반 통화 제어: 통화 이벤트를 웹훅으로 받아서 비즈니스 로직에 집중 가능
- 개발자가 STT/TTS를 직접 선택: 전화 인프라는 ClawOps가 처리하고, 음성 처리 엔진은 개발자가 자유롭게 조합 가능. 예시 SDK에서는 OpenAI Realtime API를 사용했고 이를 추천
직접 STT/TTS를 조합해서 쓰고 싶은 개발자에게는 이 글의 비교가 도움이 될 것이고, 인프라에 시간을 쓰고 싶지 않다면 ClawOps처럼 한국어에 최적화된 전화 인프라 플랫폼을 고려해볼 수 있습니다. STT/TTS가 전체 AI 전화 시스템 아키텍처에서 어떤 위치를 차지하는지 함께 이해하면 더 좋은 설계가 가능합니다.
정리
한국어 STT/TTS 선택은 정확도, 레이턴시, 비용 세 축의 트레이드오프입니다.
- 한국어 정확도만 보면 CLOVA가 최강입니다
- 레이턴시만 보면 Deepgram이 가장 빠릅니다
- 비용만 보면 Whisper 셀프호스팅이 저렴합니다
- 자연스러운 음성은 ElevenLabs가 앞섭니다
AI 전화에서는 이 세 가지를 다 잡아야 해서 어렵습니다. 결국 자신의 서비스에서 가장 중요한 기준이 무엇인지 먼저 정하고, 그에 맞는 조합을 선택하는 게 핵심입니다.
한 가지 확실한 건, 2026년 현재 한국어 음성 AI의 수준은 실서비스에 충분히 쓸 수 있는 단계에 왔다는 것입니다. 소프트웨어정책연구소(SPRi)의 보고서에서도 국내 음성 AI 기술이 상용화 단계에 진입했다고 평가하고 있습니다. 완벽하진 않지만, 고객이 수용할 수 있는 수준은 넘었습니다. 어떤 LLM을 함께 쓸지 고민이라면 AI 전화용 LLM 비교도 참고해보세요.
관련 글 더 보기
AI 전화 에이전트 프레임워크 비교: 오픈소스부터 상용 플랫폼까지 한눈에
AI 전화 에이전트를 만들 수 있는 프레임워크를 오픈소스(Pipecat, Vocode)부터 상용 플랫폼(Vapi, Retell)까지 비교합니다.
비교Twilio 한국 대안 총정리: 한국 번호로 전화·문자 보내는 API 플랫폼 비교
Twilio를 한국에서 쓸 수 없다면? 한국 전화번호를 지원하는 통신 API 플랫폼들을 기능, 가격, 번호 유형별로 비교합니다.
비교CLOVA AiCall vs API 자체 구축: 네이버 솔루션, 직접 만드는 것과 뭐가 다를까?
네이버 CLOVA AiCall과 ClawOps 같은 API를 활용한 자체 구축 방식을 기능, 비용, 유연성 측면에서 비교합니다.
비교AI 콜센터 Build vs Buy: API로 직접 만들까, SaaS를 도입할까?
AI 콜센터를 자체 구축(Build)할지 SaaS를 도입(Buy)할지 비용, 유연성, 운영 부담 측면에서 비교합니다.
비교Vapi vs Retell vs ClawOps: 한국에서 AI 음성 에이전트 어디 쓸까
Vapi, Retell AI, ClawOps를 한국 시장 기준으로 비교합니다. 070 번호 지원, 한국어 지원, 레이턴시, 가격 등 실사용 관점에서 분석합니다.