다국어 음성 AI: 한국어·일본어·영어 동시 지원하는 전화 에이전트 만들기
다국어 음성 AI: 한국어·일본어·영어 동시 지원하는 전화 에이전트 만들기
요즘 스타트업 중에 한국 시장만 보는 곳이 얼마나 될까요? 일본 진출, 동남아 확장, 글로벌 SaaS... 고객이 다양한 언어로 전화하는 건 이제 일상입니다. 문제는 다국어 고객 응대를 사람으로 해결하려면 비용이 기하급수적으로 늘어난다는 겁니다.
AI 전화 에이전트로 이 문제를 풀 수 있습니다. 이 글에서는 한국어, 일본어, 영어를 동시에 지원하는 다국어 AI 전화 에이전트를 만드는 방법을 정리해보겠습니다.
다국어 음성 AI의 현재 수준
솔직히 말하면, 2~3년 전만 해도 다국어 음성 AI는 쓸 만한 수준이 아니었습니다. 특히 한국어와 일본어 같은 교착어(agglutinative language)는 영어 대비 인식률이 한참 떨어졌습니다.
그런데 2025년 이후로 상황이 많이 달라졌습니다.
- HighLevel: 26개 언어를 지원하며, 한국어와 일본어도 포함됩니다. 주로 마케팅 자동화 플랫폼이지만 전화 기능도 붙일 수 있습니다.
- Sierra AI: 고객이 말하는 순간 언어를 감지하고 즉시 전환(instant language switch)하는 기능을 보여줬습니다. 영어로 시작했다가 "일본어로 해주세요"라고 하면 바로 전환됩니다.
- Ada: 50개 이상 언어를 자동 감지(auto-detect)합니다. 별도 설정 없이 고객이 말하는 언어에 맞춰서 응답합니다.
핵심은 자동 감지와 즉시 전환입니다. 고객한테 "한국어는 1번, 영어는 2번" 같은 메뉴를 강요하는 시대는 끝났습니다.
한국어 STT의 현실적인 문제
다국어 지원에서 가장 골치 아픈 부분이 한국어 음성 인식(STT)입니다. 왜 그런지 구체적으로 보겠습니다.
교착어 특성
한국어는 어근에 조사, 어미가 붙어서 하나의 단어가 만들어집니다. "가다"라는 동사 하나가 "갔었는데요", "가셨습니까", "가보실래요" 같이 수십 가지로 변형됩니다. 영어의 go/went/gone 수준이 아닙니다.
존댓말 체계
같은 내용이라도 "해요", "합니다", "하십시오" 등 경어 레벨에 따라 표현이 완전히 달라집니다. STT가 이걸 정확히 잡아야 후속 처리(감정 분석, 의도 파악)도 제대로 됩니다.
동음이의어와 발음 유사성
"사과"가 과일인지 사과(apology)인지, "배"가 과일인지 배(ship)인지 문맥으로 판단해야 합니다. 전화 음질에서는 더 어렵습니다.
// 한국어 STT 정확도 비교 (전화 음질 기준, 대략적 수치)
Whisper large-v3: 85~90%
Google Cloud STT: 88~92%
Naver Clova: 90~95% (한국어 특화)
Deepgram (Nova-2): 82~87% (한국어는 아직 약함)
수치는 환경에 따라 다르지만, 핵심은 한국어에 특화된 모델을 쓰느냐에 따라 5~10%p 차이가 난다는 점입니다. 전화 통화에서 5%p 차이는 체감이 큽니다.
언어별 음성 커스터마이징
다국어 에이전트를 만들 때 단순히 "번역"만 하면 안 됩니다. 각 언어에 맞는 음성과 대화 스타일이 필요합니다.
한국어
- 존댓말 레벨 설정: 비즈니스 전화에서는 "~합니다" 체를 기본으로 씁니다. 너무 격식적인 "~하십시오" 체는 오히려 어색할 수 있습니다.
- 음성 톤: 한국 고객은 너무 밝고 높은 톤의 AI 음성에 거부감을 느끼는 경향이 있습니다. 차분하고 신뢰감 있는 톤이 좋습니다.
- 속도: 한국어는 영어보다 말하는 속도가 빠른 편입니다. TTS 속도를 약간 높여야 자연스럽습니다.
일본어
- 경어 체계가 한국어보다 더 복잡합니다: ていねい語(정중어), 尊敬語(존경어), 謙譲語(겸양어)를 상황에 맞게 써야 합니다.
- 맞장구(あいづち): 일본어 대화에서는 "はい", "そうですね" 같은 맞장구가 필수입니다. AI도 이걸 적절히 넣어야 자연스럽습니다.
- 음성: 비즈니스 상황에서는 부드럽고 정중한 여성 음성이 선호되는 경향이 있습니다(물론 상황에 따라 다릅니다).
영어
- 직접적인 표현: 한국어/일본어 대비 훨씬 직접적입니다. "How can I help you?" 같은 간결한 표현이 좋습니다.
- 억양: 미국식/영국식에 따라 고객 반응이 다를 수 있습니다. 타겟 시장에 맞추세요.
실전: 한국 회사가 일본·영어 고객을 응대하는 구조
구체적인 시나리오를 보겠습니다. 한국에 본사가 있고, 일본과 미국에 고객이 있는 SaaS 회사를 가정합니다.
아키텍처 설계
[전화 수신]
↓
[언어 감지 (첫 2~3초)]
↓
[한국어?] → 한국어 STT → 한국어 LLM 프롬프트 → 한국어 TTS
[일본어?] → 일본어 STT → 일본어 LLM 프롬프트 → 일본어 TTS
[영어?] → 영어 STT → 영어 LLM 프롬프트 → 영어 TTS
↓
[공통 비즈니스 로직 (예약, 문의 처리 등)]
↓
[CRM/DB 업데이트]
언어 감지 방법
- 전화번호 기반 추정: +82는 한국어, +81은 일본어, +1은 영어로 우선 설정합니다. 완벽하진 않지만 첫 인사말 언어를 결정하는 데 쓸 수 있습니다.
- 첫 발화 기반 감지: 고객이 처음 말하는 2~3초를 분석해서 언어를 감지합니다. Whisper나 Google STT 모두 언어 감지 기능을 제공합니다.
- 명시적 전환 요청: "영어로 해주세요" 같은 요청을 감지해서 전환합니다.
LLM 프롬프트 분리
같은 비즈니스 로직이라도 언어별로 프롬프트를 분리하는 게 좋습니다.
prompts = {
"ko": """당신은 {company}의 고객 상담 AI입니다.
한국어로 정중하게 응대하세요. '~합니다' 체를 사용하세요.
고객의 이름을 알면 '{name}님'으로 호칭하세요.""",
"ja": """あなたは{company}のカスタマーサポートAIです。
丁寧語で応対してください。
お客様のお名前がわかれば「{name}様」とお呼びください。""",
"en": """You are a customer support AI for {company}.
Be professional and helpful.
If you know the customer's name, address them as '{name}'."""
}
단순 번역이 아니라 각 언어 문화에 맞는 대화 방식을 프롬프트에 녹여야 합니다.
실전에서 부딪히는 문제들
코드스위칭(Code-switching)
한국 고객이 "그 feature 말인데요, deploy 언제 되나요?" 같이 한국어에 영어를 섞어 쓰는 경우가 많습니다. 특히 IT 업계에서는 거의 기본입니다. STT가 이걸 제대로 처리하지 못하면 의도 파악이 틀어집니다.
해결 방법: 한국어 모드에서도 영어 단어를 인식할 수 있는 STT 엔진을 선택하거나, 자주 쓰는 영어 용어를 커스텀 사전에 등록하세요.
레이턴시 관리
다국어 지원은 처리 단계가 늘어나서 레이턴시가 길어질 수 있습니다. 전화 통화에서는 1초 이상 침묵이 생기면 고객이 불편해합니다.
해결 방법:
- 언어별로 최적화된 STT/TTS 엔진을 선택해서 불필요한 처리를 줄이세요
- 스트리밍 방식의 STT/TTS를 사용하세요 (전체 발화를 기다리지 않고 실시간 처리)
- 언어 감지를 첫 통화에서 한 번만 하고, 이후는 캐싱하세요
번역 품질 vs 네이티브 품질
LLM이 한국어로 직접 응답하는 것과, 영어로 생각한 뒤 번역하는 것은 품질 차이가 큽니다. 가능하면 각 언어 네이티브 프롬프트를 쓰는 게 좋습니다.
ClawOps로 다국어 전화 에이전트 구축하기
ClawOps는 한국 전화 인프라(070 번호, SIP, 통화 녹음, 웹훅)를 API로 제공합니다. STT/TTS/LLM은 개발자가 직접 선택하여 연동합니다. 예시 SDK에서는 OpenAI Realtime API를 사용했고 이를 추천합니다. 한국 시장을 메인으로 하면서 일본어, 영어를 추가로 지원해야 하는 경우, 전화 인프라는 ClawOps로 해결하고 다국어 음성 처리 엔진을 개발자가 선택하면 됩니다.
주요 장점:
- 한국 전화 인프라: GCP 서울 리전, SIP/2.0 기반으로 통화 품질이 좋습니다
- 070 번호 API 발급: 한국 번호가 바로 나오니까 일본/미국 고객에게도 한국 사업자임을 명확히 할 수 있습니다
- 웹훅 기반 아키텍처: 언어 감지 후 비즈니스 로직을 자유롭게 구성할 수 있습니다
- API-first 설계: n8n이나 Make 같은 자동화 도구와 쉽게 연동됩니다
시작하기 전에 체크할 것
다국어 전화 에이전트를 만들기 전에 이 질문들에 답해보세요.
- 주요 타겟 언어는? 모든 언어를 동시에 지원하려 하지 말고, 가장 중요한 2~3개부터 시작하세요.
- 각 언어의 통화량 비율은? 한국어 80%, 일본어 15%, 영어 5%라면 한국어 품질에 집중하는 게 맞습니다.
- 언어별 비즈니스 로직이 다른가? 일본 고객은 예약만 하고, 한국 고객은 AS 문의도 한다면 플로우를 분리해야 합니다.
- 폴백 플랜은? AI가 처리 못하는 경우 한국어 상담원으로 연결할지, 콜백을 잡을지 정해놓으세요.
정리
다국어 AI 전화 에이전트는 더 이상 대기업만의 영역이 아닙니다. 적절한 STT/TTS 엔진 선택, 언어별 프롬프트 최적화, 그리고 웹훅 기반 아키텍처만 잘 잡으면 소규모 팀도 충분히 구축할 수 있습니다.
특히 한국 회사가 글로벌 고객을 상대하려면, 한국어 품질을 포기하지 않으면서 다른 언어를 추가하는 전략이 중요합니다. 범용 글로벌 솔루션을 쓰면 영어는 좋은데 한국어가 엉망인 경우가 많습니다.
한국어를 기본으로 하면서 다국어를 확장하고 싶다면, ClawOps 같은 한국어 특화 플랫폼을 베이스로 잡고 거기에 다른 언어를 추가하는 방식이 가장 현실적입니다.
관련 글 더 보기
AI 전화 에이전트 프롬프트 엔지니어링: 통화 품질을 결정하는 프롬프트 설계법
AI 전화 에이전트의 프롬프트를 설계하는 실전 가이드. 시스템 프롬프트 구조, 턴 제어, 예외 처리, 페르소나 설정까지 통화 품질을 높이는 핵심 기법을 정리합니다.
가이드AI 상담원 만들기: 채팅봇 말고 진짜 전화 상담원
채팅봇과 AI 전화 상담원의 차이점을 비교하고, 실시간 음성 대화가 가능한 AI 전화 상담원을 구축하는 방법을 안내합니다.
가이드음성 AI 레이턴시 300ms의 벽: 실시간 통화 품질 최적화 가이드
AI 음성 에이전트의 레이턴시를 300ms 이하로 최적화하는 방법. STT, LLM, TTS 각 단계별 최적화 전략.
가이드AI 전화 에이전트의 감정 인식: 화난 고객을 알아채고 톤을 바꾸는 법
AI 전화 에이전트가 고객의 감정을 실시간으로 인식하고 톤을 조절하는 기술을 소개합니다. 감정 분석 API부터 프롬프트 전략까지.
가이드AI 전화 에이전트 테스트 자동화: 배포 전 통화 품질을 검증하는 법
AI 전화 에이전트를 배포하기 전에 자동화된 테스트로 통화 품질을 검증하는 방법을 소개합니다. 시나리오 테스트부터 부하 테스트까지.