가이드2026-02-28

다국어 음성 AI: 한국어·일본어·영어 동시 지원하는 전화 에이전트 만들기

요즘 스타트업 중에 한국 시장만 보는 곳이 얼마나 될까요? 일본 진출, 동남아 확장, 글로벌 SaaS... 고객이 다양한 언어로 전화하는 건 이제 일상입니다. 문제는 다국어 고객 응대를 사람으로 해결하려면 비용이 기하급수적으로 늘어난다는 겁니다.

AI 전화 에이전트로 이 문제를 풀 수 있습니다. 이 글에서는 한국어, 일본어, 영어를 동시에 지원하는 다국어 AI 전화 에이전트를 만드는 방법을 정리해보겠습니다.

다국어 음성 AI의 현재 수준

솔직히 말하면, 2~3년 전만 해도 다국어 음성 AI는 쓸 만한 수준이 아니었습니다. 특히 한국어와 일본어 같은 교착어(agglutinative language)는 영어 대비 인식률이 한참 떨어졌습니다.

그런데 2025년 이후로 상황이 많이 달라졌습니다.

HighLevel: 26개 언어를 지원하며, 한국어와 일본어도 포함됩니다. 주로 마케팅 자동화 플랫폼이지만 전화 기능도 붙일 수 있습니다.
Sierra AI: 고객이 말하는 순간 언어를 감지하고 즉시 전환(instant language switch)하는 기능을 보여줬습니다. 영어로 시작했다가 "일본어로 해주세요"라고 하면 바로 전환됩니다.
Ada: 50개 이상 언어를 자동 감지(auto-detect)합니다. 별도 설정 없이 고객이 말하는 언어에 맞춰서 응답합니다.

핵심은 자동 감지와 즉시 전환입니다. 고객한테 "한국어는 1번, 영어는 2번" 같은 메뉴를 강요하는 시대는 끝났습니다.

한국어 STT의 현실적인 문제

다국어 지원에서 가장 골치 아픈 부분이 한국어 음성 인식(STT)입니다. 왜 그런지 구체적으로 보겠습니다.

교착어 특성

한국어는 어근에 조사, 어미가 붙어서 하나의 단어가 만들어집니다. "가다"라는 동사 하나가 "갔었는데요", "가셨습니까", "가보실래요" 같이 수십 가지로 변형됩니다. 영어의 go/went/gone 수준이 아닙니다.

존댓말 체계

같은 내용이라도 "해요", "합니다", "하십시오" 등 경어 레벨에 따라 표현이 완전히 달라집니다. STT가 이걸 정확히 잡아야 후속 처리(감정 분석, 의도 파악)도 제대로 됩니다.

동음이의어와 발음 유사성

"사과"가 과일인지 사과(apology)인지, "배"가 과일인지 배(ship)인지 문맥으로 판단해야 합니다. 전화 음질에서는 더 어렵습니다.

// 한국어 STT 정확도 비교 (전화 음질 기준, 대략적 수치)
Whisper large-v3:    85~90%
Google Cloud STT:    88~92%
Naver Clova:         90~95%  (한국어 특화)
Deepgram (Nova-2):   82~87%  (한국어는 아직 약함)

수치는 환경에 따라 다르지만, 핵심은 한국어에 특화된 모델을 쓰느냐에 따라 5~10%p 차이가 난다는 점입니다. 전화 통화에서 5%p 차이는 체감이 큽니다.

언어별 음성 커스터마이징

다국어 에이전트를 만들 때 단순히 "번역"만 하면 안 됩니다. 각 언어에 맞는 음성과 대화 스타일이 필요합니다.

한국어

존댓말 레벨 설정: 비즈니스 전화에서는 "~합니다" 체를 기본으로 씁니다. 너무 격식적인 "~하십시오" 체는 오히려 어색할 수 있습니다.
음성 톤: 한국 고객은 너무 밝고 높은 톤의 AI 음성에 거부감을 느끼는 경향이 있습니다. 차분하고 신뢰감 있는 톤이 좋습니다.
속도: 한국어는 영어보다 말하는 속도가 빠른 편입니다. TTS 속도를 약간 높여야 자연스럽습니다.

일본어

경어 체계가 한국어보다 더 복잡합니다: ていねい語(정중어), 尊敬語(존경어), 謙譲語(겸양어)를 상황에 맞게 써야 합니다.
맞장구(あいづち): 일본어 대화에서는 "はい", "そうですね" 같은 맞장구가 필수입니다. AI도 이걸 적절히 넣어야 자연스럽습니다.
음성: 비즈니스 상황에서는 부드럽고 정중한 여성 음성이 선호되는 경향이 있습니다(물론 상황에 따라 다릅니다).

영어

직접적인 표현: 한국어/일본어 대비 훨씬 직접적입니다. "How can I help you?" 같은 간결한 표현이 좋습니다.
억양: 미국식/영국식에 따라 고객 반응이 다를 수 있습니다. 타겟 시장에 맞추세요.

실전: 한국 회사가 일본·영어 고객을 응대하는 구조

구체적인 시나리오를 보겠습니다. 한국에 본사가 있고, 일본과 미국에 고객이 있는 SaaS 회사를 가정합니다.

아키텍처 설계

[전화 수신]
    ↓
[언어 감지 (첫 2~3초)]
    ↓
[한국어?] → 한국어 STT → 한국어 LLM 프롬프트 → 한국어 TTS
[일본어?] → 일본어 STT → 일본어 LLM 프롬프트 → 일본어 TTS
[영어?]   → 영어 STT   → 영어 LLM 프롬프트   → 영어 TTS
    ↓
[공통 비즈니스 로직 (예약, 문의 처리 등)]
    ↓
[CRM/DB 업데이트]

언어 감지 방법

전화번호 기반 추정: +82는 한국어, +81은 일본어, +1은 영어로 우선 설정합니다. 완벽하진 않지만 첫 인사말 언어를 결정하는 데 쓸 수 있습니다.
첫 발화 기반 감지: 고객이 처음 말하는 2~3초를 분석해서 언어를 감지합니다. Whisper나 Google STT 모두 언어 감지 기능을 제공합니다.
명시적 전환 요청: "영어로 해주세요" 같은 요청을 감지해서 전환합니다.

LLM 프롬프트 분리

같은 비즈니스 로직이라도 언어별로 프롬프트를 분리하는 게 좋습니다.

prompts = {
    "ko": """당신은 {company}의 고객 상담 AI입니다.
    한국어로 정중하게 응대하세요. '~합니다' 체를 사용하세요.
    고객의 이름을 알면 '{name}님'으로 호칭하세요.""",

    "ja": """あなたは{company}のカスタマーサポートAIです。
    丁寧語で応対してください。
    お客様のお名前がわかれば「{name}様」とお呼びください。""",

    "en": """You are a customer support AI for {company}.
    Be professional and helpful.
    If you know the customer's name, address them as '{name}'."""
}

단순 번역이 아니라 각 언어 문화에 맞는 대화 방식을 프롬프트에 녹여야 합니다.

실전에서 부딪히는 문제들

코드스위칭(Code-switching)

한국 고객이 "그 feature 말인데요, deploy 언제 되나요?" 같이 한국어에 영어를 섞어 쓰는 경우가 많습니다. 특히 IT 업계에서는 거의 기본입니다. STT가 이걸 제대로 처리하지 못하면 의도 파악이 틀어집니다.

해결 방법: 한국어 모드에서도 영어 단어를 인식할 수 있는 STT 엔진을 선택하거나, 자주 쓰는 영어 용어를 커스텀 사전에 등록하세요.

레이턴시 관리

다국어 지원은 처리 단계가 늘어나서 레이턴시가 길어질 수 있습니다. 전화 통화에서는 1초 이상 침묵이 생기면 고객이 불편해합니다.

해결 방법:

언어별로 최적화된 STT/TTS 엔진을 선택해서 불필요한 처리를 줄이세요
스트리밍 방식의 STT/TTS를 사용하세요 (전체 발화를 기다리지 않고 실시간 처리)
언어 감지를 첫 통화에서 한 번만 하고, 이후는 캐싱하세요

번역 품질 vs 네이티브 품질

LLM이 한국어로 직접 응답하는 것과, 영어로 생각한 뒤 번역하는 것은 품질 차이가 큽니다. 가능하면 각 언어 네이티브 프롬프트를 쓰는 게 좋습니다.

ClawOps로 다국어 전화 에이전트 구축하기

ClawOps는 한국 전화 인프라(070 번호, SIP, 통화 녹음, 웹훅)를 API로 제공합니다. STT/TTS/LLM은 개발자가 직접 선택하여 연동합니다. 예시 SDK에서는 OpenAI Realtime API를 사용했고 이를 추천합니다. 한국 시장을 메인으로 하면서 일본어, 영어를 추가로 지원해야 하는 경우, 전화 인프라는 ClawOps로 해결하고 다국어 음성 처리 엔진을 개발자가 선택하면 됩니다.

주요 장점:

한국 전화 인프라: GCP 서울 리전, SIP/2.0 기반으로 통화 품질이 좋습니다
070 번호 API 발급: 한국 번호가 바로 나오니까 일본/미국 고객에게도 한국 사업자임을 명확히 할 수 있습니다
웹훅 기반 아키텍처: 언어 감지 후 비즈니스 로직을 자유롭게 구성할 수 있습니다
API-first 설계: n8n이나 Make 같은 자동화 도구와 쉽게 연동됩니다

시작하기 전에 체크할 것

다국어 전화 에이전트를 만들기 전에 이 질문들에 답해보세요.

주요 타겟 언어는? 모든 언어를 동시에 지원하려 하지 말고, 가장 중요한 2~3개부터 시작하세요.
각 언어의 통화량 비율은? 한국어 80%, 일본어 15%, 영어 5%라면 한국어 품질에 집중하는 게 맞습니다.
언어별 비즈니스 로직이 다른가? 일본 고객은 예약만 하고, 한국 고객은 AS 문의도 한다면 플로우를 분리해야 합니다.
폴백 플랜은? AI가 처리 못하는 경우 한국어 상담원으로 연결할지, 콜백을 잡을지 정해놓으세요.

정리

다국어 AI 전화 에이전트는 더 이상 대기업만의 영역이 아닙니다. 적절한 STT/TTS 엔진 선택, 언어별 프롬프트 최적화, 그리고 웹훅 기반 아키텍처만 잘 잡으면 소규모 팀도 충분히 구축할 수 있습니다.

특히 한국 회사가 글로벌 고객을 상대하려면, 한국어 품질을 포기하지 않으면서 다른 언어를 추가하는 전략이 중요합니다. 범용 글로벌 솔루션을 쓰면 영어는 좋은데 한국어가 엉망인 경우가 많습니다.

한국어를 기본으로 하면서 다국어를 확장하고 싶다면, ClawOps 같은 한국어 특화 플랫폼을 베이스로 잡고 거기에 다른 언어를 추가하는 방식이 가장 현실적입니다.

다국어 음성 AI: 한국어·일본어·영어 동시 지원하는 전화 에이전트 만들기

다국어 음성 AI: 한국어·일본어·영어 동시 지원하는 전화 에이전트 만들기

다국어 음성 AI의 현재 수준

한국어 STT의 현실적인 문제

교착어 특성

존댓말 체계

동음이의어와 발음 유사성

언어별 음성 커스터마이징

한국어

일본어

영어

실전: 한국 회사가 일본·영어 고객을 응대하는 구조

아키텍처 설계

언어 감지 방법

LLM 프롬프트 분리

실전에서 부딪히는 문제들

코드스위칭(Code-switching)

레이턴시 관리

번역 품질 vs 네이티브 품질

ClawOps로 다국어 전화 에이전트 구축하기

시작하기 전에 체크할 것

정리

관련 글 더 보기

AI 전화 에이전트 프롬프트 엔지니어링: 통화 품질을 결정하는 프롬프트 설계법

AI 상담원 만들기: 채팅봇 말고 진짜 전화 상담원

음성 AI 레이턴시 300ms의 벽: 실시간 통화 품질 최적화 가이드

관리번호로 070 대량 발급·관리하기 — 파트너 가입중개(External Assignment)

070 번호 5분 발급 가이드 — API 한 줄, 무약정, 카드 등록 없이

ClawOps AI 전화 API로 시작하기