← 블로그 목록
비교2026-04-21

AI 전화 에이전트 프레임워크 비교: 오픈소스부터 상용 플랫폼까지 한눈에

AI 전화 에이전트 프레임워크 비교: 오픈소스부터 상용 플랫폼까지 한눈에

AI 전화 에이전트를 만들려고 하면 선택지가 생각보다 많습니다. 오픈소스 프레임워크를 갖다 쓸 수도 있고, 상용 플랫폼에 API 호출만 해서 끝낼 수도 있습니다.

문제는 각 프레임워크마다 지원하는 범위가 다르다는 겁니다. 특히 한국 시장을 타겟으로 하면 한국 전화번호 발급, 한국어 음성 인식 정확도, 서울 리전 레이턴시 같은 조건이 프레임워크 선택 단계에서부터 걸러져야 합니다.

이 글에서는 주요 프레임워크를 오픈소스와 상용으로 나눠서 비교하고, 한국에서 AI 전화 에이전트를 만들 때 어떤 기준으로 골라야 하는지 정리합니다.

AI 전화 에이전트 프레임워크란?

프레임워크가 해결하는 문제

AI 전화 에이전트를 직접 만들면 생각보다 할 일이 많습니다. SIP 트렁킹으로 전화를 연결하고, 실시간 음성 스트림을 받아서 STT로 변환하고, LLM에 넘기고, 응답을 TTS로 변환해서 다시 음성으로 내보내야 합니다. 턴 테이킹, VAD(Voice Activity Detection), 인터럽트 처리까지 직접 구현하면 몇 달이 걸립니다. 프레임워크는 이 파이프라인을 추상화해서 개발자가 비즈니스 로직에 집중할 수 있게 해줍니다.

프레임워크 선택이 프로젝트 성패를 좌우하는 이유

나중에 프레임워크를 바꾸는 건 거의 새로 만드는 것과 같습니다. STT/TTS 연동 방식, 상태 관리 구조, 전화 인프라 연결 방식이 프레임워크마다 전부 다르기 때문입니다. 처음 선택할 때 요구사항을 제대로 따져야 합니다.

오픈소스 프레임워크

Pipecat (Daily.co) -- 실시간 음성 AI 파이프라인

Pipecat은 Daily.co에서 만든 오픈소스 프레임워크입니다. Python 기반이고, 파이프라인 구조로 STT, LLM, TTS를 연결합니다. 프로세서 단위로 모듈을 교체할 수 있어서 커스터마이징 자유도가 높습니다. 다만 전화 인프라(SIP, 번호 발급)는 직접 구축해야 합니다. 한국어 STT/TTS는 지원하는 서드파티를 직접 붙여야 합니다.

Vocode -- 음성 에이전트 오케스트레이션

Vocode는 음성 에이전트를 빠르게 프로토타이핑할 수 있는 오픈소스 프레임워크입니다. Twilio 연동이 내장되어 있어서 전화 발신/수신까지 비교적 빠르게 셋업할 수 있습니다. 다만 업데이트 주기가 느려졌고, 커뮤니티 활성도가 예전만 못합니다. Twilio가 한국 070 번호를 지원하지 않으므로 한국 시장에서는 제약이 큽니다.

LiveKit Agents -- WebRTC 기반 AI 에이전트

LiveKit Agents는 WebRTC 인프라 위에서 음성 AI 에이전트를 구축할 수 있는 프레임워크입니다. Python과 Node.js SDK를 모두 지원합니다. WebRTC 기반이라 브라우저 통합에 강하지만, PSTN 전화 연결은 SIP 게이트웨이를 별도로 연동해야 합니다. 실시간 성능은 뛰어나지만 한국 전화 인프라와의 연결은 추가 작업이 필요합니다.

상용 플랫폼

Vapi -- 가장 큰 에코시스템

Vapi는 글로벌에서 가장 큰 AI 음성 에이전트 플랫폼입니다. 문서가 잘 되어 있고 커뮤니티도 큽니다. 다양한 LLM/STT/TTS 조합을 지원하고, 영어 기준으로는 완성도가 높습니다. 다만 한국 070 번호를 지원하지 않고, 서버가 미국에 있어서 레이턴시가 1초 이상 발생합니다. 자세한 비교는 Vapi vs Retell vs ClawOps 글에서 확인할 수 있습니다.

Retell AI -- 엔터프라이즈 중심

Retell은 자연스러운 턴 테이킹에 강점이 있고, 엔터프라이즈 고객을 위한 기능(커스텀 보이스, 분석 대시보드)이 잘 갖춰져 있습니다. API 디자인이 깔끔해서 연동이 편합니다. 하지만 역시 한국 번호 미지원, 한국어 STT 정확도 이슈가 있습니다. Bland vs Vapi vs Retell 심층 비교에서 상세하게 다뤘습니다.

ClawOps -- 한국 시장 특화

ClawOps는 한국 시장에 특화된 AI 전화 에이전트 플랫폼입니다. 070 번호를 API로 발급받을 수 있고, 서울 리전에서 운영되어 레이턴시가 500ms 이하입니다. 한국어 문서를 제공하고, SIP 프로토콜 기반으로 동작합니다. 사용자가 STT/TTS/LLM을 자유롭게 선택할 수 있어서 LLM 모델 비교 결과를 바로 적용할 수 있습니다.

6가지 기준으로 비교

한국어 지원, 한국 번호, 레이턴시

항목PipecatVocodeLiveKit AgentsVapiRetellClawOps
한국 070 번호직접 구축Twilio (미지원)직접 구축미지원미지원API 발급
한국어 STT직접 연동직접 연동직접 연동DeepgramDeepgram유저 선택
서울 리전직접 배포직접 배포직접 배포US 고정US 고정서울 (GCP)
응답 레이턴시구현에 따라 다름구현에 따라 다름구현에 따라 다름>1초>1초<500ms
한국어 문서없음없음없음없음없음있음

커스터마이징, 가격, 커뮤니티

항목PipecatVocodeLiveKit AgentsVapiRetellClawOps
커스터마이징매우 높음높음높음제한적제한적높음
인프라 관리직접직접직접관리형관리형관리형
분당 비용인프라 비용만인프라 비용만인프라 비용만~350원~250원발신 116원
GitHub Stars8k+2k+5k+---
커뮤니티활발정체활발보통성장 중

프레임워크 선택 의사결정 트리

"한국 번호 필요?" -> "한국어 STT 필요?" -> 추천

선택 기준을 순서대로 따라가면 됩니다.

  1. 한국 070 번호가 필요한가? -> 필요하다면 오픈소스(직접 SIP 구축) 또는 ClawOps만 가능합니다. Vapi, Retell은 탈락입니다.
  2. 한국어 STT 정확도가 중요한가? -> 중요하다면 STT를 직접 선택할 수 있는 프레임워크가 필요합니다. Deepgram 고정인 플랫폼은 한국어에서 정확도가 떨어집니다.
  3. 인프라를 직접 관리할 역량이 있는가? -> 있다면 Pipecat이나 LiveKit Agents로 최대한 커스터마이징할 수 있습니다. 없다면 관리형 플랫폼이 현실적입니다.
  4. 빠르게 출시해야 하는가? -> 그렇다면 상용 플랫폼이 답입니다. 오픈소스는 전화 인프라 셋업만 몇 주가 걸릴 수 있습니다.

한국에서 상용 서비스를 만들 거라면, 결국 한국 번호와 한국어 지원이 되는 관리형 플랫폼으로 좁혀집니다.

마이그레이션 난이도 비교

오픈소스 간 마이그레이션(Pipecat -> LiveKit)은 파이프라인 구조가 비슷해서 비교적 수월합니다. 상용 플랫폼 간(Vapi -> Retell)은 연동 코드를 대부분 다시 작성해야 합니다. 오픈소스에서 상용으로, 또는 그 반대는 아키텍처 자체가 달라지므로 사실상 새 프로젝트입니다.

결론

AI 전화 에이전트 프레임워크는 "최고의 프레임워크"가 아니라 "우리 상황에 맞는 프레임워크"를 고르는 게 핵심입니다. 글로벌 영어권 서비스라면 Pipecat이나 Vapi가 좋은 선택입니다. 하지만 한국에서 실제 고객에게 전화를 거는 서비스를 만든다면, 한국 번호 발급과 한국어 음성 인식이 되는 플랫폼이 필수입니다.

ClawOps는 한국 시장에 특화된 AI 전화 에이전트 플랫폼으로, 070 번호 API 발급, 서울 리전 운영, 한국어 문서를 제공합니다. claw-ops.com에서 직접 확인해 보세요.

관련 글 더 보기

ClawOps AI 전화 API로 시작하기

070 번호 발급부터 AI 음성 통화까지, REST API 몇 줄이면 됩니다.