
OpenAI Realtime API란?
Realtime api가 없는 음성 채팅 방식의 구조 사용자가 음성을 모두 녹음한다.녹음이 끝난 뒤 서버로 음성 파일을 업로드한다.서버는 음성을 텍스트로 변환(STT)하고 이를 분석해 응답을 생성한다.응답 텍스트를 다시 음성(TTS)으로 변환해 사용자에게 전달한다.복잡해 보이지 않지만, 이 방식은 모든 데이터가 처리 단계를 거친 뒤에야 응답할 수 있다는 구조적인 한계를 가지고 있다. 1. 높은 지연 시간녹음, 업로드, 처리, 음성 합성이라는 단계를 거치다 보니 실시간 반응은 어렵다. 2. 실시간 피드백 부재사용자가 말을 끝내기 전까지는 아무런 반응을 줄 수 없으며, 대화 중 끼어들기나 중간 피드백이 불가능하다. 3. 자연스러운 대화 어려움억양, 강세, 감정 표현 등 사람처럼 말하기 위한 표현력이 부족하고..