AI

AI

OpenAI Realtime API란?

Realtime api가 없는 음성 채팅 방식의 구조 사용자가 음성을 모두 녹음한다.녹음이 끝난 뒤 서버로 음성 파일을 업로드한다.서버는 음성을 텍스트로 변환(STT)하고 이를 분석해 응답을 생성한다.응답 텍스트를 다시 음성(TTS)으로 변환해 사용자에게 전달한다.복잡해 보이지 않지만, 이 방식은 모든 데이터가 처리 단계를 거친 뒤에야 응답할 수 있다는 구조적인 한계를 가지고 있다. 1. 높은 지연 시간녹음, 업로드, 처리, 음성 합성이라는 단계를 거치다 보니 실시간 반응은 어렵다. 2. 실시간 피드백 부재사용자가 말을 끝내기 전까지는 아무런 반응을 줄 수 없으며, 대화 중 끼어들기나 중간 피드백이 불가능하다. 3. 자연스러운 대화 어려움억양, 강세, 감정 표현 등 사람처럼 말하기 위한 표현력이 부족하고..

AI

OpenAI Realtime API 새로운 request body payload와 새로운 모델의 등장

OpenAI Realtime API 업데이트: 세션 생성 파라미터의 변화가 생겼습니다!(사실 업데이트된지는 한 달 정도 됨..)다음과 같이 OpenAI에서 새로운 audio 모델을 발표했다는 메일을 받게되었다. 기존 realtime api를 사용했을 때 stt는 whisper-1모델을 사용했었는데.. 특정한 뉴스보도 내용 등이 text로 변환되는 고질적인 문제가 있어 사내에서 음성채팅을 개발할 때 어려움을 많이 겪었었다... 새로운 모델이 나오며 realtime api도 몇가지 추가된 payload가 있어 같이 설명해보려한다. STT: gpt-4o 모델 지원wow! 이제는 stt 모델이 새롭게 나왔다! whisper-1 안 써도된다!!gpt-4o-transcribegpt-4o-transcribe- 해당 ..

*히아*
'AI' 카테고리의 글 목록