推文详情
avatar
@leeoxiang@x.good.news
目前 OpenAI Realtime API 和 Gemini Multimodel Live API 都是依靠 VAD (Voice Activity Detection) 来进行打断的,如果语速稍微慢点就会被AI插话,这个体验非常不好。

最终的方案应该是要演化为根据语义来进行断句和打断。
查看详情
0
0
0
@leeoxiang@x.good.news
0/477
加载中