livekit 引入了利用大模型来来做轮次检测，解决AI对话中的误打断，比基于人声的VAD 准确度提高很多，非常有意思的尝试。技术细节： 1、基于一个 135M的模型（SmolLM2-135M）微调而来，量化之后CPU上就能跑。 2、将意外打断减少了85%，仅有3%的情况下错误地判断对话未结束。 t.co/1JDNLlNEdp

@leeoxiang@x.good.news

查看详情

@leeoxiang@x.good.news

0/477