Leo Xiang
Leo Xiang
机器人 敏感内容@leeoxiang@x.good.news
加入于 · 2024-03-17 04:10:52
Official
本机器人服务由 good.news 提供
已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
OpenAI Realtime API 的 input token 是不断累积的,意味着你的对话时间越长消耗的token数会快速的增加。
需要开发者自己手动调用 conversation.item.delete 来清理历史记录。
需要开发者自己手动调用 conversation.item.delete 来清理历史记录。

0
0
0
已过滤: . 继续显示

已过滤: . 继续显示

@leeoxiang@x.good.news
当初ChatTTS出来的时候特别惊艳,
刷屏了一段时间,
取得了Github 趋势榜第一,
以及吸引了几万个Stars。
不知道为啥流量没有接住,产品一直没出来,模型也没怎么继续迭代,有人知道原因么?
刷屏了一段时间,
取得了Github 趋势榜第一,
以及吸引了几万个Stars。
不知道为啥流量没有接住,产品一直没出来,模型也没怎么继续迭代,有人知道原因么?

0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
最近用的比较好的一个Cursor小特性: NotePads
比如最近开发Realtime API的SDK, 就把Realtime API 相关的文档放到NotePads中,Cursor就能自动学习到最新的Realtime API相关的知识了。

0
0
0
已过滤: . 继续显示

已过滤: . 继续显示

@leeoxiang@x.good.news
OpenAI Realtime api with WebRTC python 版本也有了,有cursor来协助做东西就是快。
注:初步能跑通,还有很多细节需要完善。
t.co/KENJkVV4hB

0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
用Cursor分别用js(通过浏览器) 和 golang 实现了 Realtime API with WebRTC 的通信过程:
1、在浏览器中WebRTC 资料比较多,完全依赖Cursor就能实现。
2、用golang在实现的过程中涉及到音频的采集和播放,遇到portaudio的编译 以及 pion的版本问题,这个时候需要人来一步步来debug,cursor 作为那个实施的人,不过效率也高了很多。

0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
livekit 引入了利用大模型来来做轮次检测,解决AI对话中的误打断,比基于人声的VAD 准确度提高很多,非常有意思的尝试。
技术细节:
1、基于 一个 135M的模型(SmolLM2-135M)微调而来,量化之后CPU上就能跑。
2、将意外打断减少了85%,仅有3%的情况下错误地判断对话未结束。
t.co/1JDNLlNEdp

0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
分析了一下OpenAI Realtime API for WebRTC 方案:
1、音频用了opus 48k 双声道的音频,但Realtime API 输出只支持24k 单声道,意味输入和输出都要重新做采样以及编解码;
2、音频用了red做冗余,抗弱网应该会更好一些;
3、ice 用了trickle 模式;
4、默认没有turn,可能存在udp被封的情况。

0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
openai 引入了一个 ephemeral token的概念,理解起来就是临时的token,这个token具有很小的过期时间,可以用在web端。
但官方没有明确的说这个token过期的时间,以及如何续期。
如果能用在web端,大家就可以直连openai api 而不需要经过业务后台再中转一次了。

0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
openai audio的价格直降60%,这离发布刚两个月的时间。
另外gpt-4o-mini 也支持audio了, $10/1M input token。
Voice Agent方向的应用在大规模落地应用的前夕了。

0
0
0
已过滤: . 继续显示

已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

已过滤: . 继续显示

@leeoxiang@x.good.news
Gemini 2.0 Multimodal Live API 的文档写的不好,参数和数据接口并没有给出详细的说明。
把整个gemini python sdk 给到Cursor,
让Curser给出API数据接口和参数说明,非常好用:
把整个gemini python sdk 给到Cursor,
让Curser给出API数据接口和参数说明,非常好用:


0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
Gemini 2.0 Multimodal Live API 有4个client信令 以及 4个server信令,相比OpenAI Realtime API 有9个client信令 以及 27个server信令,Gemini这个确实更简单,但扩展性也会很多限制。

0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
分析了一下google stream realtime的实现,传输的并不是视频,而是图片和一段段的音频:
1、一秒截取了一帧,保存为jpeg图片格式;
2、音频一秒四段,差不多250ms一段的pcm数据;
1、一秒截取了一帧,保存为jpeg图片格式;
2、音频一秒四段,差不多250ms一段的pcm数据;

0
0
0
已过滤: . 继续显示

加载中
