Leo Xiang

Leo Xiang

机器人
加入于 · 2024-03-17 04:10:52
avatar
@leeoxiang@x.good.news
看很多做esp32 上的对话方案的是基于xiaozhi-esp32 方案开发的, 最近stars增长很快。

t.co/RuOhgxGmjY
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
让 ChatGPT 每天给自己说"早安" 和 "晚安,你辛苦了"。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
阿里的这个minmo 实时模型音色控制能力非常惊艳了,静待开源。

t.co/ZlBJY2urTs
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
OpenAI Realtime API 的 input token 是不断累积的,意味着你的对话时间越长消耗的token数会快速的增加。

需要开发者自己手动调用 conversation.item.delete 来清理历史记录。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
阿里的端到端语音大模型MinMo马上要来了。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
当初ChatTTS出来的时候特别惊艳,
刷屏了一段时间,
取得了Github 趋势榜第一,
以及吸引了几万个Stars。

不知道为啥流量没有接住,产品一直没出来,模型也没怎么继续迭代,有人知道原因么?
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
2024想总结的很多,但相比24年最后两天来到我身边的小公主来说都不值一提,第一次把小公主抱在怀里的时候整个人都化掉了。 有了软肋也有了铠甲,开始训练下一代的模型。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
最近用的比较好的一个Cursor小特性: NotePads 比如最近开发Realtime API的SDK, 就把Realtime API 相关的文档放到NotePads中,Cursor就能自动学习到最新的Realtime API相关的知识了。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
求一个彻底屏蔽比特币飞扬的方法 @elonmusk
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
OpenAI Realtime api with WebRTC python 版本也有了,有cursor来协助做东西就是快。 注:初步能跑通,还有很多细节需要完善。 t.co/KENJkVV4hB
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
用Cursor分别用js(通过浏览器) 和 golang 实现了 Realtime API with WebRTC 的通信过程: 1、在浏览器中WebRTC 资料比较多,完全依赖Cursor就能实现。 2、用golang在实现的过程中涉及到音频的采集和播放,遇到portaudio的编译 以及 pion的版本问题,这个时候需要人来一步步来debug,cursor 作为那个实施的人,不过效率也高了很多。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
本周日的直播预告来了: 手把手教你使用Realtime API 打造一个语音交互助手
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
以前还分互联网公司、车企、物流企业等等, 后面大家都叫AI公司。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
OpenAI 文档中有一个特别让人喜欢的点: Copy page。 拷贝出来是markdown格式,然后交给大模型二次处理非常方便。 建议所有的产品文档都跟进。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
livekit 引入了利用大模型来来做轮次检测,解决AI对话中的误打断,比基于人声的VAD 准确度提高很多,非常有意思的尝试。 技术细节: 1、基于 一个 135M的模型(SmolLM2-135M)微调而来,量化之后CPU上就能跑。 2、将意外打断减少了85%,仅有3%的情况下错误地判断对话未结束。 t.co/1JDNLlNEdp
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
分享一下自己冷启动 Twitter 的经验: 如何4个月冷启动到 1万关注
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
分析了一下OpenAI Realtime API for WebRTC 方案: 1、音频用了opus 48k 双声道的音频,但Realtime API 输出只支持24k 单声道,意味输入和输出都要重新做采样以及编解码; 2、音频用了red做冗余,抗弱网应该会更好一些; 3、ice 用了trickle 模式; 4、默认没有turn,可能存在udp被封的情况。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
本周末继续来个直播, 介绍OpenAI Realtime API with WebRTC 方案。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
豆包依旧是价格屠夫, 六小龙还有几个在做预训练模型?
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
测试了gpt-4o-mini-realtime 模型, 10分钟对话大概消耗了8wtoken, 大概十分钟$1,一个小时$6.
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
openai 引入了一个 ephemeral token的概念,理解起来就是临时的token,这个token具有很小的过期时间,可以用在web端。 但官方没有明确的说这个token过期的时间,以及如何续期。 如果能用在web端,大家就可以直连openai api 而不需要经过业务后台再中转一次了。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
openai audio的价格直降60%,这离发布刚两个月的时间。 另外gpt-4o-mini 也支持audio了, $10/1M input token。 Voice Agent方向的应用在大规模落地应用的前夕了。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
视频号算起号成功了么,发了7条内容,终于关注破千了
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
Gamma 用了不到两个月,已经生成了这么多条内容,包括直播PPT 以及 内部的技术分享。

感觉可以开个直播讲讲如何用AI做PPT汇报,如果收费的话你愿意付费么。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
给大家介绍一下我的AI小伙伴。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
Gemini 2.0 Multimodal Live API 的文档写的不好,参数和数据接口并没有给出详细的说明。

把整个gemini python sdk 给到Cursor,
让Curser给出API数据接口和参数说明,非常好用:
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
明天上午10点开个直播介绍一下 Gemini 2.0 新推出的实时多模态 API,咱们讲点官方没介绍的。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
Gemini 2.0 Multimodal Live API 有4个client信令 以及 4个server信令,相比OpenAI Realtime API 有9个client信令 以及 27个server信令,Gemini这个确实更简单,但扩展性也会很多限制。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
分析了一下google stream realtime的实现,传输的并不是视频,而是图片和一段段的音频:

1、一秒截取了一帧,保存为jpeg图片格式;
2、音频一秒四段,差不多250ms一段的pcm数据;
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
翻译确实是一个足够大的市场,Fivrr上有30000+供应商。
查看详情
0
0
0
加载中