Leo Xiang 的媒体 - leeoxiang@x.good.news

Leo Xiang

机器人

@leeoxiang@x.good.news

加入于 · 2024-03-17 04:10:52

Official

https://x.com/leeoxiang

本机器人服务由 good.news 提供

https://good.news

311 嘟文 1 粉丝 0 关注

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

看很多做esp32 上的对话方案的是基于xiaozhi-esp32 方案开发的，最近stars增长很快。

t.co/RuOhgxGmjY

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

让 ChatGPT 每天给自己说"早安" 和 "晚安，你辛苦了"。

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

阿里的这个minmo 实时模型音色控制能力非常惊艳了，静待开源。

t.co/ZlBJY2urTs

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

OpenAI Realtime API 的 input token 是不断累积的，意味着你的对话时间越长消耗的token数会快速的增加。

需要开发者自己手动调用 conversation.item.delete 来清理历史记录。

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

阿里的端到端语音大模型MinMo马上要来了。

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

当初ChatTTS出来的时候特别惊艳，
刷屏了一段时间，
取得了Github 趋势榜第一，
以及吸引了几万个Stars。

不知道为啥流量没有接住，产品一直没出来，模型也没怎么继续迭代，有人知道原因么？

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

2024想总结的很多，但相比24年最后两天来到我身边的小公主来说都不值一提，第一次把小公主抱在怀里的时候整个人都化掉了。有了软肋也有了铠甲，开始训练下一代的模型。

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

最近用的比较好的一个Cursor小特性： NotePads 比如最近开发Realtime API的SDK, 就把Realtime API 相关的文档放到NotePads中，Cursor就能自动学习到最新的Realtime API相关的知识了。

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

求一个彻底屏蔽比特币飞扬的方法 @elonmusk

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

OpenAI Realtime api with WebRTC python 版本也有了，有cursor来协助做东西就是快。注：初步能跑通，还有很多细节需要完善。 t.co/KENJkVV4hB

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

用Cursor分别用js(通过浏览器) 和 golang 实现了 Realtime API with WebRTC 的通信过程： 1、在浏览器中WebRTC 资料比较多，完全依赖Cursor就能实现。 2、用golang在实现的过程中涉及到音频的采集和播放，遇到portaudio的编译以及 pion的版本问题，这个时候需要人来一步步来debug，cursor 作为那个实施的人，不过效率也高了很多。

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

本周日的直播预告来了：手把手教你使用Realtime API 打造一个语音交互助手

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

以前还分互联网公司、车企、物流企业等等，后面大家都叫AI公司。

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

OpenAI 文档中有一个特别让人喜欢的点： Copy page。拷贝出来是markdown格式，然后交给大模型二次处理非常方便。建议所有的产品文档都跟进。

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

livekit 引入了利用大模型来来做轮次检测，解决AI对话中的误打断，比基于人声的VAD 准确度提高很多，非常有意思的尝试。技术细节： 1、基于一个 135M的模型（SmolLM2-135M）微调而来，量化之后CPU上就能跑。 2、将意外打断减少了85%，仅有3%的情况下错误地判断对话未结束。 t.co/1JDNLlNEdp

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

分享一下自己冷启动 Twitter 的经验：如何4个月冷启动到 1万关注

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

分析了一下OpenAI Realtime API for WebRTC 方案： 1、音频用了opus 48k 双声道的音频，但Realtime API 输出只支持24k 单声道，意味输入和输出都要重新做采样以及编解码； 2、音频用了red做冗余，抗弱网应该会更好一些； 3、ice 用了trickle 模式； 4、默认没有turn，可能存在udp被封的情况。

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

本周末继续来个直播，介绍OpenAI Realtime API with WebRTC 方案。

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

豆包依旧是价格屠夫，六小龙还有几个在做预训练模型？

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

测试了gpt-4o-mini-realtime 模型， 10分钟对话大概消耗了8wtoken，大概十分钟$1，一个小时$6.

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

openai 引入了一个 ephemeral token的概念，理解起来就是临时的token，这个token具有很小的过期时间，可以用在web端。但官方没有明确的说这个token过期的时间，以及如何续期。如果能用在web端，大家就可以直连openai api 而不需要经过业务后台再中转一次了。

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

openai audio的价格直降60%，这离发布刚两个月的时间。另外gpt-4o-mini 也支持audio了， $10/1M input token。 Voice Agent方向的应用在大规模落地应用的前夕了。

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

视频号算起号成功了么，发了7条内容，终于关注破千了

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

Gamma 用了不到两个月，已经生成了这么多条内容，包括直播PPT 以及内部的技术分享。

感觉可以开个直播讲讲如何用AI做PPT汇报，如果收费的话你愿意付费么。

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

给大家介绍一下我的AI小伙伴。

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

Gemini 2.0 Multimodal Live API 的文档写的不好，参数和数据接口并没有给出详细的说明。

把整个gemini python sdk 给到Cursor,
让Curser给出API数据接口和参数说明，非常好用：

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

明天上午10点开个直播介绍一下 Gemini 2.0 新推出的实时多模态 API，咱们讲点官方没介绍的。

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

Gemini 2.0 Multimodal Live API 有4个client信令以及 4个server信令，相比OpenAI Realtime API 有9个client信令以及 27个server信令，Gemini这个确实更简单，但扩展性也会很多限制。

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

分析了一下google stream realtime的实现，传输的并不是视频，而是图片和一段段的音频：

1、一秒截取了一帧，保存为jpeg图片格式；
2、音频一秒四段，差不多250ms一段的pcm数据；

0

0

0

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

翻译确实是一个足够大的市场，Fivrr上有30000+供应商。

0

0

0

加载中