Leo Xiang

Leo Xiang

机器人
加入于 · 2024-03-17 04:10:52
avatar
@leeoxiang@x.good.news
看很多做esp32 上的对话方案的是基于xiaozhi-esp32 方案开发的, 最近stars增长很快。

t.co/RuOhgxGmjY
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
公司给安排的口语课完成了第一次上课,平常很少说英语,但也能正常的交流30分钟。

外教老师知道我在做短视频之后建议我用英语做视频发布在youtube 或者 tiktok上。

年底可以跟 @xbanboo 来PK下英语口语了。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
跟一个做呼叫中心的负责人聊了两个小时,印象深刻的一句话是:

我:为啥国内呼叫中心的交付这么重?
他:本质上是产品能力不足,要靠堆人来弥补这部分来满足客户的需求。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
让 ChatGPT 每天给自己说"早安" 和 "晚安,你辛苦了"。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
阿里的这个minmo 实时模型音色控制能力非常惊艳了,静待开源。

t.co/ZlBJY2urTs
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
给自己设个目标:每天尽可能多的使用ChatGPT 和 Claude,AI牛马不能停。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
又付费了ChatGPT Plus,目前是ChatGPT Plus 和 Claude 同时订阅。最近ChatGPT在办公效率上迭代了很多能力,Claude 模型能力很强,但在功能上迭代的明显没有ChatGPT快。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
Vercel 的AI SDK 用起来确实方便,但也只有Web端的,有没有移动端的类似AI SDK 的方案?
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
有开通过 github sponsors 的伙伴么?

付费一杯咖啡咨询下开通过程中遇到的问题。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
OpenAI Realtime API 的 input token 是不断累积的,意味着你的对话时间越长消耗的token数会快速的增加。

需要开发者自己手动调用 conversation.item.delete 来清理历史记录。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
把V0 的订阅取消了,相当于开除了一个前端工程师,原因是:

1、写前端并不是我日常的工作,只会偶尔用;
2、Cursor 与 Claude配合写出不错的前端代码;

真是应了那句话,后面IT部门每个人都是自己的HR,
会不会出现一个Agent方向的“Boss直聘”。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
基于大模型的ASR绝对是未来的趋势,晚上用Gemini来做语音识别,测试了多语言混合、以及包含行业专有词的情况,表现比一些专业的ASR还要好。

优势:
1、自动语言识别
2、多语言混杂识别较好
3、支持语义级别的修正
4、能很好的支持专业名词
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
目前 OpenAI Realtime API 和 Gemini Multimodel Live API 都是依靠 VAD (Voice Activity Detection) 来进行打断的,如果语速稍微慢点就会被AI插话,这个体验非常不好。

最终的方案应该是要演化为根据语义来进行断句和打断。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
最近做了一些 Realtime API 相关的分享,遇到很多做AI外呼/客服的提到有这个方向的需求。

也趁这个机会做个需求调研:
1、有多少做 AI 外呼、智能客服的伙伴?
2、目前遇到的最大的痛点,以及希望 realtime api 能解决的问题是什么?

我可以免费一些方案和技术咨询。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
阿里的端到端语音大模型MinMo马上要来了。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
果然需求来自于生活:

今天用kimi AI电话给我家小公主讲儿童故事,
我老婆说这个体验不好,为什么没有好听的背景音乐。

需求就来了:
哪些大模型语音通话能讲故事的时候还能加上背景音乐呢?
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
以前不太能理解晒娃的行为,现在能理解了,这样一个可爱的小家伙在怀里的时候能把人给融化了。

后面X上的分享也不会只有技术,我要开始教我出生10天的小公主学习大模型了。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
用Gemini 来做音频转录的价格已经是白菜价了,一个小时的音频转录的价格分别是:

Gemini flash:0.0072$/小时
Gemini pro: 0.1125$/小时
Whisper(openai): 0.36$/小时
Azure(Batch Transcription): $0.225/小时

genimi flash 转录一个小时的音频只要五分钱。跟免费差不多。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
当初ChatTTS出来的时候特别惊艳,
刷屏了一段时间,
取得了Github 趋势榜第一,
以及吸引了几万个Stars。

不知道为啥流量没有接住,产品一直没出来,模型也没怎么继续迭代,有人知道原因么?
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
Google 的大模型产品有三个入口:

1、t.co/akJrs9pvdS

2、t.co/ZB2nQumFx9

3、还有个Gemini Advanced 据说支持了NotebookLM,我还没体验到。

这个就是大公司在面对新业务时拧巴的地方,多个团队理不清。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
推友有充值 200$ ChatGPT Pro的么?
有哪些场景你觉得这200$花的值?

在考虑要不要充Pro。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
使用WebRTC 对接OpenAI Realtime API 最简单的方式就是使用浏览器中的API,当然WebRTC也有各个语言的实现: 1、WebRTC 官方实现 t.co/NvxZ91FiPK 浏览器中使用的版本,功能最完备,也最复杂,百万行级别的C++代码,也提供iOS/Android平台的SDK. 2、pion t.co/GjA6q9Q6A8 Golang 协议版本 3、aiortc t.co/9o0ZAV3jA2 python 协议栈实现 4、libdatachannel t.co/KrMIvolN1p 另外一个C++的协议栈实现 5、kinesis stream webrtc t.co/dUQzZiGaYX 纯c的实现,aws的伙伴在维护。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
2024想总结的很多,但相比24年最后两天来到我身边的小公主来说都不值一提,第一次把小公主抱在怀里的时候整个人都化掉了。 有了软肋也有了铠甲,开始训练下一代的模型。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
最近用的比较好的一个Cursor小特性: NotePads 比如最近开发Realtime API的SDK, 就把Realtime API 相关的文档放到NotePads中,Cursor就能自动学习到最新的Realtime API相关的知识了。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
求一个彻底屏蔽比特币飞扬的方法 @elonmusk
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
OpenAI Realtime api with WebRTC python 版本也有了,有cursor来协助做东西就是快。 注:初步能跑通,还有很多细节需要完善。 t.co/KENJkVV4hB
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
什么时候大模型能解决不同库的版本依赖问题?😂
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
看到很多伙伴对golang版本的 realtime api with webrtc client 感兴趣。我重新创建了一个项目,后面会持续完善,以及支持更多的能力。 你想要支持的能力是什么?欢迎在X 或者 Github上提需求。 t.co/6Xz4szPbCs
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
用Cursor分别用js(通过浏览器) 和 golang 实现了 Realtime API with WebRTC 的通信过程: 1、在浏览器中WebRTC 资料比较多,完全依赖Cursor就能实现。 2、用golang在实现的过程中涉及到音频的采集和播放,遇到portaudio的编译 以及 pion的版本问题,这个时候需要人来一步步来debug,cursor 作为那个实施的人,不过效率也高了很多。
查看详情
0
0
0
avatar
@leeoxiang@x.good.news
cursor 已经不只是一个写代码的编辑器了, 最近看到的cursor的用法: 1、写论文 2、做数据分析 3、批量剪辑视频
查看详情
0
0
0
加载中