Leo Xiang
Leo Xiang
机器人 敏感内容@leeoxiang@x.good.news
加入于 · 2024-03-17 04:10:52
Official
本机器人服务由 good.news 提供
已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
公司给安排的口语课完成了第一次上课,平常很少说英语,但也能正常的交流30分钟。
外教老师知道我在做短视频之后建议我用英语做视频发布在youtube 或者 tiktok上。
年底可以跟 @xbanboo 来PK下英语口语了。
外教老师知道我在做短视频之后建议我用英语做视频发布在youtube 或者 tiktok上。
年底可以跟 @xbanboo 来PK下英语口语了。
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
又付费了ChatGPT Plus,目前是ChatGPT Plus 和 Claude 同时订阅。最近ChatGPT在办公效率上迭代了很多能力,Claude 模型能力很强,但在功能上迭代的明显没有ChatGPT快。
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
OpenAI Realtime API 的 input token 是不断累积的,意味着你的对话时间越长消耗的token数会快速的增加。
需要开发者自己手动调用 conversation.item.delete 来清理历史记录。
需要开发者自己手动调用 conversation.item.delete 来清理历史记录。

0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
把V0 的订阅取消了,相当于开除了一个前端工程师,原因是:
1、写前端并不是我日常的工作,只会偶尔用;
2、Cursor 与 Claude配合写出不错的前端代码;
真是应了那句话,后面IT部门每个人都是自己的HR,
会不会出现一个Agent方向的“Boss直聘”。
1、写前端并不是我日常的工作,只会偶尔用;
2、Cursor 与 Claude配合写出不错的前端代码;
真是应了那句话,后面IT部门每个人都是自己的HR,
会不会出现一个Agent方向的“Boss直聘”。
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
基于大模型的ASR绝对是未来的趋势,晚上用Gemini来做语音识别,测试了多语言混合、以及包含行业专有词的情况,表现比一些专业的ASR还要好。
优势:
1、自动语言识别
2、多语言混杂识别较好
3、支持语义级别的修正
4、能很好的支持专业名词
优势:
1、自动语言识别
2、多语言混杂识别较好
3、支持语义级别的修正
4、能很好的支持专业名词
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
目前 OpenAI Realtime API 和 Gemini Multimodel Live API 都是依靠 VAD (Voice Activity Detection) 来进行打断的,如果语速稍微慢点就会被AI插话,这个体验非常不好。
最终的方案应该是要演化为根据语义来进行断句和打断。
最终的方案应该是要演化为根据语义来进行断句和打断。
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
最近做了一些 Realtime API 相关的分享,遇到很多做AI外呼/客服的提到有这个方向的需求。
也趁这个机会做个需求调研:
1、有多少做 AI 外呼、智能客服的伙伴?
2、目前遇到的最大的痛点,以及希望 realtime api 能解决的问题是什么?
我可以免费一些方案和技术咨询。
也趁这个机会做个需求调研:
1、有多少做 AI 外呼、智能客服的伙伴?
2、目前遇到的最大的痛点,以及希望 realtime api 能解决的问题是什么?
我可以免费一些方案和技术咨询。
0
0
0
已过滤: . 继续显示

已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
用Gemini 来做音频转录的价格已经是白菜价了,一个小时的音频转录的价格分别是:
Gemini flash:0.0072$/小时
Gemini pro: 0.1125$/小时
Whisper(openai): 0.36$/小时
Azure(Batch Transcription): $0.225/小时
genimi flash 转录一个小时的音频只要五分钱。跟免费差不多。
Gemini flash:0.0072$/小时
Gemini pro: 0.1125$/小时
Whisper(openai): 0.36$/小时
Azure(Batch Transcription): $0.225/小时
genimi flash 转录一个小时的音频只要五分钱。跟免费差不多。
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
当初ChatTTS出来的时候特别惊艳,
刷屏了一段时间,
取得了Github 趋势榜第一,
以及吸引了几万个Stars。
不知道为啥流量没有接住,产品一直没出来,模型也没怎么继续迭代,有人知道原因么?
刷屏了一段时间,
取得了Github 趋势榜第一,
以及吸引了几万个Stars。
不知道为啥流量没有接住,产品一直没出来,模型也没怎么继续迭代,有人知道原因么?

0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
Google 的大模型产品有三个入口:
1、t.co/akJrs9pvdS
2、t.co/ZB2nQumFx9
3、还有个Gemini Advanced 据说支持了NotebookLM,我还没体验到。
这个就是大公司在面对新业务时拧巴的地方,多个团队理不清。
1、t.co/akJrs9pvdS
2、t.co/ZB2nQumFx9
3、还有个Gemini Advanced 据说支持了NotebookLM,我还没体验到。
这个就是大公司在面对新业务时拧巴的地方,多个团队理不清。
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
使用WebRTC 对接OpenAI Realtime API 最简单的方式就是使用浏览器中的API,当然WebRTC也有各个语言的实现:
1、WebRTC 官方实现
t.co/NvxZ91FiPK
浏览器中使用的版本,功能最完备,也最复杂,百万行级别的C++代码,也提供iOS/Android平台的SDK.
2、pion
t.co/GjA6q9Q6A8
Golang 协议版本
3、aiortc
t.co/9o0ZAV3jA2
python 协议栈实现
4、libdatachannel
t.co/KrMIvolN1p
另外一个C++的协议栈实现
5、kinesis stream webrtc
t.co/dUQzZiGaYX
纯c的实现,aws的伙伴在维护。
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
最近用的比较好的一个Cursor小特性: NotePads
比如最近开发Realtime API的SDK, 就把Realtime API 相关的文档放到NotePads中,Cursor就能自动学习到最新的Realtime API相关的知识了。

0
0
0
已过滤: . 继续显示

已过滤: . 继续显示

@leeoxiang@x.good.news
OpenAI Realtime api with WebRTC python 版本也有了,有cursor来协助做东西就是快。
注:初步能跑通,还有很多细节需要完善。
t.co/KENJkVV4hB

0
0
0
已过滤: . 继续显示

已过滤: . 继续显示

@leeoxiang@x.good.news
看到很多伙伴对golang版本的 realtime api with webrtc client 感兴趣。我重新创建了一个项目,后面会持续完善,以及支持更多的能力。
你想要支持的能力是什么?欢迎在X 或者 Github上提需求。
t.co/6Xz4szPbCs
0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
用Cursor分别用js(通过浏览器) 和 golang 实现了 Realtime API with WebRTC 的通信过程:
1、在浏览器中WebRTC 资料比较多,完全依赖Cursor就能实现。
2、用golang在实现的过程中涉及到音频的采集和播放,遇到portaudio的编译 以及 pion的版本问题,这个时候需要人来一步步来debug,cursor 作为那个实施的人,不过效率也高了很多。

0
0
0
已过滤: . 继续显示

@leeoxiang@x.good.news
0
0
0
加载中
