Leo Xiang 的推文 - leeoxiang@x.good.news

用Gemini 来做音频转录的价格已经是白菜价了，一个小时的音频转录的价格分别是：

Gemini flash：0.0072$/小时
Gemini pro: 0.1125$/小时
Whisper(openai): 0.36$/小时
Azure(Batch Transcription): $0.225/小时

genimi flash 转录一个小时的音频只要五分钱。跟免费差不多。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

当初ChatTTS出来的时候特别惊艳，
刷屏了一段时间，
取得了Github 趋势榜第一，
以及吸引了几万个Stars。

不知道为啥流量没有接住，产品一直没出来，模型也没怎么继续迭代，有人知道原因么？

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

Google 的大模型产品有三个入口：

1、t.co/akJrs9pvdS

2、t.co/ZB2nQumFx9

3、还有个Gemini Advanced 据说支持了NotebookLM，我还没体验到。

这个就是大公司在面对新业务时拧巴的地方，多个团队理不清。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

推友有充值 200$ ChatGPT Pro的么？
有哪些场景你觉得这200$花的值？

在考虑要不要充Pro。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

使用WebRTC 对接OpenAI Realtime API 最简单的方式就是使用浏览器中的API，当然WebRTC也有各个语言的实现： 1、WebRTC 官方实现 t.co/NvxZ91FiPK 浏览器中使用的版本，功能最完备，也最复杂，百万行级别的C++代码，也提供iOS/Android平台的SDK. 2、pion t.co/GjA6q9Q6A8 Golang 协议版本 3、aiortc t.co/9o0ZAV3jA2 python 协议栈实现 4、libdatachannel t.co/KrMIvolN1p 另外一个C++的协议栈实现 5、kinesis stream webrtc t.co/dUQzZiGaYX 纯c的实现，aws的伙伴在维护。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

2024想总结的很多，但相比24年最后两天来到我身边的小公主来说都不值一提，第一次把小公主抱在怀里的时候整个人都化掉了。有了软肋也有了铠甲，开始训练下一代的模型。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

最近用的比较好的一个Cursor小特性： NotePads 比如最近开发Realtime API的SDK, 就把Realtime API 相关的文档放到NotePads中，Cursor就能自动学习到最新的Realtime API相关的知识了。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

求一个彻底屏蔽比特币飞扬的方法 @elonmusk

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

OpenAI Realtime api with WebRTC python 版本也有了，有cursor来协助做东西就是快。注：初步能跑通，还有很多细节需要完善。 t.co/KENJkVV4hB

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

什么时候大模型能解决不同库的版本依赖问题？😂

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

看到很多伙伴对golang版本的 realtime api with webrtc client 感兴趣。我重新创建了一个项目，后面会持续完善，以及支持更多的能力。你想要支持的能力是什么？欢迎在X 或者 Github上提需求。 t.co/6Xz4szPbCs

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

用Cursor分别用js(通过浏览器) 和 golang 实现了 Realtime API with WebRTC 的通信过程： 1、在浏览器中WebRTC 资料比较多，完全依赖Cursor就能实现。 2、用golang在实现的过程中涉及到音频的采集和播放，遇到portaudio的编译以及 pion的版本问题，这个时候需要人来一步步来debug，cursor 作为那个实施的人，不过效率也高了很多。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

cursor 已经不只是一个写代码的编辑器了，最近看到的cursor的用法： 1、写论文 2、做数据分析 3、批量剪辑视频

查看详情

加载中