AudioToTXT：基于gemini和yt-dlp的音频文字稿提取脚本 - 作享智库

2025-08-19 17:16 文章 2 0

AudioToTXT：基于gemini和yt-dlp的音频文字稿提取脚本

AudioToTXT 是一个基于gemini和yt-dlp的Python脚本，它能够从本地音频文件或在线视频中提取文字稿。这个脚本支持从YouTube、哔哩哔哩等视频网站获取音频，并使用gemini技术进行文字转录。使用这个脚本，用户可以方便地将音频内容转换为文本格式，便于阅读和编辑。

如何使用AudioToTXT

克隆仓库：首先，用户需要从GitHub克隆AudioToTXT的仓库。可以通过以下链接访问仓库：AudioToTXT GitHub。
安装依赖：安装必要的Python库，使用pip命令安装google-generativeai和yt-dlp库。
```
pip install google-generativeai
pip install yt-dlp
```
使用脚本：安装完成后，用户可以通过命令行使用AudioToTXT。以下是一个使用YouTube视频的例子，需要替换VIDEO_ID和YOUR_KEY为实际的视频ID和API密钥。
```
python main.py --youtube https://www.youtube.com/watch?v=VIDEO_ID --api-key YOUR_KEY
```
对于哔哩哔哩视频，使用类似的方法，但URL格式会有所不同。

支持的网站

AudioToTXT理论上支持yt-dlp所支持的所有网站。目前已经测试了YouTube和哔哩哔哩，其他网站的支持情况可能需要用户自行测试。

总结

AudioToTXT是一个方便的工具，它可以帮助用户快速将音频内容转换为文本，节省了手动转录的时间。对于需要处理大量音频转录任务的用户来说，这是一个非常有用的工具。