我用Cursor写了一个视频转文字工具，已开源，欢迎体验

码码哈哈爱分享

2025-06-08 06:52:56

音视频开源

一个基于 Whisper 的视频音频转文字工具，支持GPU加速，界面简洁，使用方便。

💻软件截图

软件截图

转文字效果

✨ 特性

🎥 支持多种视频格式（mp4, avi, mov, wmv, flv, mkv等）
🔊 支持多种音频格式（mp3, wav, m4a等）
🚀 支持GPU加速，大幅提升转换速度
💡 智能选择最适合的模型
📂 支持批量处理
🔍 支持文件夹递归扫描
🛠 自动检查和安装依赖
🎯 自动下载所需组件
📝 输出带有时间戳的文本文件
🌏 优化支持中文识别

🖥 系统要求

Windows 10 或更高版本
如果要使用GPU加速：
NVIDIA显卡
最新版显卡驱动
建议显存≥4GB

📦 下载和安装

从 Releases 下载最新版本
解压到任意文件夹
双击运行 视频转文字工具.exe
首次运行时会自动安装必要的依赖

🚀 使用方法

启动程序
选择要转换的视频文件或文件夹
选择输出文件夹
选择合适的模型：
- ≥10GB 显存：large（最佳质量）
- ≥8GB 显存：medium（平衡速度和质量）
- ≥5GB 显存：small（平衡内存和质量）
- <5GB 显存：base（基本使用）
- CPU模式：base（适合CPU模式）
点击"开始转换"

🔧 技术细节

语音识别：OpenAI Whisper
GUI框架：PyQt5
视频处理：FFmpeg
GPU加速：PyTorch + CUDA
自动化部署：PyInstaller

📋 功能特点

智能模型选择

自动检测系统配置
推荐最适合的模型
防止显存溢出

批量处理

支持多文件选择
支持文件夹导入
显示处理进度和预计时间

GPU加速

自动检测GPU
支持CUDA加速
支持CPU回退模式

依赖管理

首次运行自动检查依赖
自动下载安装必要组件
显示详细的安装进度

🔍 常见问题

Q: 程序无法启动？ A: 确保已安装最新的Visual C++运行库

Q: 转换速度很慢？ A: 检查是否正确启用了GPU加速，可以点击"GPU诊断"按钮查看详情

Q: 显存不足？ A: 尝试使用更小的模型，或切换到CPU模式

Q: 如何选择合适的模型？ A: 程序会根据您的硬件配置自动推荐最适合的模型

🛠 开发相关

环境准备

 pip install pyinstaller pillow openai-whisper torch torchvision torchaudio PyQt5

打包方法

 # 生成图标 python create_icon.py # 打包程序 pyinstaller --clean --onefile --noconsole --icon=app.ico --name="视频转文字工具" videoToText.py

开源地址

Gitee：

https://gitee.com/lzy2018cn/video-totext

GitHub：

https://github.com/IAMLZY2018/VideoToText

成果物文件超过2G（实际2.4G左右）平台不允许上传，我放网盘了，欢迎体验：
点击跳转

本文是转载文章，点击查看原文
如有侵权，请联系 lx@jishuguiji.net 删除。