Releases · HaujetZhao/CapsWriter-Offline

这个项目鸽了整整两年，真不是因为我懒。在这段时间里，我一直在等一个足够惊艳的离线语音模型。Whisper 虽然名气大，但它实际的延迟和准确率始终没法让我完全满意。直到 FunASR-Nano 开源发布，实测其优异的识别表现让我特别心动，它的 LLM Decoder 能识别我讲话的意图进而调整输出，甚至通过我的语速决定在何时添加顿号，就是它了！必须快马加鞭，做出这个全新版本。

此处发布的 zip 打包，仅适用于 Windows：

CapsWriter-Offline 包含客户端、服务端，适用于 Windows10 64位及以上
CapsWriter-Offline-Client 仅包含客户端，适用于 Windows7 64位及以上

模型文件请到 Models 下载。

另附百度网盘（程序打包和模型都有）：

链接: https://pan.baidu.com/s/1GsrHynsRg3bAvNFoj8GuJQ
提取码: ngjo

有朋友反馈，FunASR-nano 在他的电脑上识别结果较差，我暂时无力解决，只能等待模型更新，如果遇到这个问题的朋友，请在配置中把模型改为 SenseVoice 或者 Paraformer，这两个模型虽然准确率差了一些，但是速度非常快，再结合热词替换和本地 Ollama 的润色，也是能给出非常不错的输入效果的。

Assets 4

13 Jan 16:16

HaujetZhao

models

c093816

Models

模型文件压缩包

包含模型

FunASR-Nano（默认推荐）：目前的旗舰模型，速度较快，准确率最高，自带标点和时间戳，自带热词功能。
SenseVoice-Small：阿里新一代大模型，速度超快，准确率稍逊，自带标点和时间戳。
Paraformer：v1 版本的主导模型，现主要作为兼容备份，自带时间戳，不带标点。
Punct-CT-Transformer：标点模型（Paraformer 专用）。

文件对应：

Fun-ASR-Nano：Fun-ASR-Nano-GGUF.zip
SenseVoice-Small：sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17.zip
Paraformer：speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx.zip
Punct-CT-Transformer：sherpa-onnx-punct-ct-transformer-zh-en-vocab272727-2024-04-12.zip

使用方法

下载后解压到项目根目录的 models/ 文件夹中对应的模型文件夹里。

模型 zip 包解压后是一个文件夹，例如：Sensevoice 解压后是一个名为 sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17 的文件夹，把这个文件夹放到 models/SenseVoice-Small 文件夹里面。

Assets 6

08 Jan 04:20

HaujetZhao

v1.0

67a4930

支持无限时长语音、支持文件转录字幕

功能更新：

通过分段识别和去重，实现了支持无限时长语音的转写
现在客户端可以转写音视频文件为 srt 字幕了，只需将音视频文件拖动到客户端 exe 上打开即可

Windows 端打包说明：

服务端载入模型所用的 onnxruntime 只能在 Windows 10 及以上版本的系统使用
服务端载入模型需要系统内存 4G，只能在 64 位系统上使用
额外打包了 32 位系统可用的客户端，在 Windows 7 及以上版本的系统可用
模型文件较大，单独打包，解压模型后请放入软件目录的 models 文件夹中

因此：

Win10 64 位以上系统，可以使用服务端、客户端，请下载 CapsWriter-Offline-Windows-64bit.zip 和 models.zip
Win7 及以上的 32 位系统，只能使用客户端，只需要下载 CapsWriter-Offline-Windows-32bit-Client.zip ，可以通过连接到局域网内其它机器上正在运行的服务端使用。

Assets 5

06 Jun 10:00

HaujetZhao

v0.6

1c972ff

新增日记功能，将每日的录音结果保存在一个 Markdown 文件中

模型下载：models-Paraformer-and-Punctuation.zip

为 Win10 64 位和 MacOS ARM 都做了打包，其中，由于系统限制，MacOS 需要 sudo 运行客户端，且默认快捷键为 right shift

新功能：

新增日记功能，将每日的录音结果保存在一个 Markdown 文件中
新增关键词日记功能，每日的以关键词开头的录音结果会保存在特别的 Markdown 文件中
新建录音文件夹的时候，会复制一个 Python 辅助脚本，用于清理没有被 Markdown 文件引用的附件，这样一来，通过编辑 Markdown 日记就可以清理不需要保存的录音
新增定义录音文件保存目录
默认保存48000采样率高品质录音录音，如果用户安装了 FFmpeg 则保存为 mp3 格式，否则保存为 wav 格式
输入方式改为模拟 Ctrl + V 粘贴，粘贴完后恢复剪贴板内容
使用 rich 库输出彩色文字，尽量在各种终端达到一致的显示效果
优化打包体积
适配 MacOS