科学工具
科学工具让世界更美好
让世界更美好
语音工具
语音工具AI智能实时语音控制编排工具 Big Three Realtime Agents
Big Three Realtime Agents 是一个统一的语音控制编排器,以 OpenAI 实时语音代理为核心,能无缝协调三种关键 AI 代理协同工作,利用 OpenAI 实时语音代理进行自然语音交互、任务调度和代理生命周期管理,通过 Claude Code 代理实现软件开发和文件操作,借助 Gemini 浏览器代理执行网页自动化和验证任务。Big Three Realtime Agents 采用工具化调度机制,支持代理的创建、指令发送、状态查询和文件访问,具备跨会话的持久化管理能力,通过事件流、
语音工具
数据加载中...
语音工具
语音工具蛐蛐 QuQu 开源免费中文智能语音工具
蛐蛐 (QuQu) 是开源免费智能语音工具,是 Wispr Flow 的高效替代方案,通过内置的阿里 FunASR Paraformer 模型实现本地化中文语音识别,保护用户数据隐私的同时能准确理解中文网络俚语,通过独创的“ASR精准识别 + LLM智能优化”两段式引擎,能够智能处理口头禅、自动纠正口语表达中的错误,将语音流畅地转化为精准文本,QuQu 优先支持通义千问、Kimi等国内顶级AI模型,提供更快响应、更低成本和更佳合规性的AI生态整合。蛐蛐(QuQu)与 Wispr Flow 核心对比核心对
语音工具
语音工具轻量高音质文本转语音模型 Kitten TTS,仅用1500万参数实现高质量的语音合成
Kitten TTS是一个开源的超轻量级文本转语音模型,以极小的模型体积(仅1500万参数,小于25MB)实现高质量的语音合成,完全针对进行CPU优化,可以在任何设备上高效运行,提供快速的实时推理能力。• 超轻量级:模型大小不足25MB• 适配CPU:无需GPU,可在任何设备运行• 优质语音:提供多种高级语音选项• 快速推理:针对实时语音合成优化安装 Kitten TTSpip install https://github.com/KittenML/KittenTTS/releases/download
语音工具
语音工具基于 OpenAI Text-to-Speech 模型的使用 OpenAI Speech API 将文本转换成语音工具OpenAI.fm
OpenAI.fm 是一个互动演示项目,使用 NextJS 构建,集成了OpenAI Speech API,能将文本转换成语音。如何运行1、设置 OpenAI API:克隆仓库:git clone https://github.com/openai/openai-fm.git2、设置 OpenAI API 密钥:方法一:在项目中设置环境变量 OPENAI_API_KEY。方法二:在项目根目录创建 .env 文件,添加以下内容(参考 .env.example 文件):OPENAI_API_KEY=<
语音工具
语音工具AudioX音频处理工具库,基于扩散Transformer模型,可根据文本、视频、图像、音乐或音频等生成音频或音乐
AudioX音频生成模型由香港科技大学团队研发,首次实现单一框架下文本、图像、视频等多模态输入到音频/音乐的跨模态转换,在生成质量与计算效率上达到行业领先水平。1、统一架构设计突破传统单模态模型的局限,构建首个支持文本/图像/视频到音频/音乐双向转换的统一框架,在MusicCaps测试集上的Inception Score达到4.82,成绩超过现有专用模型。2、多模态掩码训练法AudioX创新性地采用跨模态掩码策略,在训练阶段随机屏蔽不同模态输入(如遮盖视频画面/音频片段),让模型通过剩余信息重建完整内容
语音工具
语音工具Local Whisper 实时语音转录
Local Whisper使用FastRTC和本地Whisper模型,实现快速实时的语音转录功能。FastRTC负责处理实时音频流,ASR模型通过Transformers库实现语音到文本的转换。Local Whisper支持多种配置,用户可以根据需求调整音频流、语音活动检测(VAD)等参数。系统要求• Python版本需大于等于3.10• 需要安装ffmpeg安装步骤1、克隆仓库使用以下命令克隆项目到本地:git clone https://github.com/sofi444/realtime-tra
语音工具
语音工具Orpheus TTS 基于Llama-3b的开源文本转语音系统
Orpheus TTS是基于Llama-3b的开源TTS系统,具备语音克隆、情感控制和低延迟等能力,TTS能力超越了 ElevenLabs 和 OpenAI 等开源和闭源模型,利用大型语言模型 (LLM) 的能力进行语音合成。核心能力语音自然度:自然的语调、情感和节奏,在语音合成领域独树一帜。零样本语音克隆:无需预先微调,就能实现语音克隆,极大地降低了使用门槛。可控的情感和语调:通过简单的标签,用户可以轻松控制语音的情感和语调特征。低延迟:约200毫秒的流式延迟,适用于实时应用,且通过输入流式处理可进一
1