科学工具
科学工具让世界更美好
让世界更美好
多模态基础模型
多模态基础模型Qwen3-Omni 全模态多语言实时交互大模型
Qwen3-Omni 是一个原生的端到端多语言全模态基础模型,能处理文本、图像、音频和视频等多种输入,能以文本和自然语音的形式提供实时流式响应。Qwen3-Omni 能实现强大的跨模态理解与生成,在文本、图像、音频及音视频任务上均达到最先进水平,特别是在36个音频/音视频基准测试中,有32个实现了开源SOTA,22个实现了整体SOTA,性能可与Gemini 2.5 Pro和GPT-4o媲美。Qwen3-Omni 采用MoE(混合专家)架构的“思考者-说话者”设计,结合AuT预训练和多编码本设计以实现低延
多模态基础模型
数据加载中...
视频工具
视频工具Wan-Move:通过潜在轨迹引导实现运动可控视频生成的框架
Wan-Move 是通过潜在轨迹引导实现运动可控视频生成的框架,能为图像到视频的生成提供先进、精细到点级别的运动控制。Wan-Move 实现高质量的5秒480p视频生成,它的运动控制能力达到业界领先水平,甚至可媲美商业系统。Wan-Move 采用一种新颖的潜在轨迹引导机制,通过沿轨迹传播首帧特征来表示运动条件,能无缝集成到现有图像到视频模型中,无需改变架构或添加额外运动模块。Wan-Move 支持精细到点级别的控制,通过密集的点轨迹精确控制场景中每个元素的运动。为推动领域发展,Wan-Move 推出了专
AI自动化
AI自动化Reddit AI趋势自动化报告
Reddit AI Trend Reports 是一个自动化工具,通过实时监控多个AI相关Reddit社区,生成关于AI领域最新发展趋势的详细报告。Reddit AI Trend Reports 能够进行多社区数据收集,提供包括每日亮点、每周对比、每月技术演变及深度技术分析等全面的趋势分析,支持英语和中文双语报告输出。Reddit AI Trend Reports 采用结构化的文件存储方式,自动更新报告链接,通过Docker提供便捷的容器化部署,利用MongoDB进行数据持久化以支持历史分析,具备高度可
AI工具
AI工具旅行AI助手Voyant Travel Assistant
Voyant Travel Assistant是旅行AI工具,通过规划工具调用、执行操作、记录收据,在回复用户之前进行严格验证,提供一个可信赖和来源清晰的答案。Voyant Travel Assistant采用AI优先的规划方法(利用OpenAI风格的工具),结合Zod进行严格的JSON解析,实现非阻塞的异步I/O,通过集成大量工具,包括天气、国家/地区信息、景点、通用旅行搜索(如Tavily/Brave)、RAG(如Vectara)和Amadeus提供的城市/机场/航班数据,可以自动对回复进行核实,将
语音工具
语音工具蛐蛐 QuQu 开源免费中文智能语音工具
蛐蛐 (QuQu) 是开源免费智能语音工具,是 Wispr Flow 的高效替代方案,通过内置的阿里 FunASR Paraformer 模型实现本地化中文语音识别,保护用户数据隐私的同时能准确理解中文网络俚语,通过独创的“ASR精准识别 + LLM智能优化”两段式引擎,能够智能处理口头禅、自动纠正口语表达中的错误,将语音流畅地转化为精准文本,QuQu 优先支持通义千问、Kimi等国内顶级AI模型,提供更快响应、更低成本和更佳合规性的AI生态整合。蛐蛐(QuQu)与 Wispr Flow 核心对比核心对
编程开发
编程开发基于Tauri、React和Rust构建变成工具 Codexia
Codexia是一个基于Tauri、React和Rust构建的强大图形用户界面和工具包,增强OpenAI Codex CLI的开发者体验,支持多会话聊天与自动恢复、实时流式响应、内置Web搜索及图像输入能力。Codexia 提供文件树集成、Git Diff查看,内置对PDF、CSV和XLSX文件格式的预览与选择,提供灵活的配置选项,允许用户选择不同的AI提供商和按会话定制模型。在安全性与控制方面,Codexia通过沙盒执行模式、敏感操作审批流程、可配置的命令执行策略及会话隔离来确保安全,同时所有数据本地
1