科学工具
科学工具让世界更美好
让世界更美好
自动驾驶
自动驾驶ORION端到端自动驾驶框架,通过视觉语言模型指导动作生成,实现整体的自主驾驶
端到端的自动驾驶方法在交互式的闭环评估中然难以做出正确的决策,主要是因为这种方法的因果推理能力有限,目前大家试图利用视觉语言模型(VLM)强大的理解和推理能力来解决这个难题,但是由于语义推理空间与动作空间中纯粹的数值轨迹输出之间的差距,很少有VLM在闭环评估中有比较良好的表现。为了解决这个问题,我们提出了ORION,ORION是一个通过视觉语言指导的动作生成来实现端到端自动驾驶的框架,结合了QT-Former来聚合长期历史上下文,大型语言模型(LLM)用于驾驶场景推理,生成规划器用于精确轨迹预测。ORI
自动驾驶
数据加载中...
OCR工具
OCR工具DeepSeek-OCR 实时光学字符识别服务 DeepSeek-OCR Client
DeepSeek-OCR Client 是基于 Electron 的为 DeepSeek-OCR 提供实时光学字符识别(OCR)服务,支持图像拖放上传、即时OCR处理、通过点击区域复制识别文本,最后能将结果以包含 Markdown 图像的ZIP文件形式导出。DeepSeek-OCR Client利用CUDA实现GPU加速以优化性能,主要面向 Windows 10/11 用户,要求安装 Node.js、Python 和支持CUDA的NVIDIA GPU。DeepSeek-OCR Client围绕用户实际使
语音工具
语音工具AI智能实时语音控制编排工具 Big Three Realtime Agents
Big Three Realtime Agents 是一个统一的语音控制编排器,以 OpenAI 实时语音代理为核心,能无缝协调三种关键 AI 代理协同工作,利用 OpenAI 实时语音代理进行自然语音交互、任务调度和代理生命周期管理,通过 Claude Code 代理实现软件开发和文件操作,借助 Gemini 浏览器代理执行网页自动化和验证任务。Big Three Realtime Agents 采用工具化调度机制,支持代理的创建、指令发送、状态查询和文件访问,具备跨会话的持久化管理能力,通过事件流、
字体工具
字体工具FontForge 跨平台字体编辑器
FontForge 是一款跨平台的开源字体编辑工具,支持在 Windows、Mac OS X和GNU+Linux系统上进行免费的字体编辑,支持创建、编辑和转换多种格式的字体,支持OpenType、TrueType、UFO、CID-keyed、Multiple Master等格式。• FontForge 官网:fontforge.org• FontForge 字体创建手册:designwithfontforge.comUbuntu系统安装 FontForge若使用Ubuntu,执行以下命令即可下载所有依赖
编程开发
编程开发基于Tauri、React和Rust构建变成工具 Codexia
Codexia是一个基于Tauri、React和Rust构建的强大图形用户界面和工具包,增强OpenAI Codex CLI的开发者体验,支持多会话聊天与自动恢复、实时流式响应、内置Web搜索及图像输入能力。Codexia 提供文件树集成、Git Diff查看,内置对PDF、CSV和XLSX文件格式的预览与选择,提供灵活的配置选项,允许用户选择不同的AI提供商和按会话定制模型。在安全性与控制方面,Codexia通过沙盒执行模式、敏感操作审批流程、可配置的命令执行策略及会话隔离来确保安全,同时所有数据本地
编程开发
编程开发UI自动化代码生成工具 ScreenCoder,将用户界面截图或设计草图通过AI转换为可编辑并符合生产标准的HTML/CSS代码
ScreenCoder 是一个智能的 UI 转代码生成工具,能将任何截图或设计原型转化为可用于生产环境的 HTML/CSS 代码,采用模块化多智能体架构,融合了视觉理解、布局规划和自适应代码合成等功能,生成的前端代码准确可编辑。ScreenCoder支持自定义修改,支持开发者和设计师能调整布局和样式,支持快速制作原型和构建像素级界面。ScreenCoder安装和部署1克隆仓库:git clone https://github.com/leigest519/ScreenCoder.gitcd screen
1