科学工具
科学工具让世界更美好
让世界更美好
自动驾驶
自动驾驶具身智能与自动驾驶VLM MiMo-Embodied
MiMo-Embodied 是一个跨跨领域的具身视觉语言模型,首次将自动驾驶与具身AI任务两大关键领域集成并开源,能显著增强模型在动态物理环境中的理解和推理能力。MiMo-Embodied在具身AI(包括任务规划、可供性预测和空间理解等17项基准测试)和自动驾驶(包括环境感知、状态预测和驾驶规划等12项基准测试)方面均展现出最先进的性能,超越了现有开源和闭源的视觉语言模型,在8项通用视觉理解基准上保持并增强了其通用能力,证明了领域专业化训练能够提升而非削弱模型的整体熟练度,能够有效处理具身导航和操作等真
自动驾驶
数据加载中...
自动驾驶
自动驾驶ORION端到端自动驾驶框架,通过视觉语言模型指导动作生成,实现整体的自主驾驶
端到端的自动驾驶方法在交互式的闭环评估中然难以做出正确的决策,主要是因为这种方法的因果推理能力有限,目前大家试图利用视觉语言模型(VLM)强大的理解和推理能力来解决这个难题,但是由于语义推理空间与动作空间中纯粹的数值轨迹输出之间的差距,很少有VLM在闭环评估中有比较良好的表现。为了解决这个问题,我们提出了ORION,ORION是一个通过视觉语言指导的动作生成来实现端到端自动驾驶的框架,结合了QT-Former来聚合长期历史上下文,大型语言模型(LLM)用于驾驶场景推理,生成规划器用于精确轨迹预测。ORI
PPT工具
PPT工具PPT Agent 演示文稿生成框架
PPT Agent 是一套用代码驱动生成演示文稿的框架,它把“内容策划”和“视觉排版”分开处理,先把数据结构理清楚,再按需调用素材库,最终生成高保真的 HTML 文件和可以二次编辑的 PPTX 文件,避免大模型因为提示词太长而乱排版或自己编内容。主要特点架构与设计分开:先产出能描述每一页结构的 JSON 文件并校验,再把它渲染成 HTML。按需加载:系统有 60 多个模块素材,通过多级树干只给当前页面注入需要的组件,减少 Token 消耗,也避免指令互相干扰。写的时候就能校验(QA):内部脚本在写入时会
论文工具
论文工具CitationClaw 学术论文智能引用画像和分析报告
CitationClaw 是一款用 Python 开发的轻量学术引用分析工具,利用爬虫和大语言模型,把论文引用数据转化为可读的影响力信息。你只需输入论文标题,或从 Google Scholar 学者主页导入文献,几分钟后就能拿到一份完整的引用分析报告。这份报告可以用在基金申请、论文答辩、成果梳理等各种场景。CitationClaw 核心功能五阶段分析流程从引用抓取、作者分析、结构化导出、引文描述到报告生成,每个阶段循序渐进,把原始引用数据逐步变成清晰的信息。高影响力学者识别自动找出引用你论文的高影响力学
论文工具
论文工具Resophy:AI加持的开源论文阅读器,让文献阅读效率翻倍
Resophy是一款基于HTML开发的开源AI论文阅读器,依托HTML+JavaScript+Python Flask轻量技术栈打造,主打AI翻译、论文分析、arXiv每日推荐等功能,采用Vibe Coding开发理念,能让用户自定义功能。Resophy能解决科研人员海量论文阅读效率低的痛点,支持论文解析、智能翻译和个性化推荐,支持MinerU官方云API,无需部署本地服务器,无GPU也能使用AI解析功能。Resophy采用前后端分离的架构设计,核心服务与AI服务可分开部署,能将主服务和AI服务器部署在
大语言模型
大语言模型从零使用纯Python实现OpenAI的GPT-OSS大型语言模型
GPT-OSS从零开始,使用纯Python实现OpenAI的大型语言模型,提供一个教育性强、深入解析大语言模型内部工作原理的开源实践,完整实现了GPT-OSS的Transformer架构,用C++实现的自定义BFloat16数据类型以确保数值精度,集成了专家混合(Mixture of Experts, MoE)架构,采用带有NTK感知缩放的旋转位置嵌入(RoPE),引入了支持注意力汇和滑动窗口的分组查询注意力(Grouped Query Attention),提供功能性的SwiGLU、RMSNorm、S
图像生成模型
图像生成模型HunyuanImage-3.0 多模态图像生成大模型
HunyuanImage-3.0是一个开创性的原生多模态模型,在一个统一的自回归框架下整合了多模态理解和生成能力,让文本到图像生成性能达到或超越了领先的闭源模型。HunyuanImage-3.0 作为目前规模最大的开源图像生成专家混合(MoE)模型,拥有800亿总参数和130亿活跃参数,能生成兼具语义准确性、视觉卓越性、照片级真实感及精细细节的高质量图像,高度遵循用户提示,具备智能世界知识推理能力,能够自动理解并丰富用户提供的简短提示,支持多种图像分辨率设置,通过开源的推理代码、模型权重和提示词自动重写
1