科学工具
科学工具让世界更美好
让世界更美好
自动驾驶
自动驾驶ORION端到端自动驾驶框架,通过视觉语言模型指导动作生成,实现整体的自主驾驶
端到端的自动驾驶方法在交互式的闭环评估中然难以做出正确的决策,主要是因为这种方法的因果推理能力有限,目前大家试图利用视觉语言模型(VLM)强大的理解和推理能力来解决这个难题,但是由于语义推理空间与动作空间中纯粹的数值轨迹输出之间的差距,很少有VLM在闭环评估中有比较良好的表现。为了解决这个问题,我们提出了ORION,ORION是一个通过视觉语言指导的动作生成来实现端到端自动驾驶的框架,结合了QT-Former来聚合长期历史上下文,大型语言模型(LLM)用于驾驶场景推理,生成规划器用于精确轨迹预测。ORI
自动驾驶
编程开发
编程开发OpenAI Codex CLI 编码助手操作指南
OpenAI Codex CLI 是一个可以在终端中运行的轻量级编码助手,让你在开发过程中能利用 ChatGPT 的推理能力,可以直接运行代码、操作文件和迭代,所有的操作都受到版本控制。快速入门全局安装 Codex CLI:npm install -g @openai/codex设置 OpenAI API 密钥作为环境变量,注意,这个命令只会在当前终端会话中设置密钥,若要永久设置,请将导出行添加到你的 shell 配置文件(例如 ~/.zshrc)中。你可以交互式地运行 Codex:codex或通过提示
动漫工具
动漫工具AnimeGamer动漫生活模拟器,能根据指令生成动态动画和角色状态
AnimeGamer 是一个无限动漫生活模拟器,使用多模态大型语言模型(MLLM)来模拟一个动漫世界,能预测下一时刻的游戏状态,用户可以通过开放式的语言指令与这个动态世界互动,就像扮演动漫角色一样。AnimeGamer能够生成一致的多回合游戏状态,包括动态动画镜头和角色状态的更新,如体力、社交和娱乐值。玩家可以将《魔女宅急便》中的Qiqi和《天空之城》中的Pazu聚合在一起,让他们在动漫世界中相遇并进行互动。AnimeGamer基于多模态大型语言模型(MLLMs),用于生成每个游戏状态,包括展示角色动作
编程开发
编程开发Pake打包工具:可将网页快速打包成桌面应用
Pake 可将网页快速打包成桌面应用,可替代传统 Electron 的一种高效、轻量的解决方案,生成的应用体积更小,启动速度更快,支持跨平台运行。Pake 基于 Tauri 框架实现,利用系统原生 WebView 组件渲染页面,不同于 Electron 对 Chromium 内核依赖。使用 Rust 语言开发,语言本身的高性能进一步降低对资源的占用,生成的应用体积可控制在数 MB 级别。轻量化打包后的应用体积远小于 Electron 应用,普通网页生成的桌面应用大约 5MB 左右。跨平台支持 Windo
搜索工具
搜索工具II-Researcher智能搜索代理:BAML深度分析与网页抓取
II-Researcher 是一个强大的深度搜索代理,利用 BAML 函数来进行智能的网页搜索,生成对问题的全面回答,能帮助用户更有效地进行研究和信息收集,尤其是在需要深入挖掘和综合分析的场景下。II-Researcher具有智能网页搜索、网页抓取和内容提取、多步骤推理和反思、可配置的LLM模型、异步操作、综合答案生成、可定制的流水线和推理方法等特性。智能网络搜索II-Researcher 使用 Tavily 和 SerpAPI 等搜索提供商进行智能网络搜索,能够快速准确地检索信息,生成相关的答案。内容
图片工具
图片工具基于Diffusion Transformer(DiT)的AI图像生成工具 InfiniteYou
InfiniteYou(InfU)是由字节跳动开发的一款基于Diffusion Transformer(DiT)的图像生成框架,能狗在生成和修改图像时保持人物身份的一致性,解决了现有方法在身份相似度、文本-图像对齐、生成质量和美观度方面的不足。在图像生成领域,如何在保持个人身份特征的同时,根据文本描述生成高质量、多样化的图像,一直是一个技术难题,InfiniteYou通过引入InfuseNet组件,成功解决了这个问题。InfuseNet通过残差连接将身份特征直接注入DiT基础模型,避免修改注意力层可能带
1