声网 R2对话式AI机器人开发套件

扫码咨询产品

产品介绍

R2对话式AI机器人开发套件是声网推出的面向桌面机器人和情感陪伴机器人的一体化解决方案。该套件在继承R1系列全双工对话、背景降噪、智能打断等实时AI语音交互能力的基础上，新增了本地视觉识别与多自由度运动控制功能，实现了从"能听会说"到"能看会动"的关键跨越。产品介绍：R2套件，集成了强大的NPU与ISP，提供完整的端侧多模态AI解决方案。它能够实现声源定位、人脸跟踪、手势识别、物体跟随等复杂视觉功能，并结合多自由度运动控制，让机器人实现"走到用户面前打招呼"、"转头注视说话者"等富有生命感的情感化肢体交互。产品亮点：多模态交互：融合语音、视觉、运动控制三大能力情感化设计：通过视觉注视和肢体动作建立情感连接全场景适配：一套基座赋能教育陪伴、办公协作、家居交互、穿戴记录等多元场景快速开发：提供一站式"交钥匙"方案，大幅缩短产品化路径主要应用场景：桌面情感机器人、智能学习助手、会议助理、家庭视觉中控、轻量AI记录仪等。

产品性能

R2全场景AI机器人开发套件在技术性能上实现了多项突破。在语音交互方面，完整继承了R1系列的业界领先能力，包括全双工对话、背景降噪、流畅打断等实时AI语音交互技术，对话延迟最低可达650ms，打断响应低至340ms，拥有近乎真人般的对话响应速度与节奏。在复杂环境下能够屏蔽95%的环境人声及噪声干扰，实现对话人声的精准识别。在视觉能力方面，依托强大的集成NPU与ISP，R2新增本地视觉识别与处理能力，支持人脸跟踪、手势识别、物体跟随等功能。视觉处理延迟控制在毫秒级，能够实时识别并响应视觉指令。运动控制方面，支持多自由度精确控制，结合视觉与语音功能，实现"走到用户面前打招呼"、"转头注视说话者"等富有生命感的情感化肢体交互。套件采用低功耗设计方案，支持超长待机，有效解决设备续航焦虑。同时支持47种语言，通过调用海外部署的服务器实现低延时响应，实时完成多语言转换与内容输出。开发效率方面，仅需1小时即可跑通 Demo，1天完成产品原型送样，极大地缩短了产品开发周期。

公司简介

上海声网科技有限公司

声网成立于2014年，是全球实时音视频云服务开创者，为人与人、人与 Agent、Agent 与 Agent 的多模态实时交互提供最佳体验。开发者只需简单调用声网 API，即可在应用内构建诸如对话式 AI、音视频通话、直播等多种实时互动场景。声网 API 已赋能 AI、社交直播、教育、游戏、IoT、金融、医疗、企业协作等20余行业，共计200多种场景。 2020年6月26日，声网母公司 Agora, Inc. 成功登陆纳斯达克，股票代码为“API”。截至2025年12月31日，声网全球注册应用数超过100万。2025年全年服务超1万亿分钟。声网推出了全球首个对话式 AI 引擎，以赋能开发者基于任何大语言模型构建实时语音对话体验。创造了全球首个、迄今为止规模最大的实时音视频网络——软件定义实时网 SD-RTN™。声网的技术服务覆盖全球 200 多个国家和地区，客户包括小米、陌陌、斗鱼、哔哩哔哩、小红书、Yalla等巨头、独角兽及创业企业；声网的技术同样被HTC VIVE 、The Meet Group、Bunch等遍布全球的知名企业采用。

声网 R2对话式AI机器人开发套件

产品介绍

产品性能

公司简介

上海声网科技有限公司

其他产品

声网平行操控解决方案

在线留言

预定展位

中/EN