AI入场大战! OpenAI下了大赌注:音频将成为未来的交互界面

OpenAI 正在针对计划中的由语音驱动的个人设备优化音频 AI 模型。据 The Information 1 月 1 日报道,过去两个月,OpenAI 专注于克服音频交互方面的技术瓶颈,整合工程、产品和研究工作,打造可通过自然语音命令操作的消费设备。内部研究人员认为,当前的 ChatGPT 语音模型在准确性和响应速度方面落后于文本模型,并且两者使用不同的底层架构。据报道,新的语音模型具有更自然的情感表达能力和实时对话能力,包括对对话中断做出响应的能力,这是现有模型无法实现的重要功能。它计划于 2026 年第一季度推出。从 Meta 为 Ray-Ban 智能眼镜配备五个麦克风阵列以改善听力,到 Tesla 将 xAI 的 Grok 聊天机器人集成到其中从支持语音控制​​气候和导航系统的车辆,到 OpenAI 优化其音频人工智能模型,科技巨头都在共同押注音频的未来。 OpenAI团队整合并专注于无屏交互方式。报道称,OpenAI目前的语音和文本模型属于不同的架构。因此,当用户通过语音与 ChatGPT 交谈时,他们收到的响应的质量和速度低于文本模型。为了解决这个问题,OpenAI 在过去两个月内完成了主要的团队整合。在组织层面,今年夏天从Character.AI加入的音频研究员Kundan Kumar是音频AI项目的主要领导者。产品研究总监 Ben Newhouse 正在与 ChatGPT 多模式产品经理 Jackie Shannon 一起重建音频 AI 基础设施。硬件格式方面,OpenAI兼容Google、Amazon、Meta、Apex。类似简单判断。现有的常规设备不适合未来与人工智能的交互。 OpenAI 团队认为语音是最接近人类交流本能的东西,我们希望用户能够通过“说话”而不是“看屏幕”与他们的设备进行交互。然而,大多数ChatGPT用户还没有养成语音交互的习惯。这可能是因为音频模型质量不够或者用户不知道此功能的存在。此外,与 OpenAI 合作设计硬件开发的前苹果设计总监 Jony Ive 强调,无屏设计不仅更自然,而且有助于防止用户沉迷。 “即使初衷是无害的,如果产品产生了不良影响,我们仍然需要承担责任,”他在五月份接受采访时表示。这种责任感是我现在工作的动力。 OpenAI还计划推出一系列无屏设备,包括智能眼镜报告援引知情人士的话称,将他们定位为用户的“合作伙伴”,而不仅仅是应用程序门户。此前报道显示,OpenAI于2025年初斥资近65亿美元收购了J​​oni Ive联合创立的io公司,同时推进供应链、工业设计、模型研发等多条业务。第一批设备预计将在至少一年内推出。音频成为新战场 智能扬声器现已出现在超过三分之一的美国家庭中,并为语音助手奠定了基础。现在,这家科技巨头正在将这种交互方式扩展到更多场景。 Meta 的雷朋智能眼镜可帮助用户通过五个麦克风阵列在嘈杂的环境中听到对话,有效地将您的脸部变成定向聆听设备。六月,谷歌开始测试“音频摘要”功能,将搜索结果转化为对话国家总结。特斯拉使用 Grok 聊天机器人,它集成到车辆中,并通过自然交互处理从导航到气候控制的所有功能。不仅仅是科技巨头在押注。许多新公司带着相同的信念进入市场,但取得的成功程度各不相同。 Humane AI Pin 的创造者在花费数亿美元购买没有屏幕的可穿戴设备后树立了一个坏榜样。 Friend AI 吊坠旨在记录用户的生活并提供陪伴,但它同样引发了隐私问题和生存恐惧。至少有两家公司,包括 Sandbar 和 Pebble 创始人 Eric Migicovsky 领导的一家公司,正在开发允许用户“用手说话”的 AI 环,预计将于 2026 年推出。尽管目前的 AI 硬件形式各不相同,但论点是相同的。音频是未来的接口。
特别提示:以上内容(包括图片和视频,如有)均由本人上传由自有媒体平台“网易号”用户发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注