真钱可以买假货吗? 187篇文章被“shell API”愚弄,准确率直线下降

编辑| Panda 最近,用户偶尔会抱怨当今的大型模型 API 变得越来越像“薛定谔的猫”。有时调用 GPT-5 看起来非常聪明,有时又显得很迟钝。我不禁想知道顶级模特是否在幕后工作。现在,CISPA 亥姆霍兹信息安全中心的最新文章《真钱,假模型:隐藏 API 中的误导性模型声明》为我们揭开了部分谜团。通过花费真金白银购买的“第三方 API”可以用更便宜的替代品暗中取代大型尖端模型。蚂蚁集团工程师陈成的一般推文截图。这篇文章在社交媒体上引发了广泛讨论:tion of Misleading models inhidden APIs 文档地址:https://arxiv.org/abs/2603.01919 大规模模型 API 的灰色世界众所周知,并受到高价格和支付的限制。特定地区的障碍和限制。直接访问到 GPT-5 或 Gemini 2.5。这些大规模的最先进的模型通常很难实现。这一限制为第三方代理服务创造了巨大的市场。这些服务在学术界被称为“影子API”,旨在通过间接访问的方式提供不受区域限制的正式模型服务。在这个充斥着各种“镜像站”和“特工团”的灰色世界里,大型模型套管的现象早已成立。回想起来,人工智能团队盗用清华大学大规模开源模型MiniCPM的争议(“斯坦福的爆款Llama3-V其实是抄袭Punsource项目(见报道《作者赶紧删库》”),还是各种以GPT-4为名上市、实际使用更便宜、更小的模型的山寨网站,开发者都一筹莫展。对这些API的审核已经全面展开将这条灰色产业链的破坏力运用到严肃的科学调查中。 CISPA 研究人员密切跟踪了 17 个影子 API 服务,他们发现它们在 187 篇学术论文中被引用,并对几个领先的 API 进行了有针对性的审核。其中约62%的论文被ACL、CVPR、ICLR等主要会议接收。最流行的影子 API 之一已累积 5,966 篇论文引用,相关的 GitHub 项目拥有约 60,000 颗星。如果缺少这些服务,事情会变得更加复杂。更让人担心的是。这17项服务中多达11项是基于OneAPI、NewAPI等开源API分发系统的。疯狂的是,这17家提供商中只有一家拥有官方ICP备案,其余大多是个人运营的黑匣子,没有任何透明度。 Shadow API在学术界的使用威力犹如雪崩。当医疗专业人员成为赤脚医生,当科学研究的结论被基于有缺陷的基础模型,整个实验的基础崩溃了。为了发现这些隐藏API被稀释的程度,研究团队对代表科学推理领域(如AIME 2025、GPQA)和高敏感、高风险领域(如Medical MedQA、LegalBench legal)的API进行了多维度基准测试。测试结果令人震惊。以高风险医疗基准MedQA为例,官方Gemini-2.5 flash模型的准确率高达83.82%。研究人员发现,这些所谓“完全一致”的系统在测试 Shadow API 时,准确率直接下降到平均 36.95%。高达 47% 的性能差距意味着该模型可以对一半以上的医疗诊断问题提供灾难性的错误建议。在法律基准 LegalBench 上,情况同样糟糕,所有隐藏 API 的得分都落后于官方端点 40.10% 到 42.73%。隐藏 API 性能在医疗和法律领域表现不佳。下表显示了两个示例。困难的逻辑推理任务通常最容易受到虚假模型的影响。在包含竞争级别数学问题的 AIME 2 test025 中,流行的隐藏 API 的准确性严重下降。该公司提供的Gemini-2.5-pro的准确率下降了40.00%,DeepSeek-Reasoner的准确率也下降了38.89%。隐藏API在数学和逻辑推理领域的性能下降不仅显着降低了智商,而且安全性也失控。 Shadow API 在使用各种代码混淆或恶意文字的越狱攻击测试中表现不稳定。它可能会大大低估有害内容的风险,给出的危害分数比官方模型低 0.23,或者在某些情况下,将危害放大几乎两倍。 JailbreakBench数据集上隐藏API与官方API的安全性能比较。三柔人类识别的尖齿为他们提供指纹。为了获得这些黑盒API中欺诈的确凿证据,研究人员使用大规模模型指纹识别框架LLMmap和模型等效性测试(MET)直接验证了模型的真实身份。 LLMmap 可以分析模型对特定查询的响应,并将其与参考数据库进行比较以计算结果。它们之间的余弦距离来确定它是哪个模型。在评估的 24 个特定模型端点中,45.83% 直接失败了指纹认证,另外 12.50% 的余弦距离与官方模型存在较大偏差。将这两个数据加在一起意味着超过一半的服务已经悄然更换了其最低级别的模型。通过进一步分析生成的 token 数量和推断延迟的分布,研究人员还发现,虽然官方 API 始终表现出稳定且有规律的延迟,但影子 API 的延迟往往更严重。n波动较大,波动幅度是官方基准的两倍以上。本文揭露了影子 API 提供商使用的三种常见经济欺骗策略。高级信息:旗舰版的价格过高,但用具有类似功能的更便宜的型号替换。例如,API宣传其提供旧版本的Gemini 2.0,但实际上提供2.5版本,价格相差7倍以上。折扣交换:用成本较低的开源模型替换大型、高端、闭源模型,尽管您将支付官方原价。比如,用户花高价订购了GPT-5,结果却被自己的hu指纹残酷地暴露出来,后台默默运行的其实是GLM-4-9B。价格保证金转售:在标价中添加服务费,同时在后台替换基本模型以捕获多个价格差异。三机甲经济欺骗的本质是计算出来的。用户按照官方标准费率付费(例如每1000个请求约14.84美元),但他们获得的有效代币的实际价值仅为5.70美元至7.77美元。这种做法使提供商只需几次咨询即可实现一半以上的巨额利润。科研楼下层受损。充其量,如果常规开发者在构建娱乐机器人时购买了假模型,用户体验就会很糟糕。如果学术界大规模使用这些稀释的接口来进行严肃的数据标注、算法评估、文献总结等,将严重损害整个人工智能研究大厦的可信度。自2025年初eepSeek等最先进的大型模型推出并快速迭代以来,学术界对最新、最强大模型的需求与日俱增。由于正规渠道有限,许多研究人员o 渴望发布的人被迫依赖这些无监督的隐藏 API。研究人员保守估计,修复这 187 篇已知论文中模型替换造成的数据污染将花费 115,000 美元到 140,000 美元的计算和劳动力成本,即使只有 30% 的受影响论文需要重新运行实验。这一解释不包括引用这些有问题的文章的 5,966 项后续研究,它们可能继承了这些文章,并且无意中犯了根本性错误。 Shadow API生成和交易的生动例证。作者的最后建议是直率和严厉的:完全避免它。当未经严格验证的隐藏API被用于大规模研究工作流程且客观条件决定其使用时,研究团队应在正式收集数据之前实施强制审查协议。这包括运行至少 24 次指纹检测、500 次下采样测试来比较 p 值、以及多个独立会话以查看延迟和方差是否异常。在真假难辨的AI时代,科技不断进步,商业的阴暗面疯狂滋长。对于所有追求严谨的从业者和研究人员来说,面对大规模黑盒模型服务时,保持怀疑是最后一道防线。你曾经被欺骗过吗? https://x.com/chenhengpro/status/2029586877800686056
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注意:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注