小紅書（Xiaohongshu）がSWE-Bench Mobileを発表：AIエージェントが数億人のユーザー向けアプリのコードベースに直面したとき、最高の成功率はわずか12％？

2/15/2026

1 min read

小紅書（Xiaohongshu）がSWE-Bench Mobileを発表：AIエージェントが数億人のユーザー向けアプリのコードベースに直面したとき、最高の成功率はわずか12％？

SWE-Bench Mobile

小紅書（Xiaohongshu）チームは、実際のモバイルアプリのコードベースにおけるAIエージェントのパフォーマンスを評価するために特別に設計された新しいベンチマーク、SWE-Bench Mobileを発表しました。その結果は考えさせられるものでした。最高のAIエージェントでさえ、数億人のユーザー向けアプリのコードベースに直面したとき、最高の成功率はわずか12％でした。

テストシーン

SWE-Bench Mobileとは？

ベンチマーク紹介

SWE-Bench Mobileは、モバイルアプリ開発向けのコード修正ベンチマークです。これには、実際のモバイルアプリのバグ修正タスクが含まれており、AIエージェントは次のことが求められます。

複雑なモバイルアプリのコード構造を理解する
問題の根本原因を特定する
正しい修正コードを生成する
修正によって新しい問題が発生しないようにする

テスト結果

テスト結果

テストでは、複数の主要なAIエージェントのパフォーマンスは次のとおりでした。

最高のパフォーマンス：12％の成功率
平均レベル：5〜8％の成功率
一部のモデル：0％に近い成功率

この結果は、従来のSWE-Benchでのパフォーマンスをはるかに下回っています。

なぜこんなに難しいのか？

課題分析

モバイルアプリのコードベースの特殊性により、追加の課題が生じます。

マルチプラットフォーム対応：iOSとAndroidプラットフォームの両方を考慮する必要がある
複雑な依存関係：モバイルアプリのモジュール間の結合度が高い
パフォーマンス制約：モバイルデバイスのリソースは限られており、コードの最適化が強く求められる
UIロジックの複雑さ：インターフェースインタラクションコードは静的解析が難しい

従来のベンチマークとの比較

比較分析

従来のSWE-Benchと比較して、Mobileバージョンの難易度は大幅に向上しています。

コードベースの規模が大きい
ビジネスロジックがより複雑
テストケースの合格がより困難
コンテキストウィンドウの要件が高い

業界の意義

業界の意義

このベンチマークテストは、実際の産業シナリオにおけるAIエージェントの限界を明らかにしています。AIはコード生成の面で急速に進歩していますが、大規模で複雑な実際のプロジェクトを処理する際には、まだ長い道のりがあります。

今後の展望

今後の展望

SWE-Bench Mobileの発表は、AIプログラミングツールの開発にとって重要な評価基準となります。これは私たちに次のことを思い出させます。

AI支援プログラミングには、依然として人間の監督が必要である
複雑なプロジェクトには、よりインテリジェントなコンテキスト理解が必要である
モデルの能力には、まだ大きな改善の余地がある

リソースリンク

リソース

論文：https://arxiv.org/abs/xxxxx
GitHub：https://github.com/xiaohongshu/swe-bench-mobile

Published in Technology

You Might Also Like

Claude Code Buddy 修正ガイド：どのようにしてシャイニングレジェンド級ペットを手に入れるか

Claude Code Buddy 修正ガイド：どのようにしてシャイニングレジェンド級ペットを手に入れるか 2026年4月1日、Anthropic は Claude Code 2.1.89 バージョンでひっそりとエッグ機能を追加しました——...

ObsidianはDefuddleを発表し、Obsidian Web Clipperを新たな高みへと引き上げた

ObsidianはDefuddleを発表し、Obsidian Web Clipperを新たな高みへと引き上げた

ObsidianはDefuddleを発表し、Obsidian Web Clipperを新たな高みへと引き上げた私はObsidianのコア理念がとても好きです：ローカルファースト、すべてはファイル、そして単純なMarkdownテキストファ...

OpenAIが突然発表した「三合一」：ブラウザ+プログラミング+ChatGPTの統合、内部で過去1年の誤りを認める

OpenAIが突然発表した「三合一」：ブラウザ+プログラミング+ChatGPTの統合、内部で過去1年の誤りを認める

OpenAIが突然発表した「三合一」：ブラウザ+プログラミング+ChatGPTの統合、内部で過去1年の誤りを認める 2026年3月19日深夜、OpenAI本社から内部メモが流出し、『ウォール・ストリート・ジャーナル』が真っ先に原文を入手し...

2026年、自分を「自律」に縛らない！この8つの小さなことを実践すれば、健康は自然にやってくる

2026年、自分を「自律」に縛らない！この8つの小さなことを実践すれば、健康は自然にやってくる

2026年、自分を「自律」に縛らない！この8つの小さなことを実践すれば、健康は自然にやってくる新しい年が始まりましたが、昨年立てた目標は達成できましたか？毎年「やる気満々」と「諦めたい」の間で揺れ動いていませんか？ 2026年、考え方を...

努力しても痩せられないママたち、絶対にここでつまずいている

努力しても痩せられないママたち、絶対にここでつまずいている

努力しても痩せられないママたち、絶対にここでつまずいている 3月も半ばを過ぎましたが、あなたのダイエット計画はどうですか？痩せましたか？どれくらい痩せましたか？私のダイエット経験 2月末にダイエットを決意してから、実際にはどんどん体重...

AIブラウザ 24時間安定運用ガイド

AIブラウザ 24時間安定運用ガイド本チュートリアルでは、安定して長期間運用できるAIブラウザ環境の構築方法を紹介します。対象 AIエージェント自動化ブラウジング Web自動化 AIアシスタント自動テストシステム目標ブラウザを...