小紅書(Xiaohongshu)がSWE-Bench Mobileを発表:AIエージェントが数億人のユーザー向けアプリのコードベースに直面したとき、最高の成功率はわずか12%?

2/15/2026
1 min read

小紅書(Xiaohongshu)がSWE-Bench Mobileを発表:AIエージェントが数億人のユーザー向けアプリのコードベースに直面したとき、最高の成功率はわずか12%?

SWE-Bench Mobile

小紅書(Xiaohongshu)チームは、実際のモバイルアプリのコードベースにおけるAIエージェントのパフォーマンスを評価するために特別に設計された新しいベンチマーク、SWE-Bench Mobileを発表しました。その結果は考えさせられるものでした。最高のAIエージェントでさえ、数億人のユーザー向けアプリのコードベースに直面したとき、最高の成功率はわずか12%でした。

テストシーン

SWE-Bench Mobileとは?

ベンチマーク紹介

SWE-Bench Mobileは、モバイルアプリ開発向けのコード修正ベンチマークです。これには、実際のモバイルアプリのバグ修正タスクが含まれており、AIエージェントは次のことが求められます。

  • 複雑なモバイルアプリのコード構造を理解する
  • 問題の根本原因を特定する
  • 正しい修正コードを生成する
  • 修正によって新しい問題が発生しないようにする

テスト結果

テスト結果

テストでは、複数の主要なAIエージェントのパフォーマンスは次のとおりでした。

  • 最高のパフォーマンス:12%の成功率
  • 平均レベル:5〜8%の成功率
  • 一部のモデル:0%に近い成功率

この結果は、従来のSWE-Benchでのパフォーマンスをはるかに下回っています。

なぜこんなに難しいのか?

課題分析

モバイルアプリのコードベースの特殊性により、追加の課題が生じます。

  • マルチプラットフォーム対応:iOSとAndroidプラットフォームの両方を考慮する必要がある
  • 複雑な依存関係:モバイルアプリのモジュール間の結合度が高い
  • パフォーマンス制約:モバイルデバイスのリソースは限られており、コードの最適化が強く求められる
  • UIロジックの複雑さ:インターフェースインタラクションコードは静的解析が難しい

従来のベンチマークとの比較

比較分析

従来のSWE-Benchと比較して、Mobileバージョンの難易度は大幅に向上しています。

  • コードベースの規模が大きい
  • ビジネスロジックがより複雑
  • テストケースの合格がより困難
  • コンテキストウィンドウの要件が高い

業界の意義

業界の意義

このベンチマークテストは、実際の産業シナリオにおけるAIエージェントの限界を明らかにしています。AIはコード生成の面で急速に進歩していますが、大規模で複雑な実際のプロジェクトを処理する際には、まだ長い道のりがあります。

今後の展望

今後の展望

SWE-Bench Mobileの発表は、AIプログラミングツールの開発にとって重要な評価基準となります。これは私たちに次のことを思い出させます。

  • AI支援プログラミングには、依然として人間の監督が必要である
  • 複雑なプロジェクトには、よりインテリジェントなコンテキスト理解が必要である
  • モデルの能力には、まだ大きな改善の余地がある

リソースリンク

リソース

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy 修正ガイド:どのようにしてシャイニングレジェンド級ペットを手に入れるか

Claude Code Buddy 修正ガイド:どのようにしてシャイニングレジェンド級ペットを手に入れるか 2026年4月1日、Anthropic は Claude Code 2.1.89 バージョンでひっそりとエッグ機能を追加しました——...

ObsidianはDefuddleを発表し、Obsidian Web Clipperを新たな高みへと引き上げたTechnology

ObsidianはDefuddleを発表し、Obsidian Web Clipperを新たな高みへと引き上げた

ObsidianはDefuddleを発表し、Obsidian Web Clipperを新たな高みへと引き上げた 私はObsidianのコア理念がとても好きです:ローカルファースト、すべてはファイル、そして単純なMarkdownテキストファ...

OpenAIが突然発表した「三合一」:ブラウザ+プログラミング+ChatGPTの統合、内部で過去1年の誤りを認めるTechnology

OpenAIが突然発表した「三合一」:ブラウザ+プログラミング+ChatGPTの統合、内部で過去1年の誤りを認める

OpenAIが突然発表した「三合一」:ブラウザ+プログラミング+ChatGPTの統合、内部で過去1年の誤りを認める 2026年3月19日深夜、OpenAI本社から内部メモが流出し、『ウォール・ストリート・ジャーナル』が真っ先に原文を入手し...

2026年、自分を「自律」に縛らない!この8つの小さなことを実践すれば、健康は自然にやってくるHealth

2026年、自分を「自律」に縛らない!この8つの小さなことを実践すれば、健康は自然にやってくる

2026年、自分を「自律」に縛らない!この8つの小さなことを実践すれば、健康は自然にやってくる 新しい年が始まりましたが、昨年立てた目標は達成できましたか?毎年「やる気満々」と「諦めたい」の間で揺れ動いていませんか? 2026年、考え方を...

努力しても痩せられないママたち、絶対にここでつまずいているHealth

努力しても痩せられないママたち、絶対にここでつまずいている

努力しても痩せられないママたち、絶対にここでつまずいている 3月も半ばを過ぎましたが、あなたのダイエット計画はどうですか?痩せましたか?どれくらい痩せましたか? 私のダイエット経験 2月末にダイエットを決意してから、実際にはどんどん体重...

📝
Technology

AIブラウザ 24時間安定運用ガイド

AIブラウザ 24時間安定運用ガイド 本チュートリアルでは、安定して長期間運用できるAIブラウザ環境の構築方法を紹介します。 対象 AIエージェント 自動化ブラウジング Web自動化 AIアシスタント 自動テストシステム 目標 ブラウザを...