「Usability Benchmark」を理解して、ユーザービリティも守備範囲なPdMになる

記事の要約

ユーザービリティテストのフレームワークである「Usability Benchmark」
Lostnessなどの先進指標を取り入れて、より深いナビゲーション構造の課題を浮き彫りにする
競合比較や継続モニタリングのコツも紹介

Usability Benchmarkとは：なぜ指標を継続的に測るのか
主要指標の詳細と拡張：SUS以外に何を測る？
サンプルサイズと統計的有意
タスク設計の高度な手法：重み付けとビジネスインパクト
継続モニタリングでUXダッシュボードを作る
ケーススタディ：Amazonと楽天の比較、デバイスごとの比較
1. 状況設定
今日から実践できるアクション
Q&A
参考情報

Usability Benchmarkとは：なぜ指標を継続的に測るのか

Usability Benchmarkは、ユーザビリティ（使いやすさ）を表す定量指標を設定し、継続的に追跡・比較・改善に活かすためのフレームワーク。例えば「タスク成功率・操作時間・エラー率」などの複数の基本指標を定期的に測定し、UI改修前後の差分や競合他社との比較を行うことで、施策の効果を客観的に示す仕組みを作ります。
『Measuring the User Experience』^[1]でも強調されているように、ユーザビリティ指標を長期トレンド化するメリットは大きいです。半年や1年というスパンで、どれほど使いやすさが向上したか、それが競合より優れているかを可視化すれば、組織としてUX改善に注力しやすくなります。これは単なるUIチェックにとどまらず、“UX継続改善の骨格”となる仕組みと言えます。

以下のような場面でも活用可能です。

リリース前後の差分を追い、意思決定を数字で裏付ける（A/Bテストやベータ版比較など）
競合ベンチマークを行い、市場内での自社UI水準を客観把握や真似すべきUXを明らかにする
UXダッシュボード化して、連続的に追跡できるようにする

要するに、“ユーザーにとってどれだけ使いやすくなったか”を定点観測することが、Usability Benchmark最大の醍醐味。

主要指標の詳細と拡張：SUS以外に何を測る？

基本的な指標としては「成功率」「操作時間」「エラー率」が代表的ですが、より踏み込んだ指標を導入することで深いUI洞察を得られます。

SUS（System Usability Scale）だけじゃない：NPS・UMUX-lite

NPS（Net Promoter Score）
0〜10で「この製品を友人に勧める可能性」を聞き、製品への愛着度を測定。業務システム等では必ずしもマッチしない場合があるが、BtoC向けには有用

UMUX-lite
SUS（10問）より短い2問形式で使いやすさを測定できる。時間がない場合や質問数を減らしたい時に有効。

業務系システムだとNPSが低くなりがちですが、SUS + 定性質問を組み合わせるのがベター。

“Lostness”指標や“Navigation Efficiency”

Lostness
画面遷移の迷走度を算出。「実際ステップ」と「理想ステップ」の乖離を数値化。

Navigation Efficiency
最短ルートと比べてどれだけ多くのステップを踏んだかを%で示す。

例えばECサイトで検索→購入までが7ステップかかり、本来は4ステップで済むなら「迷いが3ステップ分」という形で捉えられます。こうした指標を取り入れると、ただ成功率が高いだけでは分からない“冗長さ”や“ストレス”を発見できます。

Task-Level Satisfaction（TLS）

タスク単位で「この作業はやりやすかったか」を5段階などで回答してもらう方式。SUSが全体評価重視なのに対し、TLSなら各タスクごとに不満度を明らかにできます。

「購入手続きは簡単だったが、検索機能はイマイチ」など局所課題の可視化がしやすいのが利点。

サンプルサイズと統計的有意

「1セグメント5人で85％の問題が発見できる」というNielsen理論は有名ですが、これは“ユーザビリティ問題の発見効率”を指すため、定量的に有意差を検証するには不足がある場合も。

改修前後や競合比較などで統計的有意を確かめたいなら、最低10〜20人を確保するのが望ましいと『Quantifying the User Experience』（Sauro & Lewis, 2016）でも推奨されています。

5人テストだとエラー率や成功率の信頼区間が大きい
セグメント（初心者vs.熟練者など）を分けるならさらにサンプル必要
ANOVAやz検定などを導入すれば、施策効果が「偶然ではなく本物か」を正確に判断

もちろんリクルーティングコストなど考慮要素はありますが、テスト目的と精度に合わせてサンプルサイズを吟味すると良いでしょう。

タスク設計の高度な手法：重み付けとビジネスインパクト

ベンチマーク対象タスクの選定は、ビジネスインパクトとの紐付けが重要です。『Measuring the User Experience』（Tullis & Albert, 2013）でも紹介されているTask Weightingを使えば、売上直結のタスクを重点的に評価できます。

Weighted Success Rate = 
(Σ( successRateOfTask[i] * weight[i] )) / Σ(weight[i])

ECサイトなら「検索→カート」フローにウェイト2.0、「レビュー投稿」にウェイト0.5を設定すれば、UI課題の優先順位がよりビジネスへ直結した形で捉えられます。

継続モニタリングでUXダッシュボードを作る

Usability Benchmarkは一度きりで終わらせず、継続的に指標を追うことでUX改善のロードマップが明確化します。

3〜5のメインタスクを絞り、各タスクで成功率・操作時間・エラー率・Lostnessなどを測定
1. ex）HRサービスでの応募までの導線など
毎月・四半期などの頻度でテストし、GoogleスプレッドシートやBIツールに履歴を残す
DataStudioやNotionでUXダッシュボード化、時間軸での変化をグラフ表示
スクラム定例で共有し、指標が悪化したら対策を協議

ケーススタディ：Amazonと楽天の比較、デバイスごとの比較

ここでは、皆が知っているサービスとしてAmazonと楽天を例に、Usability Benchmarkの応用を仮定的に示します。さらに、Amazonの旧デザインと新デザイン、デバイス（PC・スマホ）ごとの比較も考慮して事例を構築します。

状況設定

タスク：「商品を検索してカートに入れる」「クーポンを適用し決済完了する」
比較対象1: Amazon旧デザイン (PC版) vs. Amazon現行デザイン (PC版)
比較対象2: Amazon現行デザイン (スマホ) vs. 楽天現行デザイン (スマホ)

それぞれで成功率、操作時間、Lostnessを測定し、以下の仮想データが得られたとします。

バージョン／比較	成功率	操作時間	Lostness
Amazon旧デザイン (PC)	78%	平均120秒	0.30
Amazon現行デザイン (PC)	85%	平均100秒	0.15
Amazon現行デザイン (スマホ)	80%	平均140秒	0.25
楽天現行デザイン (スマホ)	75%	平均150秒	0.35

分析

Amazon旧→現行（PC版）で成功率+7%、操作時間-20秒、Lostness 0.30→0.15と大幅改善。
スマホ版はAmazonが80%成功率に対し、楽天は75%。Lostnessは楽天(0.35)がAmazon(0.25)より高い。つまり楽天スマホUIでの迷いが顕著。
スマホは画面小さく情報密度が高いため、同じAmazon現行でもLostnessがPCより0.10高い。

これらの数値から、AmazonがPCデザインを刷新した効果は大きいが、スマホ版はまだ改善余地あり…というような判断につながります。
さらにクーポン適用率を成功率に加えるなど、よりビジネスインパクトの強いKPIを設定すれば、UI改修の優先順位づけが明確化。競合比較・デバイス比較・旧バージョン比較という3軸でのベンチマークが参考になります。

今日から実践できるアクション

ベンチマーク対象タスクを選定
3〜5個の重要タスクをピックアップし、成功率・操作時間に加え、Lostnessなども測定目標に設定。
サンプルサイズの再検討
5人理論にこだわらず、比較検証や統計的な信頼区間を意識するなら10〜15名を検討（Sauro & Lewisの推奨）。
重み付け
売上直結タスクにはウェイトを高く設定し、指標を加重平均してビジネスインパクトを強調。
UXダッシュボード化
データスタジオやNotionで継続的に記録し、過去3〜6か月の推移を可視化。社内の意思決定をデータドリブンに。
競合や過去バージョンとの比較
Amazon vs. 楽天のように複数軸でベンチマーク。PC版・スマホ版などデバイス別の差分も重要。

Q&A

Q1. A/BテストとUsability Benchmarkはどう違うの？
A. A/Bテストは大量ユーザーの本番行動を比較する手法。一方、Usability Benchmarkは少人数を対象にタスクを観察し、定量的かつ詳細なUI課題を浮き彫りにする手法。両者を組み合わせれば、リリース前後の最終検証をより精密にできる。

Q2. 大幅UIリニューアル前に測定する余裕がありません。
A. 可能な範囲で“短期集中テスト”を行い、少なくとも5〜8名の結果を押さえましょう。改修後も同じ指標を計測し、改善度合いを比較すれば施策効果を強くアピールできます。

Q3. 統計検定までやるには敷居が高い…
A. 全てを厳密にやらなくても、信頼区間や簡易z検定だけでも導入すれば「偶然か、実際に意味がある差か」を判断しやすくなります。『Quantifying the User Experience』^[5]に簡易的な計算式も掲載されています。

参考情報

[1] Tullis, T., & Albert, B. (2013). Measuring the User Experience. Morgan Kaufmann.
[2] Lewis, J. R., et al. (2013). “UMUX-LITE: When there’s no time for SUS.” Proceedings of the 1st International Workshop on User Testing Metrics.
[3] Smith, S. L. (1996). “Lostness Measures and Graphical Analysis of Hypertext Paths.” International Journal of Human-Computer Interaction.
[4] Nielsen, J. (1993). Usability Engineering. Morgan Kaufmann.
[5] Sauro, J., & Lewis, J. R. (2016). Quantifying the User Experience: Practical Statistics for User Research. Morgan Kaufmann.
[6] GitLab. (2023). “Usability Benchmarking.” GitLab Handbook.