レコメンドシステムを “ユーザビリティテスト＋インタビュー” で評価する【ResQue活用＆トップ5スコア法】

この記事の要約

レコメンドシステムの評価を、ユーザビリティテストとインタビューで行う
ResQueフレームワークで信頼感や満足度を測定
さらにトップ5アイテムを1～5点で評価→理由を深掘りする

レコメンドシステム評価は定性でも行う
レコメンドシステムのユーザビリティ評価を捉える枠組み
評価指標の具体例：ResQueを応用する
トップ5アイテムを1～5点で評価＋理由をヒアリングする
インタビューガイド例：ResQue因子を取り入れる
トップ5スコア法とResQueを組み合わせ、ユーザーの本音を掴む
参考情報
今日から実践できるアクション
Q&A

レコメンドシステム評価は定性でも行う

僕はテック企業でPdMをやっており、ユーザーインタビューを中心としたリサーチに累計600人以上関わってきました。そんな中、レコメンドシステムに携わるPdM周りでたまに聞くのが「アルゴリズムの精度指標だけ追っていたら、ユーザー体験が微妙なものになっていた」という話。

レコメンドシステムは、精度（precisionやMAPなど）やRMSEといった数値面を強く意識しがちですが、実際にユーザーがどう感じるか、どの程度の満足度や納得感を持っているのかはそれだけでは分かりません。

そこで本記事では、論文や研究で提唱されている評価フレームワーク（ResQueモデルやUser-centricアプローチ）を引用しつつ、具体的なテスト設計やインタビュー法を紹介します。

レコメンドシステムのユーザビリティ評価を捉える枠組み

レコメンドシステムを評価する際、多くの場合は「Precision」「Recall」「RMSE」「nDCG」などのオフライン指標が重視されがちで、これが重要なのは言わずもがな。ですが、ユーザーが最終的に体感するのは

「本当に欲しいものがスムーズに見つかるか」
「レコメンドされる理由が納得できるか」
「使い勝手が良いか」

など、より体験に近い状態になります。

その測定として学術的には、以下2つのフレームワークがよく引用されています。

ResQueモデル (Pu, Chen, & Hu, 2011)
ユーザーが感じる推奨品質やシステム品質、さらに信頼・満足度まで多面的に捉える仕組。「単なる正確性」だけでなく、UIや透明性、最終的なユーザー満足を評価可能。
User-centric evaluation framework (Knijnenburg et al., 2012)
ユーザー特性・インタラクション・システム特性・アウトカムなどのファクターを相互に捉え、レコメンドを総合的に評価する。デザイン面や心理的な要素にも重点を置きます。

これらのフレームワークは、オフライン指標ではカバーしづらい“心理面”や“インタラクション面”を定義している点が特徴です。PdMとしては「どのくらいマッチするか」だけでなく、「ユーザーがなぜそのアイテムを良い/悪いと思ったか」を知るのが重要だと感じます。ここにユーザビリティテストとインタビューが欠かせないわけです。

評価指標の具体例：ResQueを応用する

ResQueモデルを簡単に説明すると、以下のような因子を1-5のスケールで質問することで明らかにする指標です。

Perceived Recommendation Quality（推奨品質）: 推奨アイテムがどれほどニーズを捉えていると思えるか
Perceived System Qualities（システム品質）: UIの操作性や速度、レイアウト、操作理解度など
User Beliefs（ユーザーの信頼・好意）: このレコメンドを信用できるか、理由を理解できるか
Satisfaction / Loyalty（満足度・継続意向）: また使いたいと思えるか、他に切り替えたい気持ちはないか

ResQueでは、「推奨されたアイテムはどのくらい興味にマッチしていたか？」「このUIは使いやすいか？」などをリッカート尺度（1～5点など）で評価させ、その理由や満足度をインタビューで深掘りすることで示唆が得られます。上記に加えて「発見性（自分だと見つけられなかったアイテムにどれだけ出会えたか？」を聞くことも多いです。

僕自身も何度か試してみましたが、数字だけでなく「どうしてこう感じたのか？」と理由を掘ると、アルゴリズム改善やUI改善に繋がる具体的な発見が得られました。

トップ5アイテムを1～5点で評価＋理由をヒアリングする

また、上記のResQueと組み合わせて、具体的におすすめのTOP5アイテムについて以下のように詳しくスコアとその理由を聞いてみることも合わせて実施してみると発見があります。

テスト環境準備: プロダクト上でレコメンドが表示される状態を用意し、ユーザーがログイン or ゲスト利用でトップNの提案を見る
上位5アイテムをリスト化: 実際の画面上で1位～5位に提示された内容をユーザーに見せる。
1～5点で評価: ユーザーに「興味度」「利用したい度」「魅力度」など軸を決めて採点してもらう。例えば5点＝「めちゃくちゃ興味ある」、1点＝「全く要らない」
理由をヒアリング: 点数をつけた理由を1つずつ尋ね、「なぜ興味あるのか」「どうして要らないと思うのか」を深堀り。ここでの回答が宝の山になる

例えば音楽サブスクのレコメンドで「トップ5曲」を見てもらい、それぞれ1～5点で興味度をつけてもらうと、以下のような声が引き出せます。「この曲は名前だけ知ってるけど聴かないタイプなので1点」「こっちはよく聴くアーティストの関連曲だから4点」といった具合です。そこにUIや説明不足がないかも合わせて聞くと、アルゴリズム面だけでなく画面設計や補足情報の提示などを改善するヒントを得やすいです。

インタビューガイド例：ResQue因子を取り入れる

トップ5評価を実施した後、さらに深堀りするために、ResQueの因子に沿ったインタビューガイドを用意すると便利です。具体的には、以下の質問パターンを例に挙げます。

推奨品質: 「5つのレコメンドを見て、全体的にどのくらい好みに合っていると感じましたか？その理由は？」
システム品質: 「この画面の操作はスムーズにできましたか？欲しい情報はすぐ見つかりましたか？」
信頼・納得感: 「どうしてこのアイテムが薦められたのか理解できましたか？」
満足度・継続利用意図: 「今後もこのレコメンド機能を使い続けたいと思いますか？何か使わなくなる理由があれば教えてください。」

ここでは誘導尋問にならないよう注意。実際にやってみると、UIの改善点や「実は全然関連性がない」といった率直な声が出てくる場面があります。

トップ5スコア法とResQueを組み合わせ、ユーザーの本音を掴む

レコメンドシステムの評価は、データサイエンス的に見るとRMSEやPrecision、オンラインA/BテストのCVRなどが先行しがちです。しかし、実際のユーザーがどう感じているかを把握しないままでは、なかなか“体験の質”を高めることが難しいです。

そこでResQueのようなユーザー視点モデルに基づいて、トップ5のアイテムを1～5点で評価し理由を掘るという手法を合わせると、UX面での問題や改善ポイントがクリアに浮かび上がります。簡単ながら非常に実践的な手法なので、まずは1～2人のユーザビリティテストでも試してみてほしいです。
PdMとしては、評価結果をチームに共有し、アルゴリズム面やUI面の優先度を決めるリーダーシップを発揮すると効果が大きいと僕は思います。実際、僕の周りでも「結局トップ5評価＋インタビューが一番早かった」と言う人が多いです。これを回していくことで、ユーザーが求めるレコメンド体験に一歩ずつ近づけるのではないでしょうか。

参考情報

1. Pu, P., Chen, L., & Hu, R. (2011). Evaluating recommender systems from the user’s perspective: Survey of the state of the art. User Modeling and User-Adapted Interaction.
2. Knijnenburg, T. A., Willemsen, M. C., Gantner, Z., Soncu, H., & Newell, C. (2012). Explaining the user experience of recommender systems. User Modeling and User-Adapted Interaction.
3. Aggarwal, C. C. (2016). Recommender Systems: The Textbook. Springer.
4. UserTesting社. (2025). Insights on AI-based recommender analytics.

今日から実践できるアクション

1. テスト用のトップN画面を準備: レコメンドシステムのUIから上位5つを容易に確認できる状態を作り、ユーザーが迷わず評価できるようにする。
2. 1～5点評価＋理由掘り: インタビュー参加者に「興味度」や「購入意欲」「リスニング意欲」などの軸を決めて点数を付けてもらい、スコアの理由を徹底的に聞く。
3. ResQueの因子にマッピング: 推奨品質・システム品質・信頼・満足度などに分類し、不満ポイントを関連づける。開発やデザインチームにも伝わりやすい。