“Extended Memory (xMem) of Web Interactions”の紹介
2006年8月13日 渡辺隆行 (最終更新:
2006年08月17日 18:04
)
Stefano Ceri, etl.al, “Extended Memory (xMem) of Web Interactions”, 6th Web engineering, 2006. (SIGACCESSのLeft Fieldで紹介された論文)
概要
Webナビゲーション時に,前に訪れたページを探すことはよくあり,重要でもある.ほとんどの市販ブラウザーにはヒストリー機能があり,過去に訪れたページの単純なindexを時間順に保存している.しかし,このヒストリー機能は有効でないし,人間の,セマンティックスを考慮した長期記憶からは程遠い.特に,情報入手に本質的な,連合(連想)的でセマンティックスに基づく機能を欠いている.この論文は,xMem (eXtended Memory Navigation) と名づけた,セマンティクスと連想に基づいてユーザのナビゲーション記録にアクセスする新機能を紹介する.これの目的は,人間の頭脳のいくつかの機能を真似て,訪問ページを特徴付けるセマンティックな手がかりを活用することで,過去ページを探すときにページのコンテキストを理解しやすくすることにある.
1. Introduction
ウェブでは,ハイパーテキストのナビゲーション機能が重要になってきている.その中でも,過去に訪れたページに戻るヒストリー機能に注目すべし.[19]
ヒストリー機能が導入された3つの理由:
- ウェブ上の膨大な情報をナビゲートするのを助けて,過去に訪れたページにアクセスすることができる.
- 検索エンジンで前に訪れたページを探す代わりになるので,(検索結果のページを経ない分)ナビゲーションが効率的になる.
- 容易にページを最訪問できるので,認知面と物理面の両方でナビゲーション負荷を減らすのでユーザの行動が楽になる.ヒストリー機能はユーザに満足を与えている.
本論文は,xMem (Extended Memory Navigation)という,ページ・コンテンツから抜き出したキーワードに基づいてページを分類するという先進的な記憶機能を実現するシステムについて述べる.
索引付け(indexing)と分類(classification)は2種類の方法で実現できる:
- ページにannotation(注釈)をつける機能を使ってページの説明を明示することで,ウェブアプリケーション( ウェブページ?)の製作者がxMemを利用.
- そのようなannotayionを利用できない場合は,"Page Indexer"モジュールがページの中身からキーワードを抽出.抽出されたキーワードは意味のあるまとまりに分類される.
2.xMem Web Interaction Memory
既存のヒストリー(履歴)機能は広く使われていない.
- 複雑なヒストリー機能はあまり使われず,40.6%のナビゲーションはブラウザの「戻る」で行われる.[3]
- ヒストリーリストからアクセスされるのは0.1%に過ぎないが,「戻る」ボタンは42%.[8]
ウェブ・ユーザは,最初に見たときから時間が経った後に過去ページを再訪問するときに不満を感じる.(ヒストリー機能の多くの部分が利用している)path-following手法の場合,長時間後に過去ページを思い出す(検索する)ためには,ユーザは,今まで訪れたページを逆方向にたどらなければならない.その際,自分がどういう風にページをたどったかなどを覚えている必要があるが,前に見たときの状況を忘れていることが多い.
以上から,xMemの目的は以下2つになる:
- より簡単で直感的なヒストリー機能を提供する.
- インターネット上で履歴をアクセスできるようにすることで,ユビキタスなアクセシビリティを促進する.
2.1 xMem Concept
- 各ユーザ記憶のrepositoryを記録している特殊なウェブサイトをユーザが利用.
- 履歴データを表示する際に,URLの時間順リスト以外のヒントを付加.
- キーワードは,訪問ページのグループに関連付けられて,ページの内容を思い出すを想起させる.
- キーワードは,ウェブアプリケーション( ウェブページ?)の設計者がページのメタデータとして与えられるかもしれないし,ページから自動的に抽出されるかもしれない.
- 利用者:
- xMemユーザとして登録し,自PCにアプリをインストール.
- 普通のブラウザでウェブを閲覧する時に,ユーザが見たページをtrackingしてバックグラウンドでxMemシステムに履歴を送信するために,このアプリを起動できる.
- サーバ側 (xMem):
- ナビゲーションの間に見た(ページの)概念を示すキーワードを同定し,閲覧済みページの記憶を構成するのに利用.
- 記録したヒストリーをユーザに提示: 時間順のほか,ページのキーワードに基づく履歴データを理解レベルに抽象化して,ページの中身を思い出すためにsemanticeに組織化して提供.
2.2 Defining Semantics for Web pages
- 現在のブラウザが用いているような時間順に履歴を並べる方法は,前に見たページを探すときに役立たないという研究がある.[8]
- xMemは,semanticなキューを入れた履歴リストは,いつどういう状況でそのページを見たのかを覚えていないときでも有効であろうという考えに基づいている.
- キーワードを抽出し,ページを記述し,キーワードの類似性をベースにページをクラスタにまとめることで履歴データに豊富な情報を付加する.
- あるページ p の キーワード k を用いて,そのページにindexをつける.
- ページ p は,キーワードのセットで特徴付けできる.
- 次に,類似キーワードで特徴化されたページの集合を,クラスター C として定義する.
- 注:キーワード抽出やクラスター化は,syntacs(統語論)レベル(だけ)で処理する.
- キーワードとクラスタで,訪問済みページの(semanticレベルでの)階層構造を表現する.
- 第1階層は,(類似キーワードを持った)ページのクラスターに基づく.
- 第2階層は,キーワードに基づく.
- 階層構造の基本粒度は,トラッキングされたURL.ユーザはこのURLでページにアクセスする.
履歴をクラスター化することで,最初に閲覧したときには気づかなかった訪問済みページ間の関係が明らかになる.
3. Validating the xMem history paradigm
実際のユーザで3種類のヒストリー機能を比較.特に,semanticで強化した新たな手がかりがユーザ体験を向上させるかと,履歴を階層化する効果を確認したい.
- TH (Traditional History) : 訪問済みURLを時間順に並べたリスト (図1)
- HX (Hierarchical xMem History): キーワードとクラスタリングで(semanticに)強化したURLを階層構造に分類したもの (図2)
- FX (Flat xMem History): クラスターで分類した1レベルだけ.キーワードは,URLの説明に使われる.(図3)
我々の仮説:
- いつ見たか覚えていないページの場合,時間順に提示するだけの履歴リストはユーザに高い認知負荷を強いる.よって,xMemのほうがユーザのパフォーマンスがよくなる.
- 履歴を階層表示することで検索時間が短くなる.よって,HXのほうがFXより よい結果を得る.
- 階層化の有無にかかわらず,強化した履歴機能はユーザの満足度を高める.しかし,HXのほうがFXより高い満足度を得ると予想する.
3.1 Method
- 上記3種類の方法でウェブページを得る際に費やした時間に優位な差があるかどうかを検定するための実験.
- 被験者は学部生45名.それぞれ TH,HX,FXを使う3条件に分ける.
- タスク完了までの時間を測定.
- 実験の最後に質問紙に答えてもらう.質問内容は,(i) 履歴機能を過去に使ったことがあるか,(ii) ページの内容に関する被験者の知識,(iii) ツールの満足度.
3.1.1 Materials
- 3種類の履歴機能ごとに,計3つのモックアップページを作成.
- 各被験者は,URL40個のリスト(全被験者で同じ)を見せられる.
3.1.2 Tasks
被験者は,すでに見たページを探し出すことを求められる.
- 教示は紙に書いて示す.紙には,シナリオ(今までのナビゲーション操作のアウトライン)が書かれている.
- 被験者は,このシナリオに基づいて,各履歴機能を使って,「ヘンリー8世」に関するコンテンツを示しているページを得るように求められる.
- シナリオには,ページを訪れた時間をわざと完全には載せていない.これにより,時間軸方向の記憶の欠如をシミュレートする.
渡辺Q: 実際に40のURLを見た後で実験をするのか? どのくらいの時間をかけるのか? 実際に見ていないなら,この実験は妥当といえるか?
3.1.3 Procedure
- 被験者は,シナリオの不明な点を確認するために補助を受ける.
- スタートから,目的ページの取得までにかかった時間を測定.10分以上かかった場合は不成功として実験終了.
- タスク終了後,満足度とブラウジング経験をたずねる質問紙に答える.
3.2 Data analysis
達成時間の平均は,THが116秒,HXが64秒,FXが93.3秒.HXはTHの半分.FXとTHの差は少ない.
- 3つのグループをcross-comparison.
- タスク達成時間をANOVA(分散分析)の結果,3グループの平均の差は有意(F(44)= 3.248,p< .049).
- t検定の結果,THとHXの差は有意 (t(28)=-3.083,p<.005).xMemの効果あり.
- t検定の結果,HXとFXに有意な差は認められなかった. (t(28)=-1.521,p<.139)
- t検定の結果,THとFXに有意な差は認められなかった. (t(28)=-.927,p<.362)
満足度の調査結果(5段階スケール.5が大変満足.)
- 満足度の平均は,TH=2.67, HX=3.67, FX=3.60.
- THとHXの差は有意.
- THとFXの差も有意.
分析結果から,
- いつ見たか覚えていないページを見つけるときに,階層構造は有効であるといえる.
- 階層構造を持たないけれどもsemanticを強化した構造(FX)が有効であるという仮説は完全には支持されなかった.HXと比較してFXのタスク達成時間が悪化していることも示唆している.
キーワードを思い出す成績を調べた実験後の質問紙の結果
- FXの誰もキーワードを覚えていなかった.つまり,URLの説明に使用したキーワードに誰も注意を払っていなかったことを示している.
- だから,FXの成績が悪かったのは,semantic付与が無意味だったのではなくて,示し方が悪かったためということができるかもしれない.
より詳細に述べると,
- t検定の結果は,仮説1を支持している.
- HXはTHより明らかに有効である.この理由として考えられるのは,いつ見たか覚えていない場合,ワーキングメモリーをすでに調べたページの保持に使いながら,もっとも可能性があるページを考えて履歴の全リストを見る必要があるから.つまり,スキャンとマッチングと判断をするために認知リソースの多くが使われることを示している. ...(以下略)
渡辺Q: ほんまかいな. この実験でなぜここまで言えるのか?
- HXの成績がよかったのは,認知的に言えば,キーワードとクラスタによる分類がユーザの情報処理を容易にしたからだといえる.
- [18]で議論したように,HXの好成績は,被験者の知識や履歴機能の習熟に依存していない.
以上から,HX方式を用いることに決定.
4. Detailed design of xMem
- xMemは,データソースを共有する複数のコンポーネントからなる.
- xMemの機能構造は,本アプローチの二つのゴールに主に拠る.
- 記録したデータにオンラインでアクセスするために,
- リモート側で記録をとる.つまり,クライアント-サーバ構成になる.
- オンラインでログにアクセスするためには,送信部と受信部の二つの論理構成が必要になる.
- 図4に,xMemの機能的構造を示す.クライアント・パソコン部とxMemサーバからなる.
- Tracker Client:クライアントPCにインストールして,ユーザが閲覧したページのURLをトラッキングして,サーバ側のTracker Serverに送信.トラッキング機能はオン・オフ可.
- Tracker Server:Tracker Clientから送信されたデータをURL Repositoryに送る.ほうもんURLを記録したレポジトリー記録は,登録ユーザごとに作成される.
- User Repository:ユーザのデータ(サイコグラフィカルの情報とユーザの好み)を管理.アクセス権を管理.
- xMemを併用したウェブアプリケーションでは,ユーザは個人用のナビゲーション履歴にアクセスし,キーワードで閲覧することができる.下記で説明するPage Indexerモジュールがキーワードの抽出を管理する.
4.1 Semantic Enrichment of history data
- Page Indexerが,履歴データに情報を付加する.
- キーワードは,Page Indexerのサブモジュールとして実装されている2種類の方法で集められる.
- ウェブアプリ(ページ)の設計者(作者)が提供するフィルター.
- 一般のウェブページからsyntacticな技術で自動的に抽出.
- 図5:キーワードを定義したり抽出したりするサブモジュールの説明
- Fillter DefinerとClassifierモジュールが,(ページからキーワードを抽出する)フィルターを定義して,それを元にURLを分類する.
- Analyzerモジュールは,一般のウェブページからキーワードを抽出する.
- 以下の2セクションでこの2モジュールについて説明する.
4.1.1 Explicitly providing keywords
- ウェブアプリケーション(ウェブページ)の製作者は,Filter Definerを使って,ページの特徴を示すキーワードのセットを入力できる.
- 入力されたキーワードは,ページを分類する際のカテゴリーとして,Semantics Repositoryに保存される.
- Filter Repositoryは,各ウェブアプリごとのフィルターを保存する.
global filterとlocal filterの違い
- Global filters: 追跡しているURLが登録済みアプリに属しているかどうかチェック.xMem内でグローバルなので,全トラッキングに関与.アプリの登録時に自動生成される.
- Local filters: URLが,一度あるアプリとglobal filterによって関連付けられたら,すでにアプリによって提供されているキーワードのひとつに関連付けるための作業にlocal filterが適用される.
....
4.1.2 Automatically deriving keywords
- フィルターを持たないウェブページの場合,Analyzerモジュールを使って,HTMLソースから重要なキーワードを抽出する.(図5)
- キーワード抽出のアルゴリズムは,単純なsyntacticヒューリスティクス.TitleとかH1とかBなどのいくつかの重要な要素のテキストを取り上げる.
- 各タグtに重さw(1-100)を割り当てる.(TITLEとMETAが最重要.BODYの中の素のテキストが最も重要でない,)
- 図7に示すように,キーワード抽出は書き手順で進む.
- パース:HTMLをwell-formなXMLに変換し,不要なタグを取り除く.
- キーワード抽出:キーワード頻度fを使って,あるページのキーワードを同定する.(頻出する単語がキーワードの候補)
- 語幹:語尾変化などへの対応
- キーフレーズ抽出:5単語までのキーフレーズを抽出.
- ストップ単語除去:冠詞や前置詞などの除去
- キーワードとキーフレーズの重要度決定:キーワードの相対頻度と要素の重み付けにしたがって,重要度を決定.
4.1.3 Comparison with other tools
- キーワード抽出アルゴリズムの有効性を他のアルゴリズムと比較.
- まず,6名のユーザが6つの異なるウェブページを分析して重要と思われるキーワード5個を判断.
- ツールが決定したキーワードとの一致度を見る.
- 結果(図8):市販のKMTGrツールだけが我々のアルゴリズムよりよい結果を示した.
- 我々のアルゴリズムは,画像が多いページで特に成績がよい.なぜなら,image要素のalt属性やtitle属性に高い重み付けをしているから.
4.1.4 Clustering keywords
- キーワードをグループ化して,一段高いレベルのクラスにまとめる.
- クラスターCは,類似したキーワードを持つページの集まりである.
- TF-IDFランキング手法を使って,各ページのすべてのキーワードのページベクトルを計算する.
- クラスター化の手順は以下のとおり:
5. Implementation
6. Related work
6. Conclusions