ワードブレイクの言語判定のチェック

こんにちは、SxSの村木です。

酷暑の中、お盆休みの時期になりましたね。
台風が各地に近づいていますので、皆さんお気をつけてお過ごしください。

さて、今回は SharePoint の検索にまつわる小ネタをご紹介します。

目次

SharePoint の検索の仕組み

SharePoint の検索の仕組みとして、サイト内にアップロードされたコンテンツは自動的にクロール処理され、コンテンツの中のテキスト情報からインデックス(ヒット可能な検索キーワード)が作成されます。

このインデックス作成は、SharePoint の内部的な仕組み(ワードブレイカー)によって、テキストが単語ごとに分割(ワードブレイク)されます。

ワードブレイク時は、こちらも内部的な仕組みによって自動的にコンテンツの言語判定がされ、その判定された言語によってワードブレイクされます。

例えば中国語と日本語は同じ漢字を使用しますが、単語としては異なるかと思います。
なので言語ごとにワードブレイクが異なるのですね。

もしその言語判定が間違っていると、そのコンテンツは上手くワードブレイクされないので、思うように検索にヒットしない現象が発生します。

そのため検索にヒットしない場合は、まず間違った言語で判定されていないかをチェックしましょう!

言語判定のチェック方法

具体的にどのようにしてチェックするかというと、判定された言語の情報が載っているプロパティで検索することによって、サイト内から探すことが可能です。

判定された言語は DetectedLanguage という内部的なプロパティ(管理プロパティ)に情報が載っています。

SharePoint の検索はプロパティを指定することによって、そのプロパティのみを検索対象とすることができるので、それを利用します。

言語判定が日本語のアイテムを検索

DetectedLanguage:ja

言語判定が英語のアイテムを検索

DetectedLanguage:en

言語判定が日本語ではないアイテムを検索

DetectedLanguage<>ja

チェック方法はクラシック検索でもモダン検索(Microsoft Search)でも変わらないので、どのサイトでも使用することが可能ですよ。

言語判定を正しいものに修正する方法は、また機会があればご紹介します。


SxSでは検索にまつわる問い合わせもサポート範囲内となり、ヒットしない原因の特定からお手伝いいたします。

SxSが少しでも気になる方は、是非い合わせフォームよりご連絡ください。

ではまた次回の記事でお会いしましょう!

SxSブログのチェックをよろしくお願いします!

目次