Wikipedia:井戸端/subj/新しい検索解析エンジンについてご協力を
|
新しい検索解析エンジンについてご協力を
[編集]こんにちは
ウィキメディア財団の検索チームは、現行とは異なる新たな日本語形態素解析エンジンをMediaWiki検索に導入すれば検索結果にどのように影響を及ぼすか、理解する手助けをしてくれる日本語話者の人たちを求めています。
この解析エンジンの目的は、文章を単語に分解して、関連することばの形態素をまとめてindexし、一つを検索すれば残りも全部見つけることができるようにすることです。
今現在は、日本語ウィキペディアを検索すれば"バイグラム"(連続する2文字ずつ)の一致結果が返ってきます。たとえば、"ガラティア語" という語句は"ガラ", "ラテ", "ティ", "ィア", "ア語"というバイグラムに分割されます。新しい解析エンジンはこれを "ガラティア" と "語"というふたつの語に分割します。
この日本語形態素解析エンジンを使えば、おなじ一つの語のほかの形態素の一致結果も得ることができます。例えば、 "押さえ込ま", "押さえ込み", "押さえ込む", "押さえ込ん"のどれで検索してもほかの形態での一致結果を合わせて得ることができます。
もちろん、これとて完全ではありません。いつでも語句を完璧に分割できるわけではありませんし、一致する結果の一部を得損なったり、一致していない結果を含んでしまったりする場合もありますが、全体としての効果はマイナスよりもプラスのほうが大きいと期待できます。
私たちはWMF Labs(財団ラボ)に日本語版ウィキペディアのindexをコピーしました。ここで検索すれば、検索結果の抜粋が表示されます。ただし記事本体はラボ上にはありません。
これを試していただければ大変助かります。ラボで検索要求してみて、どう思うか、気に入るか、確かめてみて下さい。ラボと日本語版の両方で検索して結果を比べてみて下さい。
どんな感想でも—もちろん懸念や不満でも—大変ありがたいです!
TJones (WMF)(会話) 2017年7月5日 (水) 15:50 (UTC)
- 「比較級」という語で検索してみました。(LAB)(JAWP)
「比較」+「級」で分割されたために、「比較級」と無関係なページが大量に検出されるようです。他の一般的な単語だといい結果になるので、形態素辞書の調整か表示順の問題でしょうか。 --Yhiroyuki(会話) 2017年7月5日 (水) 16:42 (UTC)
- Sorry to reply in English. I can get more translation help if needed, but it would take time. I forgot to include the link to the labs instance. I am glad you found it. I added the link to my original message.
Thank you for the example. It is possible that results for exact phrases will not be as good with the new system because the end of one word and teh beginning of the next word from the query no longer have to be next to each other. JAWP is searching for 「比較」 and 「較級」. The new analyzer is searching for 「比較」 and 「級」. It looks like 「較級」 doesn't occur except as part of 「比較級」, so the results are better on JAWP. Using quotation marks 「"比較級"」 gives similar results for both, but ordered somewhat differently. (LAB) (JAWP).
We are also using the latest scoring profile in the labs instance, which we previously could not use with languages without spaces between words. If there are many problems, I can create another labs instance with the same scoring profile as JAWP for testing. We can try the other scoring method, but we can't change the morpheme dictionary inside the language analyzer.
One possible outcome of this discussion is that we decided not to use the new language analyzer because the results are worse for most queries. I hope that it will be better for most queries, but if not, we should abandon it. TJones (WMF)(会話) 2017年7月5日 (水) 18:10 (UTC)
- Sorry to reply in English. I can get more translation help if needed, but it would take time. I forgot to include the link to the labs instance. I am glad you found it. I added the link to my original message.
- 「笑うかのこ様」で検索してみました。(LAB、jawp)。理屈はよく分かりませんが、現状の日本語版ではヒット数は少ないもののピンポイントに関係のある記事だけがヒットしますが、LABですとヒット数は多いものの無関係なものが大量にヒットしました。「エドガーアランポー」で検索しても(LAB、jawp)、日本語版ではピンポイントに「エドガー・アラン・ポー」の1記事のみがヒットするのに対してLABでは全く関係のなさそうなオリンピックだのトランスフフォーマーだのの記事が検索結果に混ざってきます。「きらめきのライオンボーイ」に至っては(LAB、jawp)、日本語版では作者と掲載雑誌がきちんとヒットするのに、LABでは上からずっと関係ないページばかりが並び、やっと13件目に作者のページがヒットするという有様でした。検索結果の傾向としてはYhiroyukiさんと同じような感じですね。非定型的な語句の検索で無関係なページのノイズだらけになってしまうのは、ちょっと使い辛いように感じますし、関係ないページが大量にヒットするよりは関係の深いページが少ししかヒットしない方が検索システムとしての実用性は高いと思います。作品タイトル等に多い定型的でない語句は、日本語版ウィキペディアの需要を考えると検索頻度は高いのではないかと思いますし、実用化するならこの部分の対応は必須ではないかと思います。--重陽(会話) 2017年7月5日 (水) 17:57 (UTC)
- As I explained above, the curent JAWP analysis looks for bigrams, so exact words and phrases get good matches and nothing else. That is the case for your examples. In the case of 「笑うかのこ様」, the bigram 「こ様」is very rare, and limits the possible results. The new analyzer breaks it up into "words" as 「笑う・こ・様」. It ignores の and こ as stop words. Since this is a name, it may be an error to break it up like this, but that is what has happened.
The new analyzer probably helps unsophisticated searchers the most. Someone recently searched JAWP for 「ゆいPのPの意味は?」. In JAWP, it gets no results. In LABS the article 「おかずクラブ」, which is the best article and has the answer, is the fourth result. That isn't great, but it is much better than no results. Current JAWP breaks this into「ゆい・P・の・P・の意・意味・味は」, giving no results. The new analyzer breaks it up as 「ゆい・P・P・意味」. Again, that isn't great, but it is good enough to get a decent answer instead of no answer.
It isn't clear whether this is worth all the extra results that are not very accurate.
Thanks for the additional examples! TJones (WMF)(会話) 2017年7月5日 (水) 20:52 (UTC)- それは逆に言えば、現状であれば正確な単語やフレーズで検索すればよく一致した結果が得られるのに、新しい検索システムでは今まで得られていたようなよく一致した結果すら得られなくなってしまうということですよね。それは非常に大きな利便性の損失なのではないでしょうか?通常は日本語環境において「ゆいPのPの意味は?」といったような文章での検索はあまり行われないのではないかと思います。日本語環境においては「ゆいP 意味」のようにキーワードを並べて検索するのが普通であり、そのように検索すれば今の検索エンジンでも一番上に「おかずクラブ」の記事が出てきますし(jawp)、LABではそれでも「おかずクラブ」は一番上には出てきません(LAB)。あまり一般的でない文章での検索でも検索結果が得られるようにするために、一般的なキーワードによる検索での検索結果がノイズまみれになって使い物にならなくなってしまうのは本末転倒であるように思います。確かに分かち書きしない日本語ような言語でも文章検索で程よい検索結果が得られるような検索システムは技術的に素晴らしいものであるのかもしれませんが、それで現状できていることが出来なくなってしまうのではプラスマイナスのマイナス寄りと感じてしまいます。--重陽(会話) 2017年7月5日 (水) 22:21 (UTC)
- The example with ゆいP was a user query from JAWP. In my experience, many users of Wikipedia are not very good at using search. Many people learn how to use search better over time, but there are always new users who have not figured it out. I always try to consider the inexperienced user, because we usually cannot talk to them directly.
I was hoping that this would be obviously beneficial, but it is not. I will see if it makes sense to create another labs instance with the new language analyzer and a different scoring profile or other changes. If it looks promising, I will post a link here for everyone to try it. If not, then we will abandon the new language analyzer for now.
I tried several online translators and I'm not sure I understand this. I hoped that the new language analyzer be an improvement, but if it is not, then we should not use it. That is okay, though it would be disappointing.--以上の署名のないコメントは、TJones (WMF)(会話・投稿記録)さんが 2017-07-06T15:08:06 に投稿したものです(赤の旋律/akasen(talk)による付記)。それで現状できていることが出来なくなってしまうのではプラスマイナスのマイナス寄りと感じてしまいます。
- 重陽's comment can be translated as: "If this new searching engine makes it impossible to do what can be done now, I say the disadvantage of this engine outweighs the benefit of it." Though I believe this translation carries what 重陽 meant, it can a mistranslation, in which case I am very sorry for both of 重陽 and you.
In my opinion, Japanese internet users have made a habit of transforming what they want to search into a cluster of words, which the old-fashioned search engines can understand. Users who are familiar with internet for some time are used to it, but with the development of search tools like Siri users who are unfamiliar with it are now common. I suppose by this kind of users the search query you showed was made.
I'm rather in the category of old-fashioned user, and I like the old one. I do not think the new search engine is quite beneficial. There are, however, users want to search with a sentence, who prefers the new one. So the new search engine can be beneficial with improvements, but it should be separated from the old one like presenting results at the bottom of results from the old one, or only when the old one returns no result at all.--赤の旋律/akasen(talk) 2017年7月6日 (木) 16:16 (UTC)- Thanks for the translation, information, and for attributing my comment, akasen! I also thought about putting new results below old results, or only searching the new way if the old way returns no results. Unfortunately, I think that would be too computationally expensive. It's likely that we will just keep the current configuration, but I am running a few more tests to see if there is any other configuration that seems good enough to consider. I don't expect there will be, but a day or two more of work seems worth it if there is a chance. TJones (WMF)(会話) 2017年7月6日 (木) 17:19 (UTC)
- 赤の旋律さん、フォローありがとうございます。コメントの意図はその通りです。赤の旋律さんのコメントで、この新しい検索システムについてなんとなく感じていたことがはっきり分かった気がします。やはり私もネットユーザーとしては古参に属する方ですので、今可能なことが出来なくなることの不利益を新しいユーザーよりはシリアスに感じてしまっているのかもしれません。新しいユーザーのためにというのも十分理解できるのですが、それが結果的に既存のユーザーによる既存の検索ノウハウが通用しなくなっていく方向に行ってしまうのは寂しいことです。しかし、私はトレンドを追えていなかったのですが、いろいろと調べてみるとこういった文章での検索を可能にする日本語検索ツールというのは最近の流行なようですし、古参の都合で新しい技術を取り入れなければ新陳代謝が衰えてコミュニティが衰退していきかねないことも分かります。開発する側としてはコストとの兼ね合いであることも分かるのですが、利用する側としては、デフォルトは新システムでも構わないので、旧システムで検索する選択肢も与えてもらえればありがたいかなと思います。私の個人的な利用頻度で言えば、ウィキペディアでの検索は記事を探すというよりも、管理者業務等ために過去の議論や事例を掘り起こす目的で標準名前空間以外の検索に利用することが多いのですが、そういう検索では旧システムの方が相性がいいと感じます。もちろん、そのような用途は全体から見れば小数派ではあるかと思いますが。--重陽(会話) 2017年7月7日 (金) 22:44 (UTC)
- Thank you for your comments. I do think that new users are important. But it is also important that experienced users can find what they are looking for. I do not think that searching for sentences is very important—it is good to have, but it is not the most important thing. That was just an example that I found of an actual user query that demonstrated some of the expeceted advantages of the new system.
I made a mistake in the configuration of the demo in the LAB, and the scoring it was using was very bad. There were also some mistakes in the links on this page; the links went to the second page of results!
I have re-built the search index in the LAB with more appropriate scoring. Please try some new searches in the LAB and on JAWIKI. I will post another message with links. TJones (WMF)(会話) 2017年7月8日 (土) 01:23 (UTC)
- Thank you for your comments. I do think that new users are important. But it is also important that experienced users can find what they are looking for. I do not think that searching for sentences is very important—it is good to have, but it is not the most important thing. That was just an example that I found of an actual user query that demonstrated some of the expeceted advantages of the new system.
- 赤の旋律さん、フォローありがとうございます。コメントの意図はその通りです。赤の旋律さんのコメントで、この新しい検索システムについてなんとなく感じていたことがはっきり分かった気がします。やはり私もネットユーザーとしては古参に属する方ですので、今可能なことが出来なくなることの不利益を新しいユーザーよりはシリアスに感じてしまっているのかもしれません。新しいユーザーのためにというのも十分理解できるのですが、それが結果的に既存のユーザーによる既存の検索ノウハウが通用しなくなっていく方向に行ってしまうのは寂しいことです。しかし、私はトレンドを追えていなかったのですが、いろいろと調べてみるとこういった文章での検索を可能にする日本語検索ツールというのは最近の流行なようですし、古参の都合で新しい技術を取り入れなければ新陳代謝が衰えてコミュニティが衰退していきかねないことも分かります。開発する側としてはコストとの兼ね合いであることも分かるのですが、利用する側としては、デフォルトは新システムでも構わないので、旧システムで検索する選択肢も与えてもらえればありがたいかなと思います。私の個人的な利用頻度で言えば、ウィキペディアでの検索は記事を探すというよりも、管理者業務等ために過去の議論や事例を掘り起こす目的で標準名前空間以外の検索に利用することが多いのですが、そういう検索では旧システムの方が相性がいいと感じます。もちろん、そのような用途は全体から見れば小数派ではあるかと思いますが。--重陽(会話) 2017年7月7日 (金) 22:44 (UTC)
- Thanks for the translation, information, and for attributing my comment, akasen! I also thought about putting new results below old results, or only searching the new way if the old way returns no results. Unfortunately, I think that would be too computationally expensive. It's likely that we will just keep the current configuration, but I am running a few more tests to see if there is any other configuration that seems good enough to consider. I don't expect there will be, but a day or two more of work seems worth it if there is a chance. TJones (WMF)(会話) 2017年7月6日 (木) 17:19 (UTC)
- 重陽's comment can be translated as: "If this new searching engine makes it impossible to do what can be done now, I say the disadvantage of this engine outweighs the benefit of it." Though I believe this translation carries what 重陽 meant, it can a mistranslation, in which case I am very sorry for both of 重陽 and you.
- The example with ゆいP was a user query from JAWP. In my experience, many users of Wikipedia are not very good at using search. Many people learn how to use search better over time, but there are always new users who have not figured it out. I always try to consider the inexperienced user, because we usually cannot talk to them directly.
- それは逆に言えば、現状であれば正確な単語やフレーズで検索すればよく一致した結果が得られるのに、新しい検索システムでは今まで得られていたようなよく一致した結果すら得られなくなってしまうということですよね。それは非常に大きな利便性の損失なのではないでしょうか?通常は日本語環境において「ゆいPのPの意味は?」といったような文章での検索はあまり行われないのではないかと思います。日本語環境においては「ゆいP 意味」のようにキーワードを並べて検索するのが普通であり、そのように検索すれば今の検索エンジンでも一番上に「おかずクラブ」の記事が出てきますし(jawp)、LABではそれでも「おかずクラブ」は一番上には出てきません(LAB)。あまり一般的でない文章での検索でも検索結果が得られるようにするために、一般的なキーワードによる検索での検索結果がノイズまみれになって使い物にならなくなってしまうのは本末転倒であるように思います。確かに分かち書きしない日本語ような言語でも文章検索で程よい検索結果が得られるような検索システムは技術的に素晴らしいものであるのかもしれませんが、それで現状できていることが出来なくなってしまうのではプラスマイナスのマイナス寄りと感じてしまいます。--重陽(会話) 2017年7月5日 (水) 22:21 (UTC)
- As I explained above, the curent JAWP analysis looks for bigrams, so exact words and phrases get good matches and nothing else. That is the case for your examples. In the case of 「笑うかのこ様」, the bigram 「こ様」is very rare, and limits the possible results. The new analyzer breaks it up into "words" as 「笑う・こ・様」. It ignores の and こ as stop words. Since this is a name, it may be an error to break it up like this, but that is what has happened.
I am worried about miscommunication, so if anyone notices a misunderstanding, help would be appreciated! Thanks. TJones (WMF)(会話) 2017年7月5日 (水) 20:52 (UTC)
- [ja: コメント]: mw:User:TJones_(WMF)/Notes/Kuromoji_Analyzer_Analysis#Longest_Tokens をみていて薄々感づいてはいましたが、ひらがなで指定されたキーワードの検索は、今の検索エンジンよりも結果が悪くなる場合が見られます。"しょうぼうしょ" (labs, prod) , "あんごうか" (labs, prod) 辺りは特にひどい。しかし、漢字やカタカナで構成されているものは、現在よりも適切な結果が表示されやすくなっている場面も見られる ("ソルト付きハッシュ" (labs, prod), "量子暗号" (labs, prod), "電子署名及び認証業務に関する法律" (labs, prod) ) ので、一長一短といったところですね。--rxy(会話) 2017年7月7日 (金) 23:52 (UTC)
- [en: Comment]: I had predicted in reading mw:User:TJones_(WMF)/Notes/Kuromoji_Analyzer_Analysis#Longest_Tokens, In case of searching keyword specified by hiragana, I got a bad result compared with the current search engine. e.g. "しょうぼうしょ" (labs, prod) , "あんごうか" (labs, prod) ; However, searching keyword specified by "kanji" or "katakana", I got a better result with the current search engine. e.g. "ソルト付きハッシュ" (labs, prod), "量子暗号" (labs, prod), "電子署名及び認証業務に関する法律" (labs, prod)--rxy(会話) 2017年7月7日 (金) 23:52 (UTC)
The previous version of the LAB with the new language analyzer had a poor scoring configuration, so I re-indexed it with a more appropriate version. The results seem more similar to the current JAWP configuration. They may be better or worse; unfortunately, I think they are probably not as good as the current JAWP results. Below are links to all of the examples that have been mentioned here. I would appreciate anyone trying them and giving feedback. Thanks! TJones (WMF)(会話) 2017年7月8日 (土) 01:23 (UTC)
- 「比較級」 LAB JAWP
- 「"比較級"」 LAB JAWP
- 「笑うかのこ様」 LAB JAWP
- 「エドガーアランポー」 LAB JAWP
- 「きらめきのライオンボーイ」 LAB JAWP
- 「ゆいPのPの意味は?」 LAB JAWP
- 「ゆいP 意味」 LAB JAWP
- 「しょうぼうしょ」 LAB JAWP
- 「あんごうか」 LAB JAWP
- 「ソルト付きハッシュ」 LAB JAWP
- 「量子暗号」 LAB JAWP
- 「電子署名及び認証業務に関する法律」 LAB JAWP
- Any additional comments would be appreciated. In the absence of positive feedback, I'm going to recommend not deploying this change. TJones (WMF)(会話) 2017年7月10日 (月) 17:29 (UTC)
- 日本語は非常に大きな表記ゆれを許容する言語ですから、古参に限らず、ゆれない部分、つまり単語や定型句、成語などの羅列で検索する方法が一般的だと考えます。従って多くの人々にとってはノイズが増えるだけになってしまうのではないでしょうか。--Hiroes(会話) 2017年7月11日 (火) 15:09 (UTC)
- Thanks to everyone for all the feedback. I'm going to abandon this change for now. We may try again if there are new improvements to the language analyzer or scoring that look promising. どうもありがとう。 TJones (WMF)(会話) 2017年7月11日 (火) 17:48 (UTC)