サンプル - 各言語のウィキペディアの記事
外国語学習に利用する際の参考にしてください。
最初に結論を言うと、2024年7月現在で日本語、英語、中国語は十分な対応です。
その他は一部機能に難がある可能性ありです。
機能とはなにか、二つの考慮点があります。
活用変化の考慮
ハイライトは「同じ単語」に対して行われますが、PPL++では各種活用変化をキャンセルして同じ単語として同じ色にハイライトされます。
例えば英語の「play」がハイライトされると「plays」、「playing」などもハイライトされます。
活用変化をキャンセルする際には、デフォルトだと単語末尾の変化のみを見ていますが、ステマー(活用変化を切り取るもの)という関数が用意されている言語はより精度良く活用変化のキャンセルができます。
末尾以外の変化も吸収するので同じ単語として扱われるものの幅が広いです。
ストップワード(頻出語)の扱い
ストップワードつまり頻出語はオートハイライトの対象から外れます。
例えば英語だとtheやofが自動ハイライトされるのは面白くないです。
PPL++が対応予定の60言語は全てストップワードがそれぞれ定義されています。
Web上で権威がありそうなデータ、および実際にオートハイライトさせたものをChatGPTで内容確認しながら作成しました。
なお正式版ではユーザーが手動でストップワードを追加できます。
ここではデフォルト状態での雰囲気を確認してください。
以上のように、活用変化のキャンセル(ステマー)とストップワードへの対応状況が各言語で違ってきます。
以下のサンプルで確認をお願いします。
十分なチェック済み
日本語、英語については開発者である私自身が頻繁に利用しているので対応レベルが高いです。
日本語は文法がシンプルです。
英語も活用変化がそこまで多くない上に優秀なステマーが整備されています。
日本語は分かち書きが問題になりそうですが、最適な分割を辞書無しでその場で計算しています。
中国語については私自身はそこまで頻繁に利用してませんが、活用変化の話が出てこないのとわかち書きについても日本語と同じアルゴリズムでうまく処理できています。
なので、3つについては「十分なチェック済み」として別段に分けています。
その他の言語も漸次、「十分なチェック済み」に移行させていきたいです。
(追記)
ドイツ語も恐らく大丈夫と思いますが、複合語が多くそれらをサブワードでうまく扱えているか少し心配です。
ラテン語もストップワードに関しては問題ないですが、ステマーが整備されていません(文法が比較的しっかりしているのでやれるはずですが)。
他には韓国語はストップワード、ステマーともに整備したつもりですが如何せんハングルが読めないので、大丈夫と言い切れません。
逆にタイ語に関しては全くやれていません。わかち書き周りからしてコケています。
また、アラビア語についてもステマーが整備されているにも関わらず受け止めきれてない感があります。
ただその分、両者については挑戦してみたい気持ちが強いです。
少しずつですが、整備していきます。
ステマー利用 & 頻出語除外
頻出語除外のみ