英語の言語資源の日本語化

aseri1

それっぽいタイトルをつけていますが、要するに日本語翻訳です。2024年現在のGoogle翻訳は以前と比べて精度が上がっていますが、それでもまだまだ自然じゃないですし、数式が入ってくるととたんに破綻します。 2020年?前後にDeepLというサービスが出てきて、このサービスは良質のトレーニングデータ(翻訳サービスで翻訳家がきちんと対訳したもの)をニューラルネットベースのモデルに食わせているらしいので、自然な英語に翻訳してくれます。当時、衝撃を受けたのを憶えています。 さらに、2022、23年にClaude3やChatGPTが出現してこの状況が変わってきました。適切に文脈を与えれば細やかな翻訳をしてくれます(例えば、以下の文章は機械学習の教科書のものです、とかです)。 私はDeepLのAPIを使って翻訳をしていたのですが、料金が高いのとChatGPTのAPI(gpt3.5)がDeepLの1/10に抑えられていたので、すぐにそちらに移行しました。2024年7月現在ではバッチでePub等を翻訳する際にはClaude3(Sonnet)、Web閲覧中にリアルタイムに翻訳する際にはgpt4oと使い分けています。翻訳精度、雰囲気(自然な日本語)は前者を私は気に入っていますが、応答速度、非同期リクエスト上限を鑑みると後者のほうが有利です。使い分けが大事ですね。 日本語ドキュメントの電子化対応が拙速すぎて危惧を抱いていたのですが、このレベルの翻訳が得られるならもう良いんじゃないかと。危惧というのは、この生成AI全盛時代に例えばChatGPTに教科書の内容を質問する際に、まさか手打ちはありえないでしょう(コピペしようよ)、とか、言語資源としての日本語文書がチープ(トレーニングデータが不十分)とかです。色々心配だったのですが、ここまでの翻訳が得られるならもう良いのかなと。私自身の卑近な文脈だと、私のソフト(テキストトランスフォーマーPPL++完全版(自然な単位あり))は英語ではなく日本語に相性が良かったりします。日本人としては今の日本の凋落ぶり(※)に対しては、このままではいけない、そして私のソフトはそれに資する(科学技術系のドキュメントの読解を質的に変える)と考えています。しかし日本語の電子ドキュメントが殆どないとなるとその野望は潰えてしまうのですが、英語から輸入できるならその側面でも安心です。睡眠も深くなりましたww、冗談抜きでです。 以下のような状況です。観察してみてください。
ギミックボタン ギミックボタン

0. 検索結果のタイトル、要約

折返し

1. html対応の話
これは英語の論文投稿サイト(arXiv)ですが、 html資源も試験的に用意されてきています(ar5iv,texソースをコンバート?)。

折返し

2. 本文の翻訳
スクロールすると次々に翻訳されていきます。 少し工夫すると数式が入っていても適切に翻訳してくれます。 数式自体もですがその前後の文脈も壊れてないです。

折返し


数日くらいの観察なのでまだ不備があるかもです。 引き続き観察、改良を続けてみます。

(20240730追記)
領域によって自然な日本語にならないことがあるようです。。プロンプトを工夫する余地があるので、もう少し調べてみます。私のメタ認知の可能性もあります(翻訳うまくいっているかな、バグはないかな、テキストトランスフォーマーとの相性はどうかな、などの客観視点が邪魔をして読書に集中できない可能性もありです)。

駄文

(※)これについては本当に思うところがありです。ChatGPTのようなサービスを日本から出せるように。 もちろん英語圏は人口が明らかに違うので太刀打ちは難しいのは事実ですが、言語の特性で何とか食らいつく、 日本語にはそのポテンシャルがある。一方で複数形がない、定冠詞がない、厳密に概念を定義しづらい、といった不得意点もあります。 その辺りは新しい文法を規則化するなどして対応するとか。その際には2D的な読書の観点でその辺り整備する、AIの助けも借りる(そういう書き方をエイドする、既にタイピングであれば漢字の入力補間は出来ている、これを文章レベルでも行う。ChatGPTの出力する文章と2D的読書とは非常に相性が良いです。)。 そんな未来が私には見えています。 自分が開発した技術だから、というのが無いと言うと嘘になりますが、この技術にはそれくらいのポテンシャルがあると見ています。 日本語の言語資源が少ないのは事実なので、この英語からの輸入路線は私としても追求していきます。課題としては単語の表記ゆれ、 この辺りはアイデアはなくはないのですが(二重スキャンとか)、その前提となる部分の整備が追いついていないのでそちらを今は追っています。 全文を渡してドカン、みたいのがやれたら二重スキャンはどうでも良くなりますよね、、 アテンションの窓はどんどん大きくなっているようなのでそれを待つのもありかなと。