文章アライメント(もう一つの自然な単位)

まずは以下のフルーツの絵(5枚)を見てみてください。

ギミックボタン

1. 初期状態

折返し

2. 適切な位置で改行

スタック

左から右に、右端に到達したら次の行に、といった具合に5枚あります。 ボタンを押すと何が起きているかよく分かります。 要するに普段の文章もこうなっていますよ、ということが言いたいです。



もちろん、絵と違って文章は長さがまちまち、というのはあります。一応上の画像を説明した5つの文章で同じことをやってみます。
ギミックボタン
リンゴ、オレンジなどの果物が複数の皿に盛り付けられている。リンゴ、ブドウなどの果物が複数の皿に盛り付けられている。リンゴ、ブドウなどの果物がバスケットに盛り付けられている。リンゴ、ブドウなどの果物が2つの木製トレイに盛り付けられている。リンゴとブドウが無造作に並べられている。
リンゴ、オレンジなどの果物が複数の皿に盛り付けられている。 リンゴ、ブドウなどの果物が複数の皿に盛り付けられている。 リンゴ、ブドウなどの果物がバスケットに盛り付けられている。 リンゴ、ブドウなどの果物が2つの木製トレイに盛り付けられている。 リンゴとブドウが無造作に並べられている。

改行アライメントしたほうが読みやすいことが分かります(※)。

文章単位は自然な単位

文章はモノ

自然な単位の話をした際に、最も粒度が粗いのは一つの文章だとしていました。上の5枚の絵も5文でそれぞれ表現できています。文章は末尾に「ということ」、「という様子」といった表現が暗黙的に置かれています。 どの文章でもこのような外挿は可能です。 これは、言語は現実を記号化したものであり、人はモノ単位で現実を認識している、なので言語側も、、という話と合致します。

自然な単位を網羅的に強調

自然な単位の話をした際に、それ、つまりモノとされるものを網羅的にボールド強調したほうが良い、という話もしました。例えば以下の例です。
ギミックボタン

1. 原文そのまま(非網羅的、粒度が細かい)
Google
石鹸さえもない温泉ですが、お湯は最高です。昭和レトロな蛇口、シャワーも楽しんで。
Google
◯◯温泉銭湯なので、当然温泉入館料は安いが、泉質はヌルヌル系の美人の湯。
Google
露天風呂は、ややぬるめ温度登山後筋肉を労るのにありがたかったです。
2. 自然な単位(網羅的、粒度は適度)
Google
石鹸さえもない温泉ですが、お湯最高です。昭和レトロな蛇口シャワーも楽しんで。
Google
◯◯温泉の銭湯なので、当然温泉入館料は安いが、泉質ヌルヌル系の美人の湯
Google
露天風呂は、ややぬるめの温度登山後の筋肉を労るのにありがたかったです。


文章も自然な単位(モノ)とすると、網羅的にそれらを示すべきですが、ボールドでは駄目です。 なぜならすべて真っ黒になってしまいます。なので別の方法が必要です。 その処方箋として「アライメント、改行」が出てきます。 そうです、文章アライメントは自然な単位の文脈からも支持されるアプローチだったりします。

句点の強調

また、多色ハイライトとボールド強調は各種メリットがある一方で、視野全体がいろいろうるさくなってしまいます。 つまり、普通であれば文区切りである句点がまだわかりやすいのに対して、上記装飾を加えると非常に見づらいです。 その状況下で改行、左アライメントを加えるのは理にかなっています。 句点周りの問題が全て解決します。 今だからネタばらししますが、これまでに出てきた事例、(1)原文と(2)多色ハイライトやボールド強調を施した文章、の二つを比較する系のものは全て文章アライメントを施していましたw つまり、後者にとって不利にならないように、です。ww やや汚い感がありますが、文章アライメントを加えないと(2)にとって不利過ぎますし、実際、文章アライメントを加えるべきです。

整然とした文体を活かす

難解な文章、正確には「正確さを重視して多少の冗長さは厭わない文章」では、文体も整然としたものになっています。しかし、それらは文章を連続させていると気づきにくいです。文章アライメントを加えると非常に美しい世界が見えてきます。多色ハイライトやボールド強調を入れると更に見えやすいです。

事例1(教科書の序文)

ギミックボタン

1. 初期状態

この教科書は以下のように構成されています。 第1章では、グラフ観点での自然言語処理を概観します。 第2章では、グラフベースの伝統的な手法を紹介します。 第3章では、グラフニューラルネットワークを説明します。 第4章では、グラフ構築を説明します。 第5章では、グラフ表現学習を議論します。 第6章では、グラフエンコーダ・デコーダモデルを議論します。 第7章では、グラフニューラルネットワークの自然言語処理におけるアプリケーションを紹介します。 第8章では、グラフニューラルネットワークの自然言語処理における課題を議論します。 第9章では、グラフニューラルネットワークの自然言語処理における今後の方向性を議論します。

図1は、グラフ構築、グラフ表現学習、エンコーダ・デコーダモデル、アプリケーションの4つの軸に沿って、自然言語処理におけるグラフニューラルネットワークのアプローチを体系的に整理したものです。

2. 適切な位置で改行

この教科書は以下のように構成されています。
第1章では、グラフ観点での自然言語処理を概観します。
第2章では、グラフベースの伝統的な手法を紹介します。
第3章では、グラフニューラルネットワークを説明します。
第4章では、グラフ構築を説明します。
第5章では、グラフ表現学習を議論します。
第6章では、グラフエンコーダ・デコーダモデルを議論します。
第7章では、グラフニューラルネットワークの自然言語処理におけるアプリケーションを紹介します。
第8章では、グラフニューラルネットワークの自然言語処理における課題を議論します。
第9章では、グラフニューラルネットワークの自然言語処理における今後の方向性を議論します。

図1は、グラフ構築、グラフ表現学習、エンコーダ・デコーダモデル、アプリケーションの4つの軸に沿って、自然言語処理におけるグラフニューラルネットワークのアプローチを体系的に整理したものです。


「第◯章では、■■します。」というルール、文体に制限して書かれています。アライメントを施すことでこの美しいルール、書き手の努力が明確化されます。

事例2(公文書的なもの)

先程の教科書の事例はかなり理想的な状況でした。あそこまで理想的なものは序文の一部にしか出てこないです。一方で次の事例(法律、公文書関係)については日常的に一定の形式的ルールが見えてきます。

ギミックボタン

情報保護指針に関する文章

1. 原文

本指針は、デジタル情報の適正な管理および保護を目的として、情報管理者およびデータ主体に関する基本的な事項を定めるものである。 デジタル情報とは、個人がデジタル形式で生成、保存、利用する情報を指し、個人情報とはその中でも特定の個人を識別することができる情報をいう。 情報管理者とは、デジタル情報の管理および保護を責任を持って行う者を指す。 情報管理者は、個人情報の適正な管理および保護を図るために必要な措置を講じなければならない。 情報管理者は、情報漏洩防止のために技術的および組織的な措置を講じる義務を負う。 情報管理者が本指針の規定に違反した場合、適切な罰則が適用される。 具体的には、個人情報の管理義務に違反した場合、罰金が科される可能性があり、情報漏洩防止義務に違反した場合、罰金または懲役が科される可能性がある。 データ主体とは、個人情報が関係する当該個人を指す。 データ主体は、自らの個人情報にアクセスする権利を有し、自らの個人情報が不正確である場合、その訂正を要求する権利を有し、自らの個人情報が不適切に保存されている場合、その削除を要求する権利を有する。 本指針の遵守により、デジタル情報の保護および管理の向上が期待される。

2. アライメント適用

本指針は、デジタル情報の適正な管理および保護を目的として、情報管理者およびデータ主体に関する基本的な事項を定めるものである。 デジタル情報とは、個人がデジタル形式で生成、保存、利用する情報を指し、個人情報とはその中でも特定の個人を識別することができる情報をいう。 情報管理者とは、デジタル情報の管理および保護を責任を持って行う者を指す。 情報管理者は、個人情報の適正な管理および保護を図るために必要な措置を講じなければならない。 情報管理者は、情報漏洩防止のために技術的および組織的な措置を講じる義務を負う。 情報管理者が本指針の規定に違反した場合、適切な罰則が適用される。 具体的には、個人情報の管理義務に違反した場合、罰金が科される可能性があり、情報漏洩防止義務に違反した場合、罰金または懲役が科される可能性がある。 データ主体とは、個人情報が関係する当該個人を指す。 データ主体は、自らの個人情報にアクセスする権利を有し、自らの個人情報が不正確である場合、その訂正を要求する権利を有し、自らの個人情報が不適切に保存されている場合、その削除を要求する権利を有する。 本指針の遵守により、デジタル情報の保護および管理の向上が期待される。

3. アライメント適用 & ハイライト

本指針は、デジタル情報の適正な管理および保護を目的として、情報管理者およびデータ主体に関する基本的な事項を定めるものである。 デジタル情報とは、個人がデジタル形式で生成、保存、利用する情報を指し、個人情報とはその中でも特定の個人を識別することができる情報をいう。 情報管理者とは、デジタル情報の管理および保護を責任を持って行う者を指す。 情報管理者は、個人情報の適正な管理および保護を図るために必要な措置を講じなければならない。 情報管理者は、情報漏洩防止のために技術的および組織的な措置を講じる義務を負う。 情報管理者が本指針の規定に違反した場合、適切な罰則が適用される。 具体的には、個人情報の管理義務に違反した場合、罰金が科される可能性があり、情報漏洩防止義務に違反した場合、罰金または懲役が科される可能性がある。 データ主体とは、個人情報が関係する当該個人を指す。 データ主体は、自らの個人情報にアクセスする権利を有し、自らの個人情報が不正確である場合、その訂正を要求する権利を有し、自らの個人情報が不適切に保存されている場合、その削除を要求する権利を有する。 本指針の遵守により、デジタル情報の保護および管理の向上が期待される。



一文だとかなり読むのがきついです、が、こういう文章はそっち系だと散見されます。アライメント(改行)を加えるとそこそこマシになります。文章が小分けになるので攻略しやすいです。更にここにハイライトを加えると全体の構図も見えてきます。「デジタル情報」、「情報管理者」、「データ主体」の3つが出てきて、それぞれ定義と後2者についてはその権利義務が規定されます。

文章を小分けにする

既に公文書の事例で挙げてしまいましたが、長い文章を小分けにする効果も慣れてない文章、専門性の高い文章ではかなり有効です。専門性の高い文章は上で挙げたので、ここでは慣れてない文章を取り上げます。外国語の例です。全然読めないと効果が検証できないので中国語の事例です。
ギミックボタン

三国志演義

1. 原文

刘备与关羽、张飞曾在桃园结义时立下誓言,忠心辅助汉室,拯救天下苍生。 刘备讨伐黄巾有功,後得到县令官职。 后来刘备投奔公孙瓒,就任平原太守,曾相约讨伐董卓,于虎牢关前与关、张二人大战吕布。 曹操之父曹嵩被徐州刺史陶谦部下张闿所杀,起兵攻打徐州雪耻。 陶谦求助,刘备来到徐州协助陶谦抵挡曹操大军。 曹操退兵后,陶谦去世前将徐州交与刘备,刘备就任徐州牧。 吕布被曹操打败后,逃到徐州投奔刘备。 刘备慷慨收留吕布,後來張飛惹怒呂布,呂布反夺徐州。 袁術率兵打劉備,呂布便以轅門射戟的方式救了劉備,劉備與曹操聯手消灭吕布。 刘备同朝廷大臣密谋除掉专权欲篡位的曹操,不料事情暴露,劉備又叛曹操,斬殺曹將車冑奪徐州。 刘备在徐州被曹操打败,逃去投奔袁绍,又叛袁紹,后在汝南建立实力。 曹操再次于汝南大败刘备,迫使刘备逃往荆州投靠刘表。 刘表让刘备镇守新野,以抵抗将要南征的曹操。 刘备三顾茅庐,得到足智多谋的诸葛亮辅佐,如鱼得水。

2. アライメント適用

刘备与关羽、张飞曾在桃园结义时立下誓言,忠心辅助汉室,拯救天下苍生。 刘备讨伐黄巾有功,後得到县令官职。 后来刘备投奔公孙瓒,就任平原太守,曾相约讨伐董卓,于虎牢关前与关、张二人大战吕布。 曹操之父曹嵩被徐州刺史陶谦部下张闿所杀,起兵攻打徐州雪耻。 陶谦求助,刘备来到徐州协助陶谦抵挡曹操大军。 曹操退兵后,陶谦去世前将徐州交与刘备,刘备就任徐州牧。 吕布被曹操打败后,逃到徐州投奔刘备。 刘备慷慨收留吕布,後來張飛惹怒呂布,呂布反夺徐州。 袁術率兵打劉備,呂布便以轅門射戟的方式救了劉備,劉備與曹操聯手消灭吕布。 刘备同朝廷大臣密谋除掉专权欲篡位的曹操,不料事情暴露,劉備又叛曹操,斬殺曹將車冑奪徐州。 刘备在徐州被曹操打败,逃去投奔袁绍,又叛袁紹,后在汝南建立实力。 曹操再次于汝南大败刘备,迫使刘备逃往荆州投靠刘表。 刘表让刘备镇守新野,以抵抗将要南征的曹操。 刘备三顾茅庐,得到足智多谋的诸葛亮辅佐,如鱼得水。

3. アライメント適用 & ハイライト

刘备与关羽、张飞曾在桃园结义时立下誓言,忠心辅助汉室,拯救天下苍生。 刘备讨伐黄巾有功,後得到县令官职。 后来刘备投奔公孙瓒,就任平原太守,曾相约讨伐董卓,于虎牢关前与关、张二人大战吕布。 曹操之父曹嵩被徐州刺史陶谦部下张闿所杀,起兵攻打徐州雪耻。 陶谦求助,刘备来到徐州协助陶谦抵挡曹操大军。 曹操退兵后,陶谦去世前将徐州交与刘备刘备就任徐州牧。 吕布被曹操打败后,逃到徐州投奔刘备 刘备慷慨收留吕布,後來張飛惹怒呂布,呂布反夺徐州 袁術率兵打劉備,呂布便以轅門射戟的方式救了劉備,劉備與曹操聯手消灭吕布。 刘备同朝廷大臣密谋除掉专权欲篡位的曹操,不料事情暴露,劉備又叛曹操,斬殺曹將車冑奪徐州 刘备徐州曹操打败,逃去投奔袁绍,又叛袁紹,后在汝南建立实力。 曹操再次于汝南大败刘备,迫使刘备逃往荆州投靠刘表。 刘表让刘备镇守新野,以抵抗将要南征的曹操 刘备三顾茅庐,得到足智多谋的诸葛亮辅佐,如鱼得水。



原文だとかなり長いなぁという印象ですが、アライメント(改行)を加えると一つ一つは短いことが分かります。 外国語の教科書の例文は短文になっていますが、あんな感じです。一つずつ各個撃破できます。次はおまけですが更に多色ハイライトを加えると、外国語学習も楽になります。多色ハイライトおよびアライメントに関してはSafari拡張の形でアプリをリリースしています。外国語学習をされている方は是非、確認してみてほしいです。サンプルも60カ国語を用意しています。

まとめ

文章もモノとしてみることが出来ます。つまり自然な単位なのですが、ボールド強調をすると真っ黒になってしまうので、特段に改行アライメントという措置を採るのが有効です。多色ハイライト・ボールド強調で見づらくなった状況も解消されます。改行アライメントは法令等の形式的文書の厳格な文体の存在を見やすくします。それにより読書が楽になります。また長文を小分けにすることで例えば専門性の高い文章や外国語といった、読者が不慣れな領域の文章も少しずつ攻略できるようになります。

終わりに

これで、テキストトランスフォーマー(PPL++)が、「難解な文章」の攻略に有効だという理論的根拠についての説明は終了です。途中で加筆修正すると思いますが、大筋は完成したと思っています。

余談1

この改行アライメントをやろうとするとリフローレイアウトである必要が出てきます。 つまりPDFでは使えないです。幸いにも生成AI全盛で、英語に関してはドキュメントをHTML形式(リフロー形式)で提供する機運が高まってきています。 生成AIにテキストをコピペしたり、ドキュメント自体を要約、翻訳させたりする際に、文書の構造情報を保っているHTML(Epub)のほうが好ましいからです。PDFは印刷時に美しくなるように、つまり紙を想定したファイル形式ですが、そのために例えば一番わかり易いのは末尾の改行が文続きなのか文終わりなのか、そのままでは判定がつかないです。レイアウト情報についてもそうです。ダブルカラムに下の方に画像とキャプション(文章)なんかがあると最悪だったりします。これらを機械学習で何とかして攻略、みたいなのが普通に研究対象だったりします。が、専門家でない人間としては最初から構造化情報をもったデータにすればいいだけの話であって、と思えてしまいます。 一応、テキストトランスフォーマーはPDFをhtmlにコンバートしたものに対しても動きます。pdf2htmlexを使って変換すればそのまま動きます。 ただし、この場合はアライメント改変は使えないです。なので、私はあまりPDFソースで読みたくなくなりました。 翻訳をする際にもレイアウト情報はシビアに効いてきます。英語から日本語に翻訳すると必然的にレイアウトは崩れるわけで。この場合も最初からリフロー形式のEpub(HTML)になっていれば何らの問題もないです。
折返し
こんな感じでリアルタイムに翻訳してテキストトランスフォーマーを噛まして読んでたりします。非常に読みやすいです。 GPT4oのAPIと連携させています。ちょっと時間がかかってますが、ガッツリ集中して読んでいればどうせ時間がかかるので、その間に翻訳が進むのでそんなに気にならないです(実は負け惜しみでもう少し速くやりたかったりww。ただし、その代償として数式がうまく処理できているので良しとしています(ちょっとした自慢ww)。ガッツリ読む場合は予めバッチ処理してローカルファイルとして読んでいます。バッチ処理の場合はClaude3(Sonnet)のAPIを利用しています。翻訳タスクについてはSonnetの方を気に入っています。自然な日本語で訳してくれます。が、速度が遅いのでリアルタイム処理の場合はGPT4oを利用している次第です。何事も使い分けですね。

余談2

※改行を入れたほうが良さそうなのに紙の本、普段のWebページにおいてはそうなっていない理由、 いくつかあると思っています。 恐らくですが、紙の時代には紙が高価でもったいない、というのがあったと思います。 あとは書き手が筆を滑らせる際に、いちいち改行を入れると興が冷めるというか。 他にも読者が読みすすめる際にリズムよく改行させたほうが疲れない、 というのもあります。メリット、デメリットがあります。 一方で電子文書であればその辺り、自由にレイアウト変更ができます。 筆者側が敢えてそうせずとも読者側が文章をHackすることもできます。 まずはオプションが一つ増えた、くらいの軽い気持ちが良いのかなとも思っています。