自己紹介(functoy)

概要

外見はおもちゃ(toy, 以下、玩具)に見えるけど実用的(functional)、 そういう製品の開発を目指しています。
遊び心が時代を大きく前進させることもあると思います。
関数型玩具製作所はその路線で社会に貢献したいと考えています。

その際に数理(関数, function)を駆使して玩具をつくります。 具体的には流行りの機械学習(トランスフォーマーなど)も活用していますし、 ハードAIの基盤になるであろう関数型プログラミングも駆使しています。 そのような専門的知識で付加価値をつけた知的玩具を世に出したいです。

その中でも、特に満足のいく知的玩具が完成しました。 それが、Text Transformer - PPL++ (テキストトランスフォーマー - ぴーぴーえるぴーぴー)です。

紹介: テキストトランスフォーマー - PPL++

imagezu
テキストトランスフォーマー(PPL++)はテキストを変換(トランスフォーム)することで、読者がその内容を理解しやすくするツールです。( ※1
文章が難解であればあるほど、その効果が高まるという不思議な性質を持っています。
PPL++は大それた表現かもしれませんが、理解・言語の本質、ヒトの認識様式を突いた技術です。
そのため、2つに忠実であるがゆえに難解とされる文章と特に相性が良いです。
上記の2つは、気づけば単純ですが、非常に味わい深いものです。
(理論的な説明はこちら

PPL++を適用した文章は、おそらくこれまで皆さんが見たことのないものになるでしょう。
最初は玩具のように見えるかもしれませんが、非常に実用的です。
(具体的な製品紹介はこちら

言語のポテンシャルの探求

私たちは、自然言語のポテンシャルをどこまで引き出せるかを探求しています。
現状の文章表示は話し言葉(1次元的)に寄り添う側面があり、読む行為(2次元的)に最適化されていません。
しかし、電子文書であれば自由に表示を改変できます。
現時点での最適解はPPL++ですが、これをさらに進化させる、もしくは全く異なる方向で改変する可能性もあります。
逆に、表示を最適化するために硬直化している文法を見直すことも興味深いと思います。
これにより、より正確な表現や抽象的な概念を扱う進化が期待できます。
2024年現在、ChatGPTのような対話型AIが全盛を迎えています。
抽象度の高い質問にも的確な答えが返ってくることに驚いています。
その要因の一つは、トレーニングデータである「言語」自体が既に一定の理を持っていたことにあると考えられます。
より正確な表現や抽象的な概念を扱う方向性での言語の進化を通じて、AIも進化するはずです。
また、読み解くのが難解であるために書かれることが少ない、つまりトレーニングデータが不足している領域も存在します。
PPL++を用いることで、そのような難解な文章の読み解きを容易にし、トレーニングデータを増やすことが可能です。
言語を拡張することで、知を獲得する手段も拡張できると信じています。
以上、よろしくお願いします。

所属

名古屋商工会議所ナゴヤイノベーターズガレージ名古屋市、中部経済連合会)、言語処理学会、会員)

構成員(Member)

いしかわたいち

石川 多一

経歴

京都大学法学部名古屋大学工学部物理工学科工学研究科(原子核工学専攻)を卒業後、長野の半導体部品製造メーカー(新光電気工業株式会社)にてプロセス開発、法務・知的財産(特許)、設備開発に従事しました。2022年1月に関数型玩具製作所として独立し現在に至ります。

興味

温泉、散歩、瞑想
長野、名古屋、京都
ヨーガ、ラテン語
JavaScript、Python、Haskell
型理論と論理、機械学習(Transformer、GNN)

開発の経緯

私はこれまで、さまざまな難解な文章に挑戦し、挫折を繰り返してきました。
大学時代には哲学書に挑戦しましたが、難しい単語の羅列に圧倒され、読み進めることができませんでした。
ロースクールを志した(専攻は民事法)こともありましたが、同様に難しい単語に辟易してしまいました。
その後、技術路線のキャリアを選び(パイを奪い合うのではなくパイを増やす仕事がしたい)、本業である工学(原子力、核融合がやりたかった)や エンジニアリングの分野ではそれなりの成果を収めることができました。
しかし、教養として数学や理論物理を学ぼうとしたとき、数式や一時的な記号、専門用語が頭に入らず、文献を読むのが困難でした。
さらに、縁があって長野の半導体部品関連(一例だと自作PCでCPUを換装した人向けだと、あれの緑の基板の部分)の会社に就職し、 法務・知的財産部門で仕事をする中で、またしても難解な文章に出会いました。
それは契約書や法令、特許文書でした。
しかし、哲学や法学、数学とは異なり、特許文書にはそれを攻略するための武器が既に存在していました。
このサイトで紹介している「多色ハイライト」です。 以下の図の左側が特許業界での多色ハイライトの例であり、右側はPPL++の例です。
(開発者としては、左から右への進化を感じてほしいです)

imagezu


特許文書は特許検索の文脈で読まれることが多く、その際には検索単語ごとに色を変えてハイライトします。
例えば、上の図では「グラフ」や「ニューラルネットワーク」が検索単語で、「第」や「章」、「数字」は特許文献で頻出の情報として予め登録し、ハイライトする文化があります。
このように、単語ハイライトの本来の機能は文献中のどこに検索語が存在するかを分かりやすくするためのものです。

ただし、同じものが同じ色になり、違うものは違う色になっている状態は、普段とは異なる読み方を可能にしました。
私はこれまで苦戦してきた文書にも、この多色ハイライトを使えないかと考えました。( ※2)

そこで、会社の業務とは切り離し(職務発明とならないように)、副業的に3年間開発を続けてきました(副業禁止だったので副業的の「的」が大事ですね。。)。
しかし、もっと時間をかけて本格的に取り組みたいと思い、会社を辞めて独立しました。

独立したものの、最初は動くプロトタイプもなく、顧客もおらず、プロトタイプを完成させるための技術も不足していました。
現状では、多くの方々の協力もあり、3年かかりましたがプロトタイプは完成し、課題も克服しました。
冒頭で苦戦していた文書も、今では楽に読めるようになっています。

例えば、機械学習の教科書や論文、Webでの技術的な記事、装置の説明書やライブラリの説明文などに適用しており、本当に読みやすくなりました。
ただし、私がメインターゲットとしていた学生時代の自分のユースケースでの検証はまだできていません。
最近では、知識を吸収するフェーズから、その知識を活用するフェーズに移っているため、昔のような貪欲な姿勢は薄れているのが現状です。
この技術を使って本をガシガシ読めた、劇的にこれが切り札だったと言い切れないのが正直なところです(嘘は言いたくありません)。
図書館の本棚を見ても、すべての本を読もうという感情は薄れています。
おそらく、昔の私であれば喜んでこれを武器にしていたと思いますが、それは想定に過ぎません (追記:日本語のドキュメントでそれ系の書物が電子化されておらずPPL++が適用できないから、という可能性も見えてきました( ※4))。

もちろん、本ホームページで説明しているように、 この技術が言語・理解の本質、認識の本質に立脚した正統な技術であるという確信は変わりません。

これからは、自分以外の人にもこの技術が効果を発揮するかどうかを確かめたいと考えています。
もし効果があるなら、この技術を普及させ、社会に貢献したいと思います。
従来の読書法が対応できないような難解な文章に効く技術であり、科学技術の進歩にも大きく貢献できるはずです。

この技術は、ChatGPTのように正確性を優先し、冗長性を厭わない文章にも相性が良いです。
今後はAIに教育を受ける機会が増えるでしょうが、私自身も多くの時間をAIからの教育に割いています。
その際には、この技術を適用して楽に会話しています。

さまざまなシーンで役に立つことが期待されますが、特に知識を貪欲に吸収するフェーズにある人々の助けになれば嬉しいです。
この開発は、そこからスタートしています。