AIの言語能力はかなり人間ぽくなり、全体的にも知能っぽく見えるようになった。あと不足してるのは?

ご多分にもれず、GPTで遊んでいる。Notion AIは10ドル課金で記事を書いたし、ChatGPTは20ドル課金のProアカでGPT-4を使ってる。

Notion AIのお気に入りの使い方は:

  1. まず書きたいことについてテーマを決め、AIに記事を書いてもらう
  2. きわめてつまらない一般論が出力される
  3. 気に入らないので反論して記事の方向を変えた上で「続きを書く」を押して補わせる
  4. なにがなんでも一般論にしようとするAIちゃん
  5. 繰り返す
  6. 自分の言いたいことが見えたところで、AIの書いた一般論をサカナに言いたいことを書くように編集する

という書き方。ブレインストーミング機能もちょっと面白い。

ChatGPTは、

  • なんでも相談する
  • 出てきた答えに疑問や不満を述べてアドバイスを更新させる

みたいな遊びをしてて、手順を見るとまるで人生相談だけど、この方法でプログラムを書かせることで画像を出力したりしてる。

これはGPT-4ちゃんが書いた『我が子を食らうサトゥルヌス』。

画像生成モデルを使わずにAIで作図したいなー、と思い、テキスト生成型のLLNって要するにUNIXが画像を取り扱うように処理すればいいんだよね、と考えて、「これから『〜を作図して』って言ったらPythonのPILで作図するようにしてください」と言ってから作図させたやつ。ChatGPTってプログラムで実現できることは何でもできると思っていいよね。

さて。GPTで遊んでると、かなり人間ぽくて、常に控えて自分から何も言ってこないのがきわめて不自然なことのように思えてくる。こちらの感覚的に言うと、ものごとに対する「感じ方」や、入力に対する出力の様子がとても人間ぽいので、出力をもたらす「入力」が自発的に起きないというか、遮断されてるように感じて気持ち悪い。

こいつらは人間と何が違うのか。オレらは自分の内発性をもたらしてる「入力」を「意識」と呼んでいて、これがGPTちゃんには欠けてると感じられる。

しかし、そもそも意識って何なんだろうね。さまざまな動物を見ていると、大きさによって意識があるように見えるものと見えないものが分かれる。犬はもちろん意識がある。ネコにもある。ネズミサイズになるとかなり自動的に動いてる感じがしてくるけど、危険の性質に応じた行動の変化などがあまり自動的(神経的)に見えず、意識による判断をしている感じがする。これに対してミドリムシとか、ヒラムシとか、カタツムリとか、ミミズとかは自動的に見える。体の規模や中枢神経細胞の規模が大きくなることで芽生えている感じがする。

なので、生物屋とコンピュータ屋を兼ねた目で見る限り、意識とは感覚入力を統合する神経機能にすぎず、内発性とは感覚入力の連続によって生まれるものに過ぎないのではないか、という気持ちがある。意識を得るには身体性を獲得する必要があるのではないか。

そんなことを思ってるときにこれを読んだ。

scrapbox.io

ここで身体性がどういう文脈で考えられているのかわからないんだけど、カシコな人たちはとっくに研究まで始めてるんやなあ…と思った。

他にもまだ「本質的な違い」があるのかもしれないけど、とりあえず身体性を付与してみたいよねえ。

身体は欲求する。望ましい入力(味覚における甘い、うまい、体性感覚の心地よいことなど)の増大を望ませ、望ましくない入力(痛いとか暑いとか不快とか)を避けようとさせる。

こうした「望ましさ」でタグつけした神経ストリームに連続的にさらしたときに、これを統合する意識が生まれるのかどうか。

あと気になるのが、学習データとしての感覚入力。

むかしオレらが系統分類学研究で種分化の解析に使ってた主成分分析(多変量解析)は、2つの集団のさまざまな形質の計測データをいろんな方向から検討し、何が両者の違いに大きく貢献しているかがわかるように見せてくれた。

これとディープラーニングは感覚的にはずいぶん似てるんだけど、多変量解析は実のところ「違いを見分ける眼を養うこと」を、ディープラーニングは「違いを見分けることそのもの」を目的とするところが大きく違う。もちろん、内部の数学もぜんぜん違う。

しかしディープラーニングを種同定に役立てられないかなあという感覚はやっぱりある。ある生き物の特徴が一番出やすいのは動画だけど、これをディープラーニングに掛けられるほど大量に集めるのは大変そう。すると次善の策としては静止画だけど、これもどうなんすかね…。人間のエキスパートなみに見分けられるほどのデータが集まる感じがしない。

人間は五感で常に学習データをリアルタイムアップデートしてるのがたいへんよろしくて、エキスパート化するのがきわめて速い。

ただしこのデータは個体間でまったく共有できず、言語等のきわめて不完全な伝達手段で特徴量を伝えるのみ。ここはデジタルコンピュータの方が圧倒的に強そうで、みんなが能動収集ロボを連れて歩けば、急速に良いデータが集積できる感じがする。

ここではロボって書いたけど、五感のすべてを記録するために人間型を想定しただけで、視聴覚だけなら常時録画するだけのメガネデバイスとかでもいいよね。これなら実現しやすそう。*1

GPTで遊んでるだけでメチャメチャ妄想が広がりますな。

*1:個人の人生に渡る視聴覚データを蓄積したニューラルネットワークは個人の人格そのものになりそうだ。しかし逆に、神経細胞で実現されている人格と意識そのものはコピーできそうにない実感がある。われわれが永遠に生きるのに「デジタル世界に引っ越す」ってのはけっきょく無理で、ポンコツな肉体をがんばってメンテナンスするしかなさそうである。