盲人用カメラ

IEEE SpectrumのSight for Sore Earsは小型カメラを使う盲人用視覚ガイドを開発したオランダの会社の話し。64×64ピクセルの白黒画像データを音に変換する。今のところはこんなヘルメット型だが、これを携帯電話のカメラや、メガネにつけた超小型カメラなどにしたい、とのこと。

仕組みはこんな感じになっている。

Once per second, the computer scans a 64-by-64-pixel frame from left to right, one column at a time. Each pixel in a column produces a wave whose frequency indicates its position; the highest frequencies are at the top. Amplitude is based on the brightness of the pixel on a 16-tone gray scale. The brightest pixels produce waves with the highest peaks; black pixels, assigned amplitudes of zero, produce no waves.

So if 30 pixels in a column are black, only 34 of the 64 frequencies will be represented. Frequency is then translated into pitch and amplitude into volume; what a listener hears is a musical chord—admittedly a rather dissonant one—of up to 64 notes.

Once data has been extracted from the 64th column, the system grabs and digitizes a new video frame. In the 20 milliseconds between the end of the tones from the last column of one frame and the beginning notes of the next, the system generates an audible click that helps orient the listener.

ピクセル数は縦64コマ、横64コマだが、これを縦長の64本の柱と考える。一本の柱に付き、一番下のピクセルが一番低い音、一番上を高い音とすると64の音のキーが当てられる。さらに、それぞれのピクセルの明るさを4段階に分類、それに応じて音量を変える。黒だったら音量0で音なし。明るいと大きい音。一つの柱ごとに64音の和音を鳴らし、左の柱から右の柱まで全64本を1秒の間に次々に流す。

The bit rate that each ear can accommodate is about 15 kB/s. A camera that captures 24-bit color VGA (640-by-480-pixel) images at, say, 25 frames per second produces more than 180 MB/s. This is 6000 times faster than the structures in the ears can vibrate in response to sound waves. But by limiting each image to 4096 pixels (instead of the 300 000 in a VGA image), with four bits per pixel (rather than 24 or more), and scanning to a single frame per second, the Dutch researcher was able to get the bit rate down to just over 16 kB/s.

人間の耳が聞き取れる情報量は1秒当たり15kBということで、64ピクセル×64ピクセル×一つのピクセルあたり4段階の音量=16,384Bの情報量は、ほぼ人間の耳で処理できる。ピアノで言えば、半音も入れると1オクターブ12の音があるから、64音は5オクターブ以上。しかもそれぞれのキーの強さが4段階違うわけで、それを1秒に64回も聞かなければならない。イメージ的には、ファックスのピー、という音を1秒に64回聞くみたいな感じであろう。

これでしばらく訓練すると、目の前にあるものがどんな形かが直感的に理解できるようになる、というのである。いや人間ってすごいことができるんですね。

さらに驚くべきは最後の一文のテストユーザーコメント。
She noted that over time, as she grew more accustomed to the system’s drone, her recognition of objects around her home improved dramatically. And in a development that was a surprise to even Meijer (開発者)and his colleagues, she reported experiencing gradual development of depth perception

な、なんと奥行きがわかるようになったというのだ。それは理論的に不可能のはず。元の画像情報は2次元だ。人間に奥行きがわかるのは、目が二つあって、対象物から目の各々に達するまでの差を読んでいるから。普通のカメラ一つで読み取った情報が3次元になるはずがない。

「奥行き情報がわかるような気がするようになった」という錯覚だったらわかる。それだったら、片目で景色を見ても、奥行きがあるような気がするのと一緒。(しかし、実際には奥行きは見えていない。片目で遠くのカップにコーヒーを注ごうとすれば、まずこぼすと思います。)

しかし、これは神経学の本ではなくIEEEの雑誌ゆえ、ここで記事は終わり、後は私が頭をかきむしるばかり。

盲人用カメラ」への3件のフィードバック

  1. 聞きかじりですが、奥行きの知覚は複合的なもので、
    両眼視差はいくつかある知覚のひとつに過ぎないのでは
    ありませんでしたっけ。片目でも、水晶体の焦点を合わせ
    なければならないため、(両眼視差ほど正確ではないにせよ)
    奥行きが知覚できます。また、頭の動きに伴う映像の変化も
    重要だと思います。さらに、日常見慣れているものとの
    比較なんかも。
    いわゆるステレオ画像は両眼視差で奥行きを知覚させていますが、
    焦点距離等、他の知覚がついてこないので、疲れやすい
    とか聞いた覚えもあります。ソースが思い出せないのですが。

    いいね

  2. 最近頭を使っていなかった、あるいは使っていてもダメな方向に使っていた ので、今回はまじめに。渡辺千賀氏のblogに掲載されていた盲人用カメラの話ですよ。

    最近頭を使っていなかった、あるいは使っていてもダメな方向に使っていた ので、今回はまじめに。渡辺千賀氏のblogに掲載されていた盲人用カメラの話ですよ。

    いいね

  3. いつも楽しく日記を拝見させてもらっております。
    デザインやアイデアを通じて、より多くの人が幸せになれるって素晴らしいことだとおもいます。
    テクノロジーの進歩は、多くの分野に波及して、その可能性を大きく広げてくれました。ここベイエリアからも新しい可能性が生まれるよう日々努力ですね

    いいね

junsaito への返信 コメントをキャンセル