データベース と ビックデータ

■半世紀の体形データベース

当社の研究所の設立は1964年。最初に行った業務が日本女性の体形計測で、以降半世紀以上日本女性の体形の計測をし続けてきている。毎年1,000人程度の計測をしており、延べで4万件を超すデータを持っている。それに、日常でとっているデータを合わせると結構膨大な数になる。ただし、日常でとっているデータは必ずしも構造化され、定型化された項目を計測しているわけでないので、記録といった方が正しいかもしれない。

■記録とデータベース

記録とデータベースの違いは、構造化されて蓄積されているかどうかだと思う。例えば蝶の研究者が、南米に調査にいって様々な蝶のメモを取ってきたとする。もしこれをデジタル化したとする。これは記録と呼ぶべきか、データベースと呼んでよいかについて考えてみる。たいていの場合、研究者の記録には蝶のスケッチ図や羽の数、色、触覚の長さなどの特性が記録されていると思う。こうした特性が定型化可能ならデータベースと呼んでよいのではないだろうか?

■ビックデータと構造化

記録とデータベースの違いは、構造化されているかと考えた。では、最近流行のビックデータとは何か?ネットで調べてもいまいち要領を得ない感じであったので勝手に私的な解釈をすることにすると、ビックデータとは「デジタル化されているが構造化されていない膨大な記録集」なんではないかという事。私たちはこれを元に学習や統計解析によって「そこに構造を見出す」事をしようとしているのではないか? だからこそ、最近のAI等の技術と同時発生的に流行しているのではないだろうか
実は、データベース化されていない(=構造化されていない)当社の日常の活動記録は膨大にある。研究所の活動もそうであり、それらをうまく構造化してやれば、いろんな知恵が出てくるのではないかと思う。

人間科学研究所 所長