第76話 ― データベースとアルゴリズム

第IV部第12章「編集・並列化」を続けます。前話まで、印刷・出版・図書館・索引・百科事典という、人類が情報を編集し並列化してきた仕組みを辿ってきました。本話で扱うのは、その作業を機械が自動で行うようになった現代の形――データベースとアルゴリズムです。

物語の出発点は、1970年6月、米国計算機学会の機関誌『Communications of the ACM』第13巻に掲載された一篇の論文でした。「A Relational Model of Data for Large Shared Data Banks」。著者はIBM研究所サンノゼ研究センターの英国人研究者エドガー・コッド（Edgar F. Codd, 1923-2003）。彼が提案したのは、データを行と列の表（リレーション）として捉え、表同士を演算（リレーショナル代数）で結合・選択・射影する仕組みでした。

コッド以前、データはツリー構造（階層型）やグラフ構造（ネットワーク型）として、特定のアプリケーションに紐付いた形で保管されていました。コッドは、データをアプリケーションから切り離し、表という抽象形式に還元することで、誰でも同じデータを別の目的で使い回せる構造を発明したのです。1970年代後半にはIBMで実験的データベースSystem Rが開発され、その問い合わせ言語SEQUEL（後のSQL）が国際標準化されます。1979年にOracle、1995年にMySQL、1996年にPostgreSQLが登場し、リレーショナルデータベースは世界中の業務システムを支える共通基盤になりました。

メディア理論家レフ・マノヴィッチ（1960-）は、2001年の著作『The Language of New Media』（MIT Press、邦訳『ニューメディアの言語』みすず書房 2013、堀潤之訳）で、より射程の広い命題を提示します。「データベースは、現代における新しい文化形式である」。19世紀の小説が線形の物語形式を文化の中心に据えたように、21世紀の文化はデータベース形式――項目の集合と検索による任意の組み立て――を中心に据える、と彼は論じました。Wikipedia、Google検索、Spotify、Netflix、Instagram。私たちがいま日常的に触れる文化体験の多くは、データベースから動的に組み立てられています。

データベースが編集の自動化だとすれば、もう一方の柱、アルゴリズムは並列化の自動化です。ドナルド・クヌース（1938-）が1968年から書き継いでいる『The Art of Computer Programming』全7巻計画は、検索・整列・組合せ論を形式的に体系化した記念碑的著作で、現在も執筆が続いています。1998年、スタンフォード大学院生だったセルゲイ・ブリン（1973-）とラリー・ペイジ（1973-）は、論文「The Anatomy of a Large-Scale Hypertextual Web Search Engine」でPageRankを提案します。Webページ間のリンク構造を民主的投票として解釈し、重要度を再帰的に計算する。これがGoogleとなり、世界の知の入り口を握りました。

しかし、データ数学者キャシー・オニール（1968-）は2016年の著作『Weapons of Math Destruction』（Crown、邦訳『あなたを支配し、社会を破壊する、AI・ビッグデータの罠』インターシフト 2018、久保尚子訳）で警鐘を鳴らします。信用スコア、再犯予測、教員評価、求人選考、保険料率――不透明で大規模で破壊的な数学モデルが、特に弱者を不可視のうちに排除している、と。

データベースは編集を、アルゴリズムは並列化を、自動化しました。しかしそこに誰の問いを刻むかは、依然として人間の選択です。

FOR MANAGEMENT 経営学的に読み解きたいあなたへ ▾

データベースとアルゴリズムを経営の文脈で読み直すと、3つの実用視点が立ち上がります。

第一に、自社の「データ資産」の整理。多くの中堅企業は、顧客情報・販売履歴・契約・在庫・会計・人事評価といったデータを、Excelファイルや個別のSaaSにバラバラに抱えています。コッドのリレーショナルモデルが教えるのは、データは用途から切り離して整理した瞬間に、別の用途にも使える資産になるという事実です。CRM、ERP、データウェアハウス（BigQuery、Snowflakeなど）への統合は、短期では負担に見えますが、中長期の意思決定速度と新規事業の発想力を決定的に左右します。

第二に、「アルゴリズムによる意思決定」の境界設計。採用書類のスクリーニング、与信判断、価格設定、推薦リスト、業績評価など、機械的な並列化が向いている領域は数多くあります。一方で、オニールが指摘するように、説明できないアルゴリズムは、組織の信頼を一度に毀損します。アルゴリズムが下す判断には、必ず人間が説明できるロジックを残し、不当な扱いを受けたと感じた人が異議申し立てできる経路を設計する。これは経営倫理の問題であると同時に、レピュテーションリスク管理の問題でもあります。

第三に、「データベース文化形式」の自社への応用。マノヴィッチが指摘した通り、現代の文化体験はデータベースから動的に組み立てられます。自社のWebサイト、商品カタログ、ナレッジベース、社内資料を、検索可能で、組み合わせ可能な、項目の集合として再設計するだけで、顧客体験と社員生産性は劇的に向上します。一品物のページを量産するよりも、データベース駆動で動的に生成する設計のほうが、長期の更新コストも下がります。

データを資産にし、判断にロジックの足跡を残す。それが現代の編集と並列化です。

FOR ACADEMIA 学術的に読み解きたいあなたへ ▾

2. 異分野からの発展的視点 ― ブリンとペイジが学生時代に書いた「PageRank」

1990年代後半、Web検索エンジンは検索語の出現回数で結果を順位づけていましたが、その方式では権威ある論文と無価値なスパムが同列に並んでしまいます。1998年、米スタンフォード大学博士課程のセルゲイ・ブリン（Sergey Brin）とラリー・ペイジ（Larry Page）は、論文「The Anatomy of a Large-Scale Hypertextual Web Search Engine」を発表し、この問題に答えを出しました（*Computer Networks* 30巻, 107-117頁）。

彼らのアイデアは、学術論文の世界からのアナロジーです。論文の重要性は「他のどれだけ重要な論文に引用されているか」で決まる ―― この再帰的な定義をWebに適用したのが「PageRank」でした。数学的にはWebリンク・グラフの主固有ベクトルを計算する操作で、ランダムサーファーがリンクをたどってWebを歩き回るときの定常分布に対応します。これは19世紀の数学者マルコフが研究したマルコフ連鎖の定常分布そのものでした。減衰係数d=0.85の選択により、サーファーは平均約6.7クリックでリンクを離れる ―― ミルグラムの六次の隔たりに数学的に呼応する数値です。

コッドのリレーショナル・モデルが「データを表として並べる」発明だったとすれば、ブリン＆ペイジは「ネットワーク構造を主固有ベクトルとして並べる」発明をもたらしました。編集と並列化の数理は、世界の見え方を、いまも静かに書き換え続けています。

QUESTION FOR NEXT — 次号への問い

次回は「編集・並列化のかたち ― 第12章のまとめ」をお届けします。

NEXT EPISODE 第77話「編集・並列化のかたち ― 第12章のまとめ」第77話を読む →

データベースとアルゴリズム

2. 異分野からの発展的視点 ― ブリンとペイジが学生時代に書いた「PageRank」

新しい話の公開を、まずメールで。