MarkLogic Semaphore データと AI

R&D ナレッジと AI コンテキストエンジニアリング

投稿者: Fan Li 投稿日: 2025年10月17

ChatGPT は R&D にどのように貢献できるのでしょうか？筆者は、記録を蓄積することで R&D を有意義に支援できると考えます。

R&D において最も価値のある資産は、組織がすでに持っている知識です。研究ノート、レポート、プレゼンテーション、データセットの一つ一つが、組織の記憶の一部分であり、膨大な量のナレッジベースを構成します。何が試され、何がうまくいき、何が失敗したか、そしてその理由は何だったか、などといった詳細な断片が蓄積されています。多くの一般的な業務記録とは異なり、こうした知識は長期にわたって価値を持ち続けます。新たな発見のヒントになり、知的財産の権利化に寄与し、過去にあった同じ失敗を繰り返さないようにすることにもつながります。

筆者はこの教訓を、デュポンでの最初のプロジェクトで身をもって学びました。それは最先端の材料科学に関する MIT との共同研究でした。この研究において、スタートを大きく後押ししてくれたのは、約80年前に作成された社内報告書でした。そこには、ほぼ1世紀前に行われた、驚くほど関連性の高い研究の詳細が記されていたのです。

AI による貢献は、単に巧みなプロンプトを書くことだけではありません。重要なのは「コンテキストエンジニアリング」です。コンテキストエンジニアリングは、モデルを取り巻く情報エコシステム全体 (何を、いつ、どのような形式で、といったことを含めた全体) を設計することに焦点を当てた新しい分野です。これにより、ChatGPT のようなモデルが、実際の業務に即した専門的なタスクを、信頼性高く実行できるようになります。R&D においては、数十年分に及ぶ技術知識を、AI が理解し活用できる形で利用可能にすることを意味します。

ですが、R&D における過去の知識は、非常に多様であることで知られています。スプレッドシートやデータベースに保存されているものもありますが、報告書、スライド資料、あるいは紙の研究ノートの中に埋もれているものの方がはるかに多いと思われます。また、用語も急速に変化します。例えば、かつて MSDS (Material Safety Data Sheet) と呼ばれていたものは、現在では単に SDS (Safety Data Sheet) です。さらに、重要な前提条件や背景情報は文書化されないまま暗黙知として扱われたり、担当者の異動や退職とともに失われたりすることも少なくありません。

機密性の高い情報は厳格なアクセスコントロールによって保護されなければならない一方で、関連する知識は分野、地域、そして世代を超えて共有される必要がある、といった R&D 特有の事情もあります。

AI が R&D にとって意味のある信頼できる回答を提供するためには、こうした記録の蓄積を「コンテキスト」として設計することが不可欠になります。すなわち、モデルが必要とする形で、必要なタイミングに、正確に参照できるよう、情報をインデックス化し、関連付け、可視化する必要があります。そのすべてを、組織の知的財産を確実に保護しながら実現しなければなりません。これこそが、R&D における AI コンテキストエンジニアリングの本質です。あらゆる問い合わせに対して、組織の記憶の中から適切な一部分を選び出し、整理し、提供することです。

これを実現するには、単にモデルを導入するだけでは不十分であり、次の4つの中核的な機能を備えた基盤プラットフォームが求められます。

1. 柔軟性とマルチモダリティ

効果的な AI コンテキストエンジニアリングは、本質的に多様な R&D データを収集、整理することから始まります。データは、構造化されたデータシート、非構造化ドキュメント、スキャンされたノート、画像、動画、分析スペクトルなどに至るまで幅広く存在します。R&D データは、形式が多様であるだけでなく、材料、手法、技術の進展に伴って、動的で常に進化し続けるという特性も備えています。

AI による検索や活用に適したコンテキストを構築するには、形式や生成された場所を問わず、これらすべての情報を保存できることが不可欠です。最初から過度な標準化を行うのではなく、データをネイティブ形式のまま取り込み、時間をかけて段階的に整合、統合していけるシステムを採用する方が、より合理的です。このアプローチにより、高い柔軟性が確保され、サイロ化したシステム間の統合が促進されるとともに、既存の R&D ワークフローを妨げることなく、継続的な適応が可能になります。

プログレスの MarkLogic プラットフォームは、構造化データ、非構造化データ、バイナリデータを並列に扱えるマルチモデルアーキテクチャを使用しており、このアプローチに適合します。R&D 部門にとって有意義な手法であり、多様な情報を単一の AI 対応環境に集約し、効果的に活用することができます。

2. セマンティックレイヤと段階的なデータエンリッチメント

既存のシステムを大きく刷新することなく、多様な R&D データを意味のある、かつ実行可能な情報へと変換するための手法として、セマンティックレイヤの適用が考えられます。生データの上位に位置するセマンティックレイヤは、情報の形式だけでなく、その「意味」をシステムが解釈できるようにします。概念同士を関連付け、用語を標準化し、文脈的な関係性を付与することで、AI が分散したデータ同士のつながりを理解できるようにします。

例えば、「EtOAc」と「酢酸エチル」が同一の物質を指していることを明確にしたり、ある研究で言及されている触媒が、別の研究で記述されている反応経路と機能的に関連していることを示したりすることができます。こうした関連付けは、しばしば失われたり、暗黙の前提として扱われがちな重要なコンテキストを回復するのに役立ちます。

プログレスの Semaphore プラットフォームは、このアプローチをとり、ドメインオントロジーの管理、用語の整合、セマンティックメタデータによるコンテンツのエンリッチメントを行うためのフレームワークを提供します。分断されたデータを AI の文脈理解に適した機械可読なナレッジグラフへと変換することが可能です。

3. 強固なセキュリティときめ細かなアクセスコントロール

R&D ナレッジは価値が高いだけでなく、知的財産の保護、規制遵守、競合との優位性確保といった観点から極めて機密性の高い情報です。そのため、データプラットフォームには、必要最小限のアクセスを原則とするポリシーに沿った厳格なアクセス境界の適用が求められます。

効果的なアクセス管理には、ドキュメント、セクション、フィールド、メタデータといった粒度でのきめ細かなアクセスコントロールが不可欠です。きめ細かいアクセスコントロールを実施することで、機密性の高い知的財産を保護し、意図しない情報漏えいを防止しつつ、データの共有や再利用を促進するための広範なアクセスを両立させることができます。

MarkLogic は、こうした要件を前提に設計されています。ロールベースのアクセス制御、マスキング（レダクション）、区画レベルの保護をサポートするセキュリティモデルは、高度に規制されたミッションクリティカルな環境で実績を重ねてきました。MarkLogic を導入することで、安全性と責任を確保したイノベーションを推進しながら、AI ソリューションを効果的に展開することが可能になります。

4. 情報の検索と再利用

AI を利用する目的は、単にデータを見つけることではなく、過去の研究や成果に基づいて的確な回答を得ることにあります。真の科学的探究を支援するためには、検索はキーワードマッチングをはるかに超える必要があります。ユーザーの意図を理解し、関連する科学的背景を取り込み、意味のある回答を導くために最適なコンテキストが何かを判断できなければなりません。

これを実現するには、柔軟でマルチモーダルなクエリ機能が求められます。場合によっては全文検索が適している一方で、SQL クエリ、セマンティック推論、ベクトル類似検索が必要となるケースもあります。多くの場合、適切なコンテキストを収集、構築するためには、これらすべてを組み合わせたアプローチが必要になります。

これこそが、MarkLogic プラットフォームの強みです。最先端の全文検索、リレーショナルインデックス、セマンティックグラフ、そしてベクトル類似検索を単一のプラットフォーム上で提供します。Optic API 機能を活用し、これらのクエリタイプを組み合わせて、単一のインターフェースから複雑な混合モードの検索戦略を実現できます。この柔軟性は、実際の R&D 環境における検索パイプライン構築の基盤となります。

最後に

R&D 組織は、何十年にもわたって蓄積された極めて貴重な知識を保有しています。しかし、その膨大な記録を生産的な AI 支援システムへと変換するには、コンテキストエンジニアリングが不可欠です。すなわち、多様で機密性が高く、複雑な科学情報を、AI が理解し活用できる構造化された意味のあるコンテキストへと変換するシステムを、意図的に設計することが求められます。

AI が実験段階から本番運用へと移行する中で、R&D の未来を切り拓くのは、単により良い質問を投げかける組織ではなく、より良いコンテキストを提供できるシステムを構築する組織です。

Fan Li

15年以上にわたる経験を持つ Fan は、フォーチュン500に名を連ねる化学・バイオテクノロジー企業向けに、高度なセキュリティを備えたエンタープライズレベルの R&D 向け AI／デジタルソリューションの設計・構築・運用を手がけてきました。研究者と IT 専門家の双方の言語を理解し、幅広い専門知識を生かして研究とテクノロジーの橋渡しを行っています。特に生成 AI をはじめとする最新の IT 技術を活用し、業務効率の向上、ナレッジへのアクセス改善、そしてイノベーションの創出を支援しています。

著者が作成したブログ