もう一つの「リンクト・オープン・データ」〜Embedded Linked Open Data (ELOD)
プレインテキストに埋め込まれたデータを機械で抽出して再利用するLOD推進アプローチを、Embedded Linked Open Data (ELOD) と呼んでいきたい。例えば、
- Markdownのようなプレインテキスト記法を拡張する。
- 自然言語解析・推論によってデータを抽出する。
など。いずれにせよ業務に負荷をかけることなくLODを推進していきたい。そういうコンセプトです。
→プレインテキストからRDFを自動生成する手法の研究開発 on 日本語Markdownユーザー会の活動計画 | Trello
ちなみに、現在主流の「オープンデータ」のアプローチは、あらかじめ構造化されたデータをマシンリーダブルなフォーマットで公開していくアプローチですね。すでにWeb-DBシステム化されているなら、こちらが早い。
Web-DBシステムは基本的に「データベースから取り出したデータを、HTMLテンプレートに展開する」という仕組みになっている。RDF出力をしたければ、新たにXMLテンプレート等を追加するだけでよく、改修費用が安い。前提として、
- そもそもデータ中心的な業務フローになっている必要がある。
- Web-DBシステムを運用している組織は、実際にそうなっている。
そういう前提があってこそ有効なアプローチ。逆に言うと、データ中心的な業務フローが確立してない現場では、「そもそもデータベースを導入するところから」になったりするので、とても遠回り。
だったら、「すでに文書(テキスト)として公開している情報」を Embedded Linked Open Data (ELOD) 化していくほうが、近道でしょうと。