Subscribed unsubscribe Subscribe Subscribe

石橋秀仁(zerobase)書き散らす

まじめなブログは別にあります→ja.ishibashihideto.net

もう一つの「リンクト・オープン・データ」〜Embedded Linked Open Data (ELOD)

プレインテキストに埋め込まれたデータを機械で抽出して再利用するLOD推進アプローチを、Embedded Linked Open Data (ELOD) と呼んでいきたい。例えば、

  1. Markdownのようなプレインテキスト記法を拡張する。
  2. 自然言語解析・推論によってデータを抽出する。

など。いずれにせよ業務に負荷をかけることなくLODを推進していきたい。そういうコンセプトです。

プレインテキストからRDFを自動生成する手法の研究開発 on 日本語Markdownユーザー会の活動計画 | Trello

ちなみに、現在主流の「オープンデータ」のアプローチは、あらかじめ構造化されたデータをマシンリーダブルなフォーマットで公開していくアプローチですね。すでにWeb-DBシステム化されているなら、こちらが早い。

Web-DBシステムは基本的に「データベースから取り出したデータを、HTMLテンプレートに展開する」という仕組みになっている。RDF出力をしたければ、新たにXMLテンプレート等を追加するだけでよく、改修費用が安い。前提として、

  • そもそもデータ中心的な業務フローになっている必要がある。
  • Web-DBシステムを運用している組織は、実際にそうなっている。

そういう前提があってこそ有効なアプローチ。逆に言うと、データ中心的な業務フローが確立してない現場では、「そもそもデータベースを導入するところから」になったりするので、とても遠回り。

だったら、「すでに文書(テキスト)として公開している情報」を Embedded Linked Open Data (ELOD) 化していくほうが、近道でしょうと。