Lexical Markup Framework
LMF (Lexical Markup Framework) は、自然言語処理用の辞書や機械可読辞書を表現するために ISO/TC37により規定された国際標準 (ISO 24613:2008) である。多言語コミュニケーションや文化の多様性といった文脈において、言語資源に関する原理や方法論を標準化することがそのスコープである。
LMFの目的
[編集]LMFの目標は、語彙に関する言語資源 (語彙資源) の作成や利用に関する共通的なモデルを提供することである。これにより、語彙資源の間でのデータの交換や、多数の電子的な資源のマージが可能となる。
LMFは、単言語、二言語、多言語の具体的な語彙資源を扱うが、語彙資源の規模、複雑さ、文字言語・音声言語の別を問わず、同じ仕様が適用される。LMFの規定は、形態論的情報、意味論的情報からコンピュータによる翻訳支援に及ぶ。また、カバーされる言語は西欧系の言語に限らず、全ての自然言語である。さらに、ターゲットとする自然言語処理の応用の種別に限定されることもない。LMFによって、WordNet、EDR、PAROLEといった多くの既存の語彙資源や辞書を表現することが可能である。
LMFの歴史
[編集]語彙資源や辞書の標準化は、GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE, ISLE といった一連のプロジェクトにおいて研究開発されてきた。これらの経緯や蓄積を踏まえ、ISO/TC37の各国代表は、自然言語処理用の辞書に関する標準を定めることとした。LMFの制定作業は、米国代表により2003年の夏に提示された提案により開始され、2003年の秋にはフランス代表により自然言語処理用の辞書に関するデータモデルの技術的な提案がなされた。これらの実績に基づき、2004年の前半に開催されたISO/TC37の委員会は、Nicoletta Calzolari (CNR-ILC、イタリア)を議長、Gil Francopoulo (Tagmatica、フランス) と Monte George (ANSI、米国) をエディタとする 標準化プロジェクトを立ち上げることを決定した。
LMFの標準規格開発の最初の段階は、既存の辞書における様々な特徴を調査し、全体的な枠組みをデザインすること、また、これらの辞書における各要素を記述するのに必要な用語体系を定めることに費やされた。次の段階においては、これらの辞書の詳細を最もよく表現する包括的なモデルが定められた。この作業においては、60人に及ぶ多くの専門家が自然言語処理用の辞書の多くのタイプをカバーするために求められるLMFの要求条件の規定に寄与した。LMFのエディタは、これらの専門家グループと密接に協力することにより、LMFの設計に関するコンセンサスを達成した。この過程で特に注意が払われたのは、従来から扱いが困難であるとされてきた諸言語における形態論的な問題を扱うための枠組みの開発であった。LMFのエディタが最終的なUMLモデルにより表された仕様を規定するには 5年の作業期間を要し、この間に多くの対面会議、電子メールの交換が行われた。結果的にLMFは、自然言語処理用の辞書の領域における最新技術を結集したものとなったと言えよう。
標準化の状況
[編集]LMFの仕様は、ISO国際標準24613 として 2008年11月17日に公刊された。
ISO/TC37による国際標準ファミリーの1つとしてのLMF
[編集]ISO/TC37 による国際標準規格は上位レベルの仕様として制定されており、単語分割 (ISO 24614), 言語的注釈 (ISO 24611 別名 MAF, ISO 24612 別名 LAF, ISO 24615 別名 SynAF, and ISO 24617-1 別名 SemAF/Time), 素性構造 (ISO 24610), マルチメディアコンテナ (ISO 24616 別名 MLIF)、および 本ページで説明する LMF (ISO 24613) といった規格からなる。 これらの標準は、データカテゴリ (ISO 12620の改訂)、言語名コード (ISO 639), 文字体系 (ISO 15924), 国名コード (ISO 3166) や ユニコード (ISO 10646)といったより下位レベルの標準を利用している。
このような2レベルの構成は、次のような共通的で単純なルールにより、一貫した国際標準のファミリーを形成する。
- 下位レベルの仕様は、標準化された定数をメタデータとして提供する。
- 上位レベルの仕様は構造的な要素を提供し、これらは下位レベルの標準によって規定される定数を用いることによって詳細化される。
LMFにおいて用いられている重要な標準
[編集]LMFのような上位レベルの標準における構造的な要素を記述するために必要となる /feminine/ や /transitive/ といった言語学的な定数は、LMFによって独自に定義されるのではなく、データカテゴリレジストリ Data Category Registry (DCR) に記録されているものによる。DCRは、ISO/IEC 11179-3:2003 [1] (PDF) に準拠した大域的なリソースとして運用されている。
LMFの仕様は、Object Management Group (OMG)により定義された。 Unified Modeling Language (UML) におけるモデル化の原則に従っている。すなわち、LMFにおける構造はUMLのクラス図により規定され、具体例は、UMLのインスタンス図 (オブジェクト図) により示される。
LMFの仕様書の付録には、XMLによる表現形式のDTDが掲載されている。
モデルの構造
[編集]LMFの構成要素は大きく以下の2つからなる。
- コアパッケージ: 辞書エントリが持つ情報の基本的な階層を記述するための基本的な構造を規定する。
- コアパッケージに対する複数の拡張部: 特定のタイプの語彙資源のために必要となる、コアパッケージ要素に対する付加的な要素を規定する。
LMFの仕様に明示されている拡張部としては、形態論的情報 (Morphology)、および、機械可読辞書 (Machine Readable Dictionary: MRD) に関する拡張部のほか、自然言語処理用の辞書における統語論的情報 (NLP syntax)、意味論 (NLP semantics)、多言語表記法 (NLP multilingual notation), 形態論的パターン (NLP morphological patterns), 複合語表現パターン (NLP multiword expression patterns) を表現するための拡張部が用意されている。さらに共通的に用いられるものとして、制約表現 (Constraint expression) に関する拡張部がある。
簡単な具体例
[編集]以下の例は、clergymanという見出し語に関連する辞書エントリをUMLオブジェクト図により示したものである。この見出し語は、clergyman と clergymen の2つの屈折形 (inflected form) を持つ。当該の語彙資源が対象とする言語名は、クラス Lexicon のインスタンスにある languageという属性 (データカテゴリ) の属性値 (eng) により示されている。この属性値は、Global Informationの language Codingという属性の属性値で指定される ISO 639-3 により規定される。
Lexical Resource、Global Information、Lexicon、Lexical Entry、Lemma、Word Formといった要素は、辞書の構造を規定するものであり、LMF文書内部で規定される。対照的に、languageCoding、 language、partOfSpeech、commonNoun、writtenForm、Grammatical number、singular、plural などはデータカテゴリレジストリにおいて規定されているデータカテゴリである。これらのデータカテゴリを用いて記述を詳細化する。ISO 639-3, clergyman, clergymen といった属性値は単純な文字列であるのに対し、eng という値は、ISO 639-3において規定される言語名のリストによるものである。
以下のXML文書は、上記のUML図と等価なデータを表現している。ただし、このXMLにおいては、dtdVersion や feat のような付加情報も示されている。
<LexicalResource dtdVersion="15">
<GlobalInformation>
<feat att="languageCoding" val="ISO 639-3"/>
</GlobalInformation>
<Lexicon>
<feat att="language" val="eng"/>
<LexicalEntry>
<feat att="partOfSpeech" val="commonNoun"/>
<Lemma>
<feat att="writtenForm" val="clergyman"/>
</Lemma>
<WordForm>
<feat att="writtenForm" val="clergyman"/>
<feat att="grammaticalNumber" val="singular"/>
</WordForm>
<WordForm>
<feat att="writtenForm" val="clergymen"/>
<feat att="grammaticalNumber" val="plural"/>
</WordForm>
</LexicalEntry>
</Lexicon>
</LexicalResource>
この例は非常に単純なものであるが、LMFはより複雑な言語学的記述を表現することができる。ただし、それに対応するXMLでの表現も複雑となる。
外部リンク
[編集]関連するWebサイト
[編集]LMFに関する幾つかの科学的な文献
[編集]- Gesellschaft für linguistische Datenverarbeitung GLDV-2007/Tübingen: Lexical Markup Framework ISO standard for semantic information in NLP lexicons [2] (PDF)
- The fifth international conference on Language Resources and Evaluation, LREC-2006/Genoa: Lexical Markup Framework (LMF) [3] (PDF)
その他の参照
[編集]- 計算論的語彙論 (Computational lexicology)
- 語彙意味論 (Lexical semantics)
- 形態論 (Morphology)
- 機械翻訳 (Machine translation)
- 形態論的パターン: 屈折、膠着、複合、派生などにより形成される語彙素の様々な形式を定めるための関連規則や操作の集合(Morphological pattern)
- WordNet: 英語に関する語彙データベース
- Universal Terminology eXchange (UTX): 機械可読辞書に関するユーザ指向の記述形式
- Universal Nwtworking Language (UNL) ユニバーサル・ネットワーキング・ラングエッジ: 自然言語の文から抽出される意味論データを表現するべく設計された形式言語