特徴量(英: feature)はデータを変形して得られ、その特徴を表現し、続く処理に利用される数値である[1]。表現(英: representation)とも。
特徴量は利用のために存在する。例えば分類(写真 → 特徴量 → 物体カテゴリ)、生成(文字 → 特徴量 → 画像)、圧縮(音声 → 特徴量 → 音声)に用いられる。その用途ごとに特徴量が持つべき特性は異なる。例えば圧縮用の特徴量はそのサイズが重視されるが、他の用途ではサイズの優先度が低い。
[編集]特徴量はデータを変換することで生成される。この変換を特徴抽出(英: feature extraction)という。専門家の知見を用いた人手による変換規則の探求は特徴量エンジニアリング[2]と呼ばれ、機械学習による場合は表現学習と呼ばれる。
特徴抽出は観測値/生データを特徴量空間へと射影するというニュアンスから「埋め込み(英: embedding)」とも呼ばれる。自然言語処理では単語に対する特徴抽出が「単語の埋め込み(word embedding)」と呼ばれる。
[編集]表現学習(英: representation learning, feature learning)は機械学習による特徴抽出である。
タスク学習の前に表現学習をおこなう場合、表現学習は事前学習(英: pretraining)であると言える。事前学習はタスク学習と分離可能なため、表現学習では大量のデータを用いた教師なし事前学習(英: unsupervised pretraining)をおこない、タスク学習でラベル付きの教師あり学習をおこなうこともできる。また距離学習はデータを可測空間へ埋め込む学習であるため、表現学習として利用できる[4]。
[編集]特徴量は用途に合わせて様々な特性を求められる。観点として抽出コスト・人間解釈性・後続タスクの性能などがある。また特徴量は離散と連続の2つに分類される。離散(英: discrete)は有限な集合であり、連続(英: continuous)は次元が設定されその中は連続となっている。特徴量空間が可測か否かでも分類される。また属性のもつれ(英: entanglement)も重要な特性である。
[編集]特徴量はタスクとその学習への入力として利用できる(feature-based approach)[7]。これは特徴抽出とタスクを分離できるからである。
[編集]表現学習とタスク学習は分離可能であるが、完全には分離せず段階的に進めることもできる。すなわち表現モデルをまず学習し (事前学習)、その上で表現モデルとタスクモデルを繋げて一体化した上でタスク学習をおこなう(fine-tuning approach)[8]。事前学習とタスク学習で異なるデータを利用できるため、分離時と同じ利点を得られる。さらに表現モデル部分もタスクに最適化される特徴がある。言語モデルにおけるBERTはその顕著な例である[9]。
オートエンコーダの潜在表現(英: latent representation)は特徴量である。
