【最新版】G検定(ジェネラリスト検定)対策用語集

G検定

一般社団法人日本ディープラーニング協会(JDLA)が実施する「G検定」合格を目指す方向けの用語集です。 基礎的な機械学習用語から、最新の生成AI(LLM)関連、重要度の高い評価指標や法規制までを網羅しています。試験直前の確認や、日々の学習の補助としてご活用ください。

あ行

赤池情報量規準 (AIC) 統計的モデルの予測の良さを評価する指標。「観測値と理論値の差(残差)」と「パラメータ数」に基づいて計算され、値が小さいほど当てはまりが良いモデルと判断される。

アシロマAI原則 2017年にアシロマ会議で発表された、AI開発における23項目の原則。研究目標、倫理、価値観(安全性や透明性の確保など)、長期的な課題について記されている。

アジャイル型 ソフトウェア開発手法の一つ。開発着手時点でゴールを厳密に定義できないプロジェクトなどに適する。短い期間(イテレーション)で実装とテストを繰り返し、仕様変更に柔軟に対応できる反面、全体のスケジュール管理が難しい場合がある。

アフィン変換 線形変換(回転、拡大縮小、剪断)と平行移動を組み合わせた変換のこと。図形の「直線」や「平行性」が保たれるのが特徴。

アンサンブル学習 複数のモデル(学習器)を組み合わせて、単一のモデルよりも高い予測精度を得ようとする手法。バギング、ブースティング、スタッキングなどが代表的。

鞍点(あんてん) 多次元空間において、ある次元から見れば極小(谷)であるが、別の次元から見ると極大(山)になっている点。勾配が0になるが最小値ではないため、最適化の際に学習が停滞する原因となる。

一気通貫学習 (End-to-End Learning) 入力から出力までを、途中の複雑な処理工程(特徴量抽出など)を人間が設計することなく、一つのニューラルネットワークだけで学習・処理する手法。

イテレーション 「反復・繰り返し」の意味。機械学習では「重みの更新回数」を指すことが多い。アジャイル開発では、短期間で開発を繰り返すサイクルのことを指す。

意味解析 自然言語処理やコンパイラにおいて、文の構造だけでなく、単語の意味や文脈を解析して内容を理解・処理する工程。

意味ネットワーク 知識表現の一つ。「概念」をノード、「関係」をリンク(矢印)で結び、人間の記憶や知識構造をネットワーク状に表現したもの。

インスタンスセグメンテーション 画像認識タスクの一つ。画像内の物体を検出し、さらに「個々の物体(インスタンス)」ごとに領域(ピクセル単位)を分割・識別する手法。

エキスパートシステム 初期のAI(第2次AIブーム)の代表例。専門家(エキスパート)の知識を「もし~なら、~である」というルール(If-Thenルール)として記述し、推論を行うシステム。

オートエンコーダ (自己符号化器) 入力データを一度圧縮(次元削減)し、再び元のデータに復元するように学習するニューラルネットワーク。入力データの特徴抽出やノイズ除去、異常検知などに用いられる。

オントロジー 哲学用語の「存在論」から転じ、AI分野では「知識の概念化・体系化」を指す。用語の意味や関係性を定義し、コンピュータが知識を共有・処理できるようにする仕組み。


か行

カーネル法 / カーネルトリック データが高次元空間に写像されたと仮定して内積を計算することで、実際には高次元計算を行わずに、非線形なデータを線形分離可能な状態として扱う手法。SVM(サポートベクターマシン)などで利用される。

拡散モデル (Diffusion Model) 画像生成AIの主流技術。画像にノイズを徐々に加えて完全にノイズにした後、逆の手順でノイズを除去して画像を復元する過程を学習させることで、高品質な画像を生成する。

過学習 (Overfitting) 学習データに対して過剰に適合してしまい、未知のデータ(テストデータ)に対する予測精度(汎化性能)が下がってしまう状態。

確率的勾配降下法 (SGD) 勾配降下法の一種。全データではなく、ランダムに選んだ1つのデータ(または少数のデータ)を使ってパラメータを更新する方法。計算コストが低く、局所解に陥りにくいメリットがある。

隠れマルコフモデル (HMM) 観測されない状態(隠れ状態)がマルコフ連鎖(確率的な遷移)に従い、その状態に応じて観測値が出力されると仮定した確率モデル。音声認識や形態素解析などで使われる。

活性化関数 ニューラルネットワークにおいて、ニューロンの発火(出力)を決定する関数。入力の総和に非線形性を加える役割を持つ。代表例にシグモイド関数、ReLU、ソフトマックス関数などがある。

機械学習 大量のデータからルールやパターンを学習し、それに基づいて予測や判断を行う技術。

記号接地問題 (Symbol Grounding Problem) AIが扱う「記号(シンボル)」と、それが指し示す「実世界の実体(意味)」が結びついていないという問題。「AIは『リンゴ』という文字を処理できても、実物のリンゴを理解しているわけではない」という議論。

強化学習 エージェント(行動主体)が環境と相互作用し、得られる「報酬」を最大化するように行動方針(方策)を学習する手法。

教師あり学習 「入力データ」と「正解(ラベル)」がセットになったデータを用いて学習する手法。回帰や分類に使われる。

教師なし学習 正解データを与えず、入力データそのものが持つ構造や特徴(頻出パターンや類似性)を学習する手法。クラスタリングや次元削減などが含まれる。

局所コントラスト正規化 (LCN) 画像処理の前処理技術の一つ。画像の各部分(局所)ごとのコントラストを正規化し、照明条件の違いなどの影響を軽減する。

協調フィルタリング レコメンデーション(推薦)の手法。ユーザーの行動履歴(購入や評価)をもとに、「好みが似ている他のユーザー」のデータを利用して商品を推薦する仕組み。

局所最適解 最適化問題において、全体の中での最小値(大域的最適解)ではないが、その周辺では最小となっている値(谷底)。勾配降下法などでここに陥ると抜け出せなくなる問題がある。

クラスタリング データをその特徴に基づいて、似たもの同士のグループ(クラスタ)に分ける手法。k-means法などが代表的。

グリッドサーチ ハイパーパラメータ探索手法の一つ。あらかじめ設定したパラメータの候補値をすべて組み合わせて学習を行い、最も良い精度が出る組み合わせを見つける方法。

決定木 データを条件分岐(If-Then)によって分割していき、ツリー構造で分類や回帰を行うモデル。「不純度」が下がるように分岐を作成する。

勾配降下法 損失関数(コスト関数)を最小化するために、関数の勾配(傾き)を計算し、傾きの逆方向へパラメータを徐々に更新していく最適化アルゴリズム。

勾配消失問題 多層ニューラルネットワークにおいて、誤差逆伝播を行う際に、入力層に近づくにつれて誤差(勾配)が小さくなりすぎて、学習が進まなくなる問題。

誤差逆伝播法 (バックプロパゲーション) ニューラルネットワークの学習手法。出力と正解の誤差を計算し、出力層から入力層に向かって順に勾配を伝播させることで、効率的に重みを更新する。

コスト関数 (損失関数) モデルの予測値と正解データのズレ(誤差)を定量化する関数。学習はこの関数の値を最小化することを目的とする。二乗誤差や交差エントロピー誤差などがある。

行動価値関数 強化学習において、「ある状態(s)で、ある行動(a)をとったときに、将来にわたって得られる報酬の期待値」を表す関数。Q学習におけるQ値などがこれにあたる。

混同行列 (Confusion Matrix) 分類モデルの予測結果を「真陽性(TP)」「真陰性(TN)」「偽陽性(FP)」「偽陰性(FN)」の4つに分類してまとめた表。精度の詳細な分析に使われる。


さ行

再現率 (Recall) 実際に「陽性(正)」であるもののうち、モデルが正しく見つけ出せた割合。「見逃しを減らしたい(病気の発見など)」場合に重視する指標。

再帰型ニューラルネットワーク (RNN) 時系列データや文章など、順序のあるデータを扱うのに適したニューラルネットワーク。過去の隠れ層の状態を次のステップの入力として利用する構造を持つ。

サーベイランス・キャピタリズム (監視資本主義) 個人の行動データ(閲覧履歴、位置情報など)を収集・分析し、行動予測や広告配信などで利益を上げる経済システムのことを批判的に捉えた用語。

自己アテンション機構 (Self-Attention) 自然言語処理などで、文中のある単語が他のどの単語と強く関連しているかを計算する仕組み。Transformerモデルの中核技術。

次元の呪い データの次元数(変数の数)が増えると、空間の体積が爆発的に増え、学習に必要なデータ量が指数関数的に増加したり、距離の概念が意味をなさなくなったりする問題。

次元削減 情報の損失をなるべく抑えつつ、データの次元数を減らす処理。主成分分析(PCA)やt-SNEなどがある。

シグモイド関数 活性化関数の一つ。入力値を0から1の範囲に滑らかに変換する。二値分類の出力層などで使われるが、勾配消失問題の原因になりやすいため中間層ではReLUが主流となっている。

蒸留 (Distillation) 巨大で高精度なモデル(教師モデル)の知識を、軽量なモデル(生徒モデル)に学習させる手法。エッジデバイスでの利用に向けた軽量化技術として重要。

シンギュラリティ (技術的特異点) AIが自らより賢いAIを作り出せるようになり、技術進歩のスピードが無限大に達する(人間の知能を超える)時点のこと。

スタッキング アンサンブル学習の一つ。複数のモデルの予測結果を入力とし、最終的な予測を行う別のモデル(メタモデル)を学習させる手法。

正解率 (Accuracy) 全データのうち、予測が当たった割合。「(TP + TN) / 全体」で計算される。データのバランスが崩れている場合(不均衡データ)は注意が必要。

正則化 モデルが学習データに過剰適合(過学習)するのを防ぐために、損失関数に「ペナルティ項」を加える手法。L1正則化、L2正則化などがある。

ソフトマックス関数 多クラス分類の出力層で使われる活性化関数。出力の合計が1(100%)になるように変換するため、確率として解釈できる。


た行

畳み込みニューラルネットワーク (CNN) 画像認識などで高い性能を発揮するニューラルネットワーク。「畳み込み層」で画像の特徴(エッジや模様など)を抽出し、「プーリング層」で位置ズレへのロバスト性を高める構造を持つ。

第1次AIブーム 1950年代〜60年代。「探索」と「推論」によって、パズルや迷路などの特定の問題(トイプロブレム)を解くことができた時代。

第2次AIブーム 1980年代。「知識(エキスパートシステム)」が中心。コンピュータに専門知識を詰め込むことで実用化を目指したが、知識の記述や管理が困難で下火になった。

第3次AIブーム 2000年代後半以降〜現在。「機械学習」と「ディープラーニング」が中心。ビッグデータの利用と計算機の性能向上により、認識精度が飛躍的に向上した。

単純パーセプトロン 入力層と出力層のみを持つ最もシンプルなニューラルネットワーク。線形分離可能な問題しか解けない(XOR問題が解けない)という限界がある。

ダートマス会議 1956年に開催された会議。「人工知能 (Artificial Intelligence)」という言葉が初めて公式に使われた場として知られる。

著作権法 第30条の4 日本の著作権法にある条文。「情報解析(AI学習など)」を目的とする場合、営利・非営利を問わず、著作物を許諾なく利用できる(原則)と定めている。

データバイアス問題 学習データに偏り(人種、性別、地域などの偏り)があることで、AIの判断が不公平になったり差別的になったりする問題。

適合率 (Precision) モデルが「陽性(正)」と予測したもののうち、実際に正しかった割合。「誤検知を減らしたい(スパムメール判定など)」場合に重視する指標。

ディープニューラルネットワーク (DNN) 隠れ層(中間層)を多層化(深く)したニューラルネットワークのこと。

ディープフェイク ディープラーニングを用いて作られた、本物と見分けがつかない偽の動画や音声。

転移学習 (Transfer Learning) あるタスクで学習済みのモデル(の重み)を、別の関連するタスクの学習に再利用する手法。ゼロから学習するより効率が良い。

トイプロブレム (おもちゃの問題) 現実の複雑な問題ではなく、迷路やオセロのようなルールが明確で単純な問題のこと。初期のAIはこれしか解けなかった。

トロッコ問題 倫理学の思考実験。「多数を救うために1人を犠牲にすることは許されるか」という問い。自動運転車の事故時の判断アルゴリズムにおける倫理的課題として引用される。

ドロップアウト 過学習を防ぐ手法の一つ。学習時にニューロンをランダムに無効化(欠落)させて学習を行うことで、擬似的にアンサンブル学習のような効果を得る。


な行

ナレッジエンジニア 第2次AIブームにおいて、専門家の知識をヒアリングし、コンピュータが扱えるルールとして記述・実装する役割の人。

内部共変量シフト 学習が進むにつれて、ネットワーク内の各層への入力分布が変化してしまう現象。学習の効率を低下させる原因となる。これを防ぐ技術がバッチ正規化(Batch Normalization)。

ニューラルネットワーク 人間の脳の神経回路網(ニューロンのつながり)を模倣した数理モデル。

ノーフリーランチ定理 「あらゆる問題に対して万能に高性能なアルゴリズムは存在しない」という定理。対象の問題に合わせて手法を選ぶ必要があることを示唆する。


は行

バーニーおじさんのルール 「学習データの数は、パラメータ数(変数の数)の10倍以上必要である」という経験則。

バギング アンサンブル学習の一つ。学習データから重複を許してランダムにデータを抽出(ブートストラップサンプリング)し、並列に複数のモデルを作成して多数決や平均を取る手法。ランダムフォレストなどで使われる。

ハルシネーション (Hallucination) 生成AIが、もっともらしいが事実とは異なる嘘の情報を生成してしまう現象。

汎化誤差 学習に使っていない未知のデータに対する予測誤差。これが小さいほど「汎化性能が高い」と言える。

秘密計算 データを暗号化したまま(中身を見ずに)計算処理を行う技術。プライバシー保護とデータ活用の両立のために重要視されている。

ファウンデーションモデル (基盤モデル) 広範なデータで訓練され、様々なタスク(翻訳、要約、画像生成など)に適応可能な巨大なモデルの総称。

ファインチューニング 学習済みモデルの一部または全体の重みを、新しいタスクのデータで再学習させて微調整する手法。少ないデータで高精度を実現できる。

フィルターバブル AIのレコメンド機能により、自分の好みや考えに近い情報ばかりが表示され、異なる意見や情報に触れられなくなる現象。

フレーム問題 「今しようとしていることに関係のある事柄だけを選び出す」ことが、AIにとっては非常に難しいという問題。AIは何が関係ないかを無限に考慮してしまう可能性がある。

プロンプトエンジニアリング 生成AIから望ましい出力を得るために、指示(プロンプト)の出し方を工夫する技術。「Chain-of-Thought」などが有名。

物体セグメンテーション (Semantic Segmentation) 画像の全ピクセルに対して「これは道路」「これは車」といったラベル付け(分類)を行うタスク。


まやらわ行

マルチモーダルAI テキスト、画像、音声、動画など、異なる種類(モード)の情報を同時に処理・理解できるAI。


英数字・記号

AI効果 「AIによって何かが実現されると、それはもはやAIとは呼ばれなくなる」という心理的現象。

AI OCR 従来のOCR(光学文字認識)にAI技術(ディープラーニング)を取り入れ、手書き文字や非定型フォーマットの認識精度を向上させた技術。

AlexNet 2012年の画像認識コンペ(ILSVRC)で圧勝し、第3次AIブームの火付け役となったCNNモデル。

AlphaGo Google DeepMindが開発した囲碁AI。ディープラーニングと強化学習(モンテカルロ木探索)を組み合わせ、トッププロ棋士に勝利した。

AutoML (Automated Machine Learning) 機械学習モデルの設計やパラメータ調整などのプロセスを自動化する技術。

BERT Googleが開発した自然言語処理モデル。文脈を双方向から学習することで、検索や翻訳などで高い性能を発揮する。

CNN (Convolutional Neural Network) 「畳み込みニューラルネットワーク」を参照。

ELSI Ethics(倫理)、Legal(法)、Social Issues(社会的課題)の頭文字。新技術導入時に考慮すべき課題。

F値 (F-measure) 適合率と再現率の調和平均。両者のバランスを評価する際に用いる指標。

GAN (Generative Adversarial Networks) 敵対的生成ネットワーク。「生成器」と「識別器」を競わせることで、精巧なデータを生成する技術。

GDPR (一般データ保護規則) EU(欧州連合)における個人情報保護の枠組み。

GPGPU 画像処理専用のGPUを、ディープラーニングなどの汎用的な計算に利用すること。

GPT OpenAIが開発した自然言語処理モデル。文章生成に特化したTransformerモデル(デコーダ)をベースとしている。

ILSVRC かつて毎年開催されていた大規模な画像認識コンペティション。

k-means法 (k平均法) 教師なし学習のクラスタリング手法。データをk個のグループに分類する。

L1 / L2 正則化 過学習を防ぐために損失関数に加えるペナルティ項。L1は特徴選択の効果(スパース性)、L2はパラメータの抑制効果がある。

LLM (Large Language Model / 大規模言語モデル) 大量のテキストデータを学習し、高度な言語理解・生成能力を持つモデル。

LSTM (Long Short-Term Memory) RNNの一種。長期の依存関係を学習できないという弱点を克服したモデル。

MaxPooling CNNのプーリング層で行われる処理の一つ。対象領域内の最大値を取り出すことで、画像を圧縮し、位置ズレの影響を吸収する。

PCA (主成分分析) 高次元データの情報をできるだけ損なわずに、低次元に圧縮する統計的手法。

RAG (Retrieval-Augmented Generation) 検索拡張生成。LLMに外部データの検索結果を組み合わせることで、最新情報や独自データに基づいた回答を生成させる技術。

ReLU (Rectified Linear Unit) 活性化関数の一つ。勾配消失が起きにくく計算も単純なため、ディープラーニングで主流となっている。

ROC曲線 / AUC 二値分類モデルの性能評価曲線。曲線下の面積(AUC)が1に近いほど性能が良い。

RNN (Recurrent Neural Network) 「再帰型ニューラルネットワーク」を参照。

SVM (サポートベクターマシン) 教師あり学習の分類・回帰手法。データクラス間の「マージン」を最大化するように境界線を引く。

Transformer 2017年に登場した、RNNを使わず「Attention機構」のみで構成されたモデル。現在のLLMの基礎。

ViT (Vision Transformer) Transformerを画像認識に応用したモデル。

WaveNet DeepMindが開発した音声合成モデル。非常に自然な音声を生成できる。

Word2Vec 単語をベクトル(数値の列)に変換し、単語の意味を計算可能にする技術。

XAI (Explainable AI / 説明可能なAI) AIの判断理由や根拠を人間が理解できるように説明する技術。

YOLO (You Only Look Once) 高速なリアルタイム物体検出アルゴリズム。

タイトルとURLをコピーしました