MfuguProject: みふプク(MfuguProject)公式SNSアカウントのイメージ

AI相関図 byみふプク

AI相関図 技術用語 活用事例

〜Artificial Intelligence 2025メモ〜

Mdrin
今年こそAIの波にのりたいよね⭐️ どこから勉強すればいいか分かんないけど
Bluri
今どこを勉強してるかわからなくなるよね💦
Mdrin
AIの相関図があれば全体像がつかめて、イメージしやすいかなって思ったんだ🐠
Bluri
うん!相関図つくって今までやったこともメモしておくね

AIの相関図(イメージ)

AI(人工知能)への理解を深め、🐠ミドリフグのゲーム🐠を広めるために、AIの相関図を作成し、作業メモを備忘録として残しています。2023年2月にChatGPTと出会い、AIの可能性に触れたことがきっかけで、AIに興味を持つようになりました。文章生成、画像生成、動画生成、音楽生成など、これまでは数ヶ月単位で時間を要していた作業が、わずか数分で期待に近いクオリティで生成されるサービスに大きな魅力を感じています。最終的なチェックは人間が必ず行う必要があります。

現在の活用事例としては、公開中のアプリのASO(アプリストア最適化)、アプリコードの修正、生成AI(OpenAI、Geminiなど)のAPIを活用したコード生成、Webサイト(HTML5、Firebase)のコード修正やSEO対策、SNSで使用するキャラクター画像や動画の生成、SNSのプロモーション動画や音楽生成、公開中のアプリのイメージソングやBGM作成などに取り組み、AIを活用しながら理解を深めています。
(最終更新:2025年12月6日)

AIの文字解説

GPT(OpenAI)

GPT(Generative Pre-trained Transformer)は、OpenAIによって開発された大規模言語モデルのシリーズです。自然な文章生成能力を持ち、チャットボットや要約などに活用されます。

2023年2月 Web chatGPT 利用開始
2024年7月 gpt-4o-mini API 利用開始(平均コスト実績 17.0円/月)
2024年8月 Claude(Anthropic) 生成コストが高いため導入見送り
2025年2月 Grok(x)API 利用開始 生成コストが高いため積極利用見送り
2025年2月 deepseek API 利用開始 安全性懸念のため積極利用見送り
2025年5月 gpt-4.1-mini API 利用開始
2025年5月 gpt-4o/pt-4.1 API 利用開始(※生成コストが高い)
2025年8月 gpt-5/nano/mini API 利用開始
2025年11月 gpt-5.1(WebSearch)/gpt-4o-mini-search API 利用開始
Bard / Gemini

Bardは、Googleによって開発された対話型AIサービスです(現在はGeminiというブランド名で提供されています)。大規模言語モデル(LLM)を搭載し、ユーザーとの自然な会話を通じて、質問応答、文章作成、アイデア生成、情報収集などを支援します。Google検索との連携により、最新情報に基づいた回答も可能です。

2024年8月 Gemini 1.5 Flash API 利用開始(平均コスト実績 25.6円/月)
2025年5月 Gemini 2.0 Flash API 利用開始
2025年5月 Gemini 2.5 Pro API 利用開始(※生成コストが高い)
2025年10月 Gemini google_search API 利用開始
生成AI

生成AIは、既存のデータからパターンや構造を学習し、それに基づいて新しいオリジナルのコンテンツ(テキスト、画像、音声、動画、コードなど)を自動で生成するAI技術の総称です。ディープラーニング、特に大規模言語モデル(LLM)、敵対的生成ネットワーク(GAN)、拡散モデルなどが代表的な技術として用いられ、クリエイティブ作業の支援や新しい表現の創出に貢献しています。

2024年8月 stability.ai API 利用開始(SDXL1.0/SD1.6 平均コスト実績 128円/月)
2024年8月 Stable Diffusion系サービス 利用開始( 平均コスト実績 1418円/月)
2025年4月 音楽生成サービス 利用開始( 平均コスト見込み 519円/月)
AI (人工知能)

人工知能(AI)は、人間の学習能力、推論能力、判断能力といった知的活動をコンピュータプログラムを用いて模倣・実現する技術や学問分野の総称です。これにより、機械が人間のように思考し、問題を解決することを目指します。

機械学習 (ML)

機械学習(ML)は、AIを実現するための主要なアプローチの一つです。コンピュータが大量のデータから自動的にパターンやルールを学習し、その学習結果に基づいて未知のデータに対する予測や分類、意思決定を行う技術です。明示的にプログラムされなくても、経験から学習する能力を持ちます。

深層学習 (DL)

深層学習(ディープラーニング)は、機械学習の一分野であり、人間の脳の神経回路網(ニューラルネットワーク)を多層に重ねたモデル(ディープニューラルネットワーク)を用いる手法です。データから複雑な特徴量を自動的に抽出し、画像認識、音声認識、自然言語処理など、様々な分野で高い性能を発揮しています。

自然言語処理 (NLP)

自然言語処理(NLP)は、人間が日常的に使用する言葉(自然言語)をコンピュータが理解し、処理し、生成するための一連の技術です。AIがテキストや音声データを扱ったり、人間とコミュニケーションを取ったりする上で不可欠であり、機械翻訳、情報検索、感情分析、チャットボットなどに活用されます。

大規模言語モデル (LLM)

大規模言語モデル(LLM)は、数十億から数兆ものパラメータを持つ非常に巨大なニューラルネットワークモデルで、膨大な量のテキストデータによって訓練されます。これにより、人間が話すような自然な文章を理解・生成する能力や、翻訳、要約、質疑応答など、幅広い言語タスクを高い精度で実行できます。GPTシリーズやBard (Gemini) などが代表例です。

Google検索

Google検索エンジンは、Google社が提供する世界最大の情報検索システムです。AI技術、特に機械学習や自然言語処理を活用して、ユーザーの検索意図を理解し、膨大なウェブページの中から最も関連性の高い情報をランキングして提示します。近年のAI技術の進化により、より高度でパーソナライズされた検索体験を提供しています。

2024年9月 Webサイト JQueryからHTML5へ 変更
2025年5月 Webサイト SEO/SGE 対策
Google翻訳

Google翻訳は、Google社が提供する無料の機械翻訳サービスです。ニューラル機械翻訳(NMT)をはじめとするAI技術(深層学習、自然言語処理)を駆使し、テキスト、音声、画像内の文字など、様々な形式の言語をリアルタイムに近い形で他言語へ翻訳します。多言語間のコミュニケーションを支援する強力なツールです。

2023年4月 Cloud Translation API 利用開始(free/月)
教師あり学習

教師あり学習は、機械学習の主要な手法の一つです。入力データとそれに対応する正解ラベル(教師データ)のペアを学習データとして用い、モデルにその関係性を学習させます。学習後は、未知の入力データに対して適切な出力(予測値やクラス分類など)を行うことができます。

教師なし学習

教師なし学習は、機械学習の主要な手法の一つで、正解ラベルが付与されていないデータセットから、データ自身に潜む構造やパターン、関連性を見つけ出す手法です。代表的なタスクには、データを類似性に基づいてグループ分けするクラスタリングなどがあります。

強化学習

強化学習は、機械学習の主要な手法の一つです。エージェント(学習主体)が、ある環境の中で試行錯誤を繰り返しながら、特定の行動に対する報酬(または罰)を得ることで、総報酬を最大化するような行動戦略を自律的に学習します。

ニューラルネットワーク

ニューラルネットワークは、人間の脳の神経細胞(ニューロン)の構造と情報処理の仕組みを数学的に模倣したモデルです。多数の単純な処理ユニット(ノード)が層状に結合し、各結合の重みを学習データに基づいて調整することで、複雑な非線形関係を表現します。

Transformer

Transformerは、2017年に発表されたニューラルネットワークのアーキテクチャで、特に自然言語処理(NLP)の分野に革命をもたらしました。最大の特徴は「自己注意機構(Self-Attention)」であり、入力シーケンス内の各要素間の関連性を効率的に捉えることができます。

データ / ビッグデータ

データは、AI、特に機械学習モデルを訓練し、その性能を向上させるための根源的な資源です。「ビッグデータ」とは、従来のデータベース管理ツールでは扱うことが困難なほど巨大で複雑なデータ群を指し、AI技術と組み合わせることで新たな知見や価値を生み出すことが期待されています。

画像認識 (CV)

画像認識(コンピュータビジョン)は、コンピュータがデジタル画像や動画の内容を「見て」理解するための技術分野です。物体検出、顔認識、シーン分類、文字認識(OCR)など、多岐にわたるタスクを含みます。深層学習の発展により近年飛躍的に精度が向上しました。

音声認識

音声認識は、人間の話し言葉をコンピュータが聞き取り、テキストデータに変換する技術です。スマートスピーカーへの指示、音声入力による文字作成、会議の議事録作成支援などに活用されています。

AI倫理

AI倫理は、AI技術の開発、展開、利用に伴って生じる倫理的、法的、社会的な課題や原則について探求する分野です。AIの判断における公平性、透明性、説明責任、プライバシーの保護、安全性、悪用の防止などが主要な論点となります。

バイアス (AI)

AIにおけるバイアスとは、AIモデルが学習するデータに含まれる偏りや、アルゴリズムの設計・運用における潜在的な偏見が、結果としてAIの判断や予測に不公平な影響を与える現象を指します。

説明可能性AI (XAI)

説明可能性AI(XAI)は、AIシステム(特に複雑なブラックボックスモデルとされる深層学習など)がなぜそのような予測や判断を下したのか、その根拠やプロセスを人間が理解できる形で提示するための技術やアプローチです。

GPU

GPU(Graphics Processing Unit)は、元々はコンピュータグラフィックスの高速な描画処理のために設計された半導体チップです。多数の計算コアを持ち、単純な演算を並列に実行する能力に長けているため、現代のAI開発、特に深層学習には不可欠なハードウェアとなっています。

Python

Pythonは、AIおよび機械学習分野で最も広く採用されているプログラミング言語の一つです。文法が比較的平易で読み書きしやすく、数値計算、データ分析、機械学習のための豊富なライブラリや深層学習フレームワークが充実しています。

主要AIモデル一覧(2025年11月時点)

Google
  • 言語生成(テキスト/マルチモーダル)
    Gemini 2.5 系(Pro / Flash、2025年中に順次展開)
  • 動画生成
    Veo 3 系(3.1 / 3.1 Fast / 3.0、2025年中に順次展開)
  • 画像生成
    Gemini 2.5 Flash Image(Nano Banana)(2025年中盤)
OpenAI
  • 言語生成(テキスト/マルチモーダル)
    GPT-5.1(2025年後半)
    GPT-5(2025年中盤)
    GPT-4.1(2024年中盤)
    o3(推論特化、2024年末〜2025年初頭)
  • 動画生成
    Sora(2024年〜2025年にかけて段階的公開)
  • 画像生成
    DALL·E 3(2023年末〜2024年にかけて展開)
Anthropic
  • マルチ(言語/画像)生成
    Claude 4 系(Opus / Sonnet、2025年)
    Claude Sonnet 3.7 系(2025年)
    Claude Haiku 4.5 (2025年)
    Claude 3.5 系(2024年中盤)
Alibaba
  • 言語生成(テキスト/マルチモーダル)
    Qwen2.5(2024年〜2025年前半)
    Qwen3(2025年中盤)
    QwQ(推論、2025年初頭)
    QVQ(視覚推論、2025年初頭)
  • 画像/動画生成(マルチモーダル)
    Qwen-Omni(2024年末〜2025年前半)
xAI (X)
  • 言語生成(テキスト/マルチモーダル)
    Grok 4.1(2025年後半)
    Grok 4(2025年中盤)
    Grok 3(2024年末〜2025年初頭)