AIパスポート試験対策【4日目】

AI・プログラミング

AIパスポート試験対策【4日目】

AIはデータで賢くなる ~データとAIの深い関係を理解しよう~

AIパスポート試験の学習も4日目になりました。

ここまでで、

  • AIとは何か
  • 機械学習とは何か
  • 生成AIとは何か
  • AIの歴史

について学んできました。

そして今日学ぶのは、

AIにとって最も重要なもの

です。

それは、

データ

です。

どれほど優秀なAIでも、データがなければ何も学ぶことができません。

人間が経験から学ぶように、AIもデータから学びます。

今日は、

  • データとは何か
  • ビッグデータ
  • データセット
  • 学習データ
  • テストデータ
  • アノテーション

について学習していきます。

AIパスポート試験でも頻出の重要分野です。


データとは何か

データとは、

情報を記録したものです。

例えば、

  • 写真
  • 動画
  • 音声
  • 売上情報
  • 顧客情報
  • 気温データ

などもすべてデータです。

私たちは毎日大量のデータを生み出しています。

スマートフォンで写真を撮る。

SNSに投稿する。

ネットで買い物をする。

これらもすべてデータです。

AIはこうしたデータを使って学習します。


なぜデータが重要なのか

人間の赤ちゃんを想像してください。

生まれたばかりの赤ちゃんは、

犬と猫の違いを知りません。

しかし何度も見たり聞いたりすることで、

違いを理解するようになります。

AIも同じです。

大量の犬と猫の画像を見ることで、

特徴を学習します。

つまり、

AIにとってデータは

経験

そのものなのです。


ビッグデータとは

近年よく聞く言葉に

ビッグデータ

があります。

ビッグデータとは、

従来の方法では処理が難しいほど大量のデータのことです。

例えば、

  • SNSの投稿
  • 動画配信データ
  • GPS情報
  • ECサイトの購入履歴

などがあります。

現代社会では毎秒膨大なデータが生まれています。

AIの進化を支えているのも、このビッグデータです。


データセットとは

AIの学習に使用するデータの集まりを

データセット

といいます。

例えば、

犬の画像5000枚

猫の画像5000枚

をまとめたものがデータセットです。

AI開発では、

まず適切なデータセットを用意することから始まります。

どんなに優秀なAIでも、

質の悪いデータしか学習できなければ、

良い結果は出せません。


学習データとは

学習データとは、

AIが勉強するときに使用するデータです。

英語で言うと

Training Data

です。

例えば、

犬と猫を見分けるAIを作る場合、

大量の犬と猫の画像を学習させます。

これが学習データです。

AIはここから特徴を見つけ出します。


テストデータとは

AIが本当に理解できたか確認するために使うのが

テストデータ

です。

学校の勉強で例えると、

学習データは教科書、

テストデータは試験問題です。

教科書だけでは理解できたか分かりません。

試験を受けて初めて実力が分かります。

AIも同じです。

学習したことを実際に使えるか確認するため、

テストデータを使用します。


アノテーションとは

AIパスポート試験でよく出題される用語です。

アノテーションとは、

データに正解ラベルを付ける作業

です。

例えば、

犬の写真には

「犬」

猫の写真には

「猫」

というラベルを付けます。

これによってAIは、

どれが犬でどれが猫かを学習できます。

教師あり学習では特に重要な作業です。


データの質がAIの質を決める

AI業界には有名な言葉があります。

「Garbage In Garbage Out」

略して

GIGO

です。

意味は、

「質の悪いデータからは質の悪い結果しか生まれない」

ということです。

例えば、

犬の画像ばかりを学習したAIに、

猫を見分ける能力は期待できません。

AIの性能は、

アルゴリズムだけでなくデータ品質によって大きく左右されます。


データバイアスとは

注意しなければならない問題もあります。

それが

データバイアス

です。

偏ったデータを学習すると、

AIも偏った判断をします。

例えば、

特定の年代のデータばかり学習した場合、

他の年代への判断精度が低下する可能性があります。

これはAI倫理とも深く関係しています。

今後の試験でも重要なテーマです。


試験によく出るポイント

① AIはデータから学習する

② ビッグデータは大量のデータ

③ データセットはデータの集合

④ 学習データはAIの勉強用データ

⑤ テストデータは性能確認用データ

⑥ アノテーションは正解ラベル付け

⑦ データの質がAIの性能を左右する


今日の確認問題

Q1 AIにとってデータとは何ですか?

A 学習するための材料


Q2 大量のデータを何と呼びますか?

A ビッグデータ


Q3 AI学習用のデータの集まりを何と呼びますか?

A データセット


Q4 AIが学習するときに使用するデータは?

A 学習データ


Q5 AIの性能を確認するためのデータは?

A テストデータ


Q6 データに正解ラベルを付ける作業は?

A アノテーション


Q7 「Garbage In Garbage Out」の意味は?

A 質の悪いデータからは質の悪い結果しか得られない


まとめ

AIは魔法ではありません。

大量のデータから学び、

経験を積むことで賢くなっていきます。

そのため、

AIを理解することは、

データを理解することでもあります。

今日学んだ

  • ビッグデータ
  • データセット
  • 学習データ
  • テストデータ
  • アノテーション

は試験頻出用語です。

必ず自分の言葉で説明できるようにしておきましょう。

明日は、

私たちの身の回りで活躍している

「AIの活用事例」

について学習していきます。

コメント

タイトルとURLをコピーしました