はじめに
前回のブログ記事でGPT4oのPDFファイルデータの処理及び可視化について書きましたが、その時点からさらに進化しているかを確認した時に私には理解できない現象が起きたので共有します。
結論から、ハルシネーションだと思われる現象がデータ分析においても発生しているっぽいので、注意喚起の意味も含め記事にまとめました。
のびノーリ
いやしかし、この数字はどこから出てきたのか不可解です・・・?
ぜひ、最後まで読んでみて下さい!
前回記事のおさらい
前回記事は↓下のリンクから読んで頂けければと思いますが、ざっくりどのような内容であったかについて触れておきます。
PDFファイルを読込んで行ったこと
日本自動車販売協会連合会の公式HPよりフランド通称名別ランキング(2024年1月〜4月)というPDFファイルをダウンロードして、その中のデータを抽出して可視化までチャレンジしました。
2024年1月〜3月までのブランド別販売台数の累計
前回の記事では段階を追って、2024年1月、2月、3月のデータを逐次で抽出し、最後にそれぞれのデータを累計するといった流れで進めました。
その結果、累計データは↓下の画像の通りまとまりました。
2024年1月〜3月における月別販売台数の推移の可視化
↓下の画像の通り、月別での販売台数の推移をグラフ化しました。
ただ、前回記事の執筆をした時点ではGPT4oで直接グラフ化できなかったので、Pythonの実行環境としてGoogle Colabを使って可視化しました。
前回記事のおさらいのまとめ
前回の記事では丁寧に検証していくためにも、1月、2月、3月のデータが正しく抽出できているかチェックしながら進めて行きました。
結果として、累計データは問題なく計算されており、また月間販売台数の推移グラフはGPT4o
の中では生成されなかったものの、生成されたコードをPythonの実行環境で実行すると上手くいきました。
ここまでが前回の記事のおさらいになります。
今回試してみたこと
前の章でも触れておりますが、GPT4oの中で上手くいかなかったブラフ化が、時間が少し経ったので、改善されているかも知れないと思い再度チャレンジしてみることにしました。
さらに、前回は慎重に各月のデータを順を追って抽出してから、それらのデータを累計していくとう流れでしたが、今回はプロンプトを変えて一気にデータが取れるか試してみました。
2024年1月〜3月までのブランド別販売台数のトップ10
PDFデータはGoogleドライブに保存していましたが、GPT4oは直接Googleドライブのデータを読み込めるようになっていてるので大変便利になっていることを実感しつつ、プロンプトを下記の通り変更して実行しました。
「このファイルにある1月から3月までで、ブランド毎の販売台数の累計を計算してその累計のトップ10を表形式で出力して下さい。」
上のプロンプトで実行された結果は、↓下の画像の通り表形式で出力してくれました。
よくみると、順位がでたらめになっていることがわかります。
抽出データの検証
前回のトライでは慎重に進めたデータ抽出を、今回は一まとめにして一気に出してもらうことにチャレンジしてみましたが、検証するとまったく前回の結果と異なるデータになっていました。
ただ、ありがたいことにそれぞれの月毎のデータも出力してくれているので、細かく検証することができそうです。
それでは、次の章で出力されたデータのどこが実際のデータと違っているのか、具体的に検証していきます。
間違い探し
出力データの検証をこの章で進めていきますが、念ため追記させていただきます。
前回の記事では慎重にデータの抽出を段階を追って進めており、その都度データのチェックをしているので間違いないことを確認しております。
今回はその工程を端折って、一気にデータを抽出できるかどうかも見たかったので、プロンプトを前回とは変えてチャレンジしたことで生じた現象であることをご了承ください。
各月のデータの検証
実は各月のデータから違っていることが分かったので詳細を各月別に確認していきます。
1月分のデータについて
↓下の画像のように4月のデータと置き換わっていることがわかりました。
しかも、降順に出力されていないことが分かりましたが、降順にして欲しい旨のプロンプトは入れておらず、指示が甘かったと気づいて反省しました。
2月分のデータについて
こちらは1月分のデータが参照されていることがわかり、降順になっていないのみならずランクインしているべきブランドが2つ消えていました。
さらにランク外の車種がトップ10入していることが分かりました↓。
3月分のデータについて
こちらは2月分のデータを参照していることが分かりました。
ここで、この記事でのメインテーマとなる最大のミステリーが発生しました。
1月、2月までは降順になってなかったり、ランク外の車がランクインしていたりといった事象が見られ、基本的にGPT4oを持ってしても難しい指示であることは直感的にも理解できます。
ただ、存在しないデータが「生成」されていることに驚愕しました。
それではご覧いただきましょう(笑)↓
小さい文字なのでわかりにくいかも知れませんので、下記に表にしてまとめます。
異変が起きているのはアルファード、ハリアー、ヴォクシーの3ブランドになります。
ブランド名 | 3月(GPT4o) | PDF(2月分) |
アルファード | 6,765 | 4,300 |
ハリアー | 7,514 | 5,714 |
ヴォクシー | 6,027 | 5,864 |
ランクインをしているか否かは一旦置いておき、台数がPDFデータと合っていないことが判明しました。
さらに、GPT4oが出力した台数はPDFファイルのデータにない数字であることも分かりました。
どういうこと?っていう言葉が頭の中で何度もリフレインしました。
問題点の整理と考察
前章で紹介した現象について、筆者なりの見解を整理してまとめていきたいと思います。
月ズレでデータが出力
この現象をざっくりまとめてみると
- 例えばPDFでは1月分のデータであるはずのGPT4oでは2月分のデータとして出力され、順番もバラバラであったこと。
こちらはPythonのコードを修正することで調整できると思われますが、筆者のレベルでは深く適切な説明ができませんのでご容赦下さい。
トップ10以外のブランドの出力
この現象をざっくりまとめてみると
- 例えばGPT4oの出力で2月のデータにおいて、PDFデータではランクインしていないといけないプリウスやフリードの代わりに、アルファードやヴォクシーがランクインしていた。
こちらも正確なことは言えませんが、恐らくPythonコードの修正で対応できそうな感じがします。
どこにも見当たらないデータの出力
そして最後に何の説明もつかないデータが出力された件について今一度現象を整理します。
ブランド名 | 3月(GPT4o) | PDF(2月分) |
アルファード | 6,765 | 4,300 |
ハリアー | 7,514 | 5,714 |
ヴォクシー | 6,027 | 5,864 |
上の表でハイライトしている数字はいったいどこからきた数字なのか分かりません。
この現象については、まったくもって筆者の理解の範疇を超えています。
総括
以上を踏まえ、注意喚起も兼ねてまとめていきます。
- GPT4oの進化は素晴らしいレベルであるものの、まだまだ慎重にファクトチェックやハルシネーションの確認は必要。
- 一気に出力されるようなプロンプトでは恐らくアプトプットは不安定になると思われるので、段階を追ってアウトプットをチェックしながら進めていくのがベター。
- 使用する側も何回かトライすることで経験値を上げ、自分の意図するアプトプットに近づけるためのチューニングが必要。
絶対にまる投げはやめておきましょう!
↓また、GPTに関連する他の記事も作成しておりますので、参考にされて下さい。
のびノーリ
AIを使いこなすにも、まだまだ人の目によるチェックは必要ですね。
ファクトチェック、ハルシネーションのチェックはお忘れなく!
ここまで読んでくださった方、ありがとうございました!