「ソースを渡せば安心」は本当? NotebookLMでも起きるハルシネーションの話

AIツールを使い始めた方から、こんな声をよく聞きます。

「NotebookLMは自分が渡した資料だけをもとに答えてくれるから、ChatGPTより正確でしょ?」

たしかに、その直感は半分正しいです。でも、「だから安心して鵜呑みにしていい」となると、話は別になります。
今回は、実際の調査データをもとに、NotebookLMのハルシネーション(AIがつく嘘や事実誤認)について整理してみます。

目次

そもそも「ハルシネーション」って何?

AIが事実と異なる情報を、さも正しいかのように自信満々に答えてしまう現象のことです。

たとえば「この契約書の解約条件を教えて」と聞いたとき、実際には書かれていない条件をAIが「作り上げて」回答してしまう、といったケースです。怖いのは、AIは間違っていても堂々とした口調で答えることです。

NotebookLMはなぜ「正確」と言われるのか

NotebookLMは「RAG(Retrieval-Augmented Generation=検索拡張生成)」という仕組みを使っています。簡単に言うと、あなたが渡した資料だけを参照して回答する設計になっています。

通常のChatGPTがインターネット上のあらゆる情報から学習した「記憶」だけで答えるのに対して、NotebookLMは手元の資料を「カンニングペーパー」として使いながら答えます。だから「ソース外の嘘をつきにくい」という理屈は、たしかに成り立ちます。

でも、データを見ると「安心」とは言い切れない

2025年9月に発表された学術論文(Hagar et al.)では、NotebookLM・ChatGPT・Geminiの3ツールを同じ条件で比較しました。300件の文書(法的文書・ニュース記事・学術論文)を渡し、40問の質問に答えさせて、専門家が正確性を評価したものです。

結果はこうでした。

ツールハルシネーション率
ChatGPT40%
Gemini40%
NotebookLM13%

NotebookLMはたしかに他より優秀です。でも裏を返せば、10回に1回以上は何かが間違っているということでもあります。

医療分野での研究でも同様の傾向が出ています。肺がんの診断ガイドラインを渡して症例を判定させた実験では、NotebookLMの正解率は86%。つまり約14%は誤りでした。

複数の調査を合わせると、「ソースを渡しても10〜15%前後は間違える」というのが現時点でのリアルな実力値です。

もちろん、AIは日進月歩で進歩しているので、2025年に比べると、この率は落ちているでしょう。
しかし、ソースを提示しているから間違わない、という認識は捨てるべきです。

なぜソースがあっても間違えるのか

「目の前に資料があるのになぜ?」と思いますよね。理由は主に3つあります。

①複数の資料をまたいで推論するとき

たとえば「資料Aの前提」と「資料Bの結論」を組み合わせて答えを作るとき、AIは「それらしい文章を生成する」動作をします。この瞬間に、もっともらしい嘘が混ざりやすくなります。

②ニュアンスを勝手に断定する

原文が「〜の可能性がある」と書いているのに、AIが「親切に」言い換えて「〜である」と断定してしまうケースが多く報告されています。数字や固有名詞の捏造より気づきにくく、タチが悪いエラーです。

③AIの学習知識が混ざり込む

「渡したソースだけで答えて」と指示していても、AIはもともと膨大なデータで学習しています。ソースに曖昧な表現があると、AIの「元々の知識」が勝手に補足として紛れ込むことがあります。

特にYouTubeやWebサイトの要約は要注意

NotebookLMをYouTube動画やWebサイトの要約に使っている方は多いと思います。短くてシンプルな内容なら誤りは少なめです。ただし動画が長くなったり、複数のソースを組み合わせて分析させたりすると、エラー率は上がっていきます。

使い方別の目安としては、こんなイメージです。

使い方推定エラー率
短い動画・記事の単純な要約3〜7%程度
長い動画・複数ソースの統合10〜15%程度
専門的・複雑な内容の分析15〜30%程度

もう一つ知っておきたい「逆転現象」

MITをはじめ複数の研究機関が、AIはハルシネーションを起こしているとき、正しいときより「確実に」「絶対に」といった自信満々の言葉を多く使う傾向があることを報告しています。

つまり間違えているときほど堂々と書いてある。これが最も厄介な特性です。

では、どう使えばいいのか

まず大前提として、ハルシネーションは特定のAIだけの問題ではありません。
全てのAIに起こりうるし、もちろん「他のAIより正確だ」と言われているNotebookLMであっても例外ではありません。

「どのAIを使えば安心」という話ではなく、AIというものを使う以上、出てきた答えには必ず確認が必要というのが正直な結論です。

その上でNotebookLMは、ChatGPTやGeminiと比べてハルシネーションが少なく、引用元を明示してくれる機能は非常に便利です。うまく活用すれば、情報収集や資料整理の効率を大きく上げられます。

NotebookLMは「使うな」ということではありません。ChatGPTと比べてハルシネーションが少ないのは事実ですし、引用元を明示してくれる機能は非常に便利です。

ポイントは「正確なツール」ではなく「確認コストを下げるアシスタント」として使うことです。

具体的には、要約を読んだら、引用元の番号をクリックして原文と照合するという一手間を挟むことをお勧めします。特に重要な判断に使う情報は、必ず原文で確認してください。

「AIは便利だが、10回に1回は何かが間違っている」という前提を持ちながら使う。これがどのAIツールとも、正直に付き合うための基本姿勢です。

本記事で紹介したデータの出典:Hagar et al.「Not Wrong, But Untrue」(arXiv, 2025年9月)、MIT・複数研究機関によるLLM過信傾向に関する研究、Galileo Enterprise RAG Report (2025)

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

場末のファイナンシャルプランナー。得意分野は、保険とローン・資産運用。自社では、食品卸・輸出・旅行手配も行ってます。猫と旅と音楽とガジェット類が好き。

目次