Feel Physics Backyard

HoloLensの出張授業をする会社で、教材を開発しています

次世代ARグラス用レンズから読み解く、これからのXRレンズの価格変化

次世代ARグラス用ディスプレイを開発するCellid株式会社のプレスリリースから、これからのXRレンズの動向(2024–2030)を読み解きました。

prtimes.jp

注意:以下はChatGPT o1で生成したテキストであり、正確ではないことがあります。

1. そもそも何が課題?

  • 世界人口の半数超がメガネユーザー。ARグラスは「裸眼」を前提に設計されてきたが、実際は度付き対応が必須
    → 処方レンズを重ねると厚く・重く・像が歪む
  • ウェイブガイド光学は前面がほぼ完全平面でないと像がにじむ
    → 従来の曲面レンズでは光学的に両立しない

2. Cellidの「SCL(Small‑base Curved Lens)技術」

ポイント 内容
前面 ほぼ平面でウェイブガイドを貼り合わせ
背面 自由曲面で近視・遠視・乱視を一括補正
製造 高屈折樹脂をCNCフリーフォーム切削 → 真空ラミネーション
効果 縁厚3 mm級・重量20 g台で度付き+AR光学を1枚化

詳細は ASCII記事プレスリリース を参照

3. なぜ大手レンズメーカーはすぐ真似できない?

  1. 光学設計レベルが桁違い
    サブµm級の回折格子設計+波動光学シミュレーション
  2. 製造設備が半導体寄り
    ナノインプリント、クラス100クリーンルーム、干渉計検査
  3. 材料と接着
    高屈折ガラス/樹脂+屈折率マッチング接着剤(厚み±1 µm)
  4. 投資回収リスク
    XR市場はまだ小さく、量産立ち上げに数百億円規模
  5. 特許網が厚い
    SCLやMeta MaterialsのARfusion®などで周辺を囲まれている

4. レンズ価格はこう下がる

VRパンケーキ/枚 ARガラスWG/眼 AR樹脂WG/眼 高屈折SiC等/眼
2024 25 USD 150–200 USD 125 USD
2026 16–18 90–110 70–90 100–120
2030 10±2 60±10 40–60 ≈80

ドライバー:歩留まり改善・材料置換・量産規模拡大
逆風:関税10 %上乗せ・SiC供給制約・需要下振れ

5. 何が起きるか?

  • VRパンケーキレンズが片眼10ドル台へ。スマホOEM参入で価格競争が加速
  • AR
    • ガラス導波路は60ドル前後まで低下
    • Cellid型プラスチック導波路は40ドル台を狙う
    • SCLなど処方レンズ一体化が進み、「度付きAR」でもメガネ並みコストへ
  • プレミアム領域:軍用・医療用の高FOVモデルは80ドル超で高止まり

6. まとめ

  • 2028年には「度付き+AR」でも部材原価100ドル以下が視野
  • 普及の鍵は樹脂導波路と一体型レンズの歩留まり
  • 関税・地政学で±20 %変動の余地あり
  • 2026–27年の量産立ち上げが順調なら、完成品XRグラスは“高機能メガネ”並みの価格帯に到達しうる

個人的には光学微細加工技術の限界を感じていたので、とても嬉しいニュースのような気がします。楽しみですね!


参考リンク

ガジェット中毒者の告白:デジタルからアナログに戻ってきた理由

対象読者

テクノロジーが大好きで、同時に自分の仕事や体験の品質(のこまかーいこと)に異様なくらいこだわってしまう大変な方々(私!)。

かつての私は、新製品の発表会にワクワクし、ガジェットブログは毎日チェック。怪しいアイテムをクラウドファンディングでいくつも買い、家ではアレクサと複数のスマードホームデバイスが連携して動いていて、友人には会うたびに「またガジェット買ったの?」と呆れられるほどのデバイス中毒者でした。

でも、日常的に使うもの、特に仕事や大切な瞬間に関わるツールに関しては、品質への異様なこだわりがあります。

ご提案

ここ3年くらい、気づいてしまったことがあります—私が本当に頼りにしているものは、最先端のデジタルではなく、「時代遅れ」なアナログ製品かもしれません。

私の感想

例えば:

  • 無線LANではなく有線LAN:うちではZoomが最近よく切れてご迷惑をおかけしていました(実はこれが本題です)。15mのLANケーブルを導入してからは状況が改善。「なんで有線なの?」と思われる方もいらっしゃるでしょうが、私はあまり無線を信用していないんです。余計な懸念要素が増えない有線という選択肢は、心配性の私にとって、品質を追求する良い方法だと思うのです。

  • スマホではなく専用ボイスレコーダー:最近、新しいボイスレコーダーを購入しました。「スマホでいいのでは?」と思われるかもしれませんが、アップロードが途中で止まったり、録音中に電話がかかってくると途切れてしまったり。ハードウェアの方は安心して仕事に集中できますし、会議中に置いておいても気に障ることもありません。

  • デジタルノートではなく紙の手帳スマホのメモアプリも、昔はいろいろ試しましたが、ここ2年くらいは小さな紙の手帳を使っています。ポケットに入るサイズなので常時持ち歩いています。専用のケースならカードや小銭も入れることができるので、お財布兼手帳になります。

  • プロジェクト管理ツールではなく模造紙と付箋:会社のタスク管理でも、模造紙に付箋紙を貼っています。いろいろ試しましたが、紙の自由さ・信頼性には敵わない気がします。

課題と展望

まあでも正直、Zoomのたびにケーブルをつなぐのは超面倒そうです。1ヶ月後に無線のリピーターを買っていたら、お許しください。結局のところ、「100%確実なアナログ」に行ったり、「それなりに便利なデジタル」に帰ってきたりを繰り返しています。

PCで作った文書ファイル。使うときはスマホで見るよりも印刷して使うことが多くなりました。紙の質感、ペンで書く感覚、そして何より「ぱっと出してすぐ使える」「バッテリー切れなどのトラブルの心配がない」「目にも優しい」という安心感。この「絶対に裏切られない」という確信は、いつも最新アプリにウキウキと浮気しながらも、古いノートに戻ってしまう理由です。

他にも重要な視点があって、結局のところスマホの方が安上がりですよね。ボイスレコーダーは1万円以上しますし、あの小さな手帳だって安くはありません。付箋紙の価格は見るたびに「これ、裏に金箔でも貼ってあるの?」とウンザリしてしまいます。

すべて、単純に集中力や視力が悪くなってきただけかもしれませんが・・・

というわけで、歳を取ると視点が増えて、いろんな観点から物事を見ることができるようになりますよね。それを自分の仕事に反映して、より多くの人にとって満足してもらえるものを生み出していけたらと思います。考えすぎも良くないけどね!

ChatGPT o1を使いこなすための基礎知識 なぜこんなことが「推論」できるのか?

はじめに

対象読者

o1は便利ですよね。とても深く読み取ることができ、その深さについてはClaudeやGeminiとは一線を画していると感じます。このことをうまく利用すると、かなりいろいろなことができそうです。当然、もっと性能を引き出したくなります。

しかし、o1の技術的な原理はわかりにくいです。特に「推論」という言葉がよく出てきますが、裏側で何をやっているのかわかりません。これが気持ち悪い。

本記事の対象読者は、o1を使いこなしたい人で、技術的な原理を理解することでその性能を引き出したいというスタイルの人です(私)。以下の事柄についてボンヤリと理解していることが望ましいかもしれません。

  • Transformerのアテンション機構
  • ChatGPTがどのように作られているか
    • ベースとなる学習はどのようにおこなっているか
    • ファインチューニングとは何か

ご提案

以下の文章(o1を使って書きました)を読んで、o1の技術的な原理を理解する。

私の場合

推論の仕組みが大まかに分かりました。「なぜこんなことがわかるのだろう?」という疑問をある程度解消できました。今後どのようなタスクをChatGPT o1に任せればいいか、イメージが湧きました。

課題と展望

本当はTransformerのしくみをもっと勉強した方が良いのかもしれません。

OpenAI o1とは?

OpenAI o1は、2024年9月12日にOpenAIが発表したChatGPTの最新モデルであり、特に複雑な推論や高度なタスク処理能力を備えています。主な特徴は以下の通りです:

① 高度な推論能力

このモデルは、理数系分野において高度な推論能力を発揮し、博士課程レベルの知識と理解力を持ち合わせています。

具体的には、物理学、化学、生物学などの専門知識を持ち、理論や概念を深く理解した上で応用問題や新規課題に対して的確な推論が可能です。また、微分積分線形代数、確率統計など幅広い数学分野で高い推論精度を発揮し、抽象的・複雑な数学問題を段階的に解くことができます。

さらに、PythonJavaScriptをはじめとする多様なプログラミング言語に対応し、高度なアルゴリズム設計やデバッグを効果的に実施できます。

② 思考の連鎖(チェーン・オブ・ソート)

OpenAI o1は思考の連鎖(Chain-of-Thought)能力も進化しており、複雑な問題を解く際に複数の思考段階を踏み、論理的に答えを導き出すことができます。

問題解決のプロセスをステップごとに明確に表現し、回答が得られるまでの推論プロセスを可視化することで、なぜその答えに至ったかが明瞭になります。長期的・多段階的な推論を必要とする問題に対し、従来モデルより大幅に正確かつ安定した推論を提供し、特に論理的複雑性が高い課題に強みがあります。推論や決定理由を明確に説明できるため、利用者がモデルの考え方を理解しやすく、透明性が高まり、安心して利用できるだけでなく、教育・訓練用途にも適しています。

③ 高い安全性

安全性や信頼性の面でも大幅な進歩を遂げており、医学的助言、法律、財務アドバイスなど影響が大きい分野で重大な誤りを生じる可能性を大幅に削減しています。

回答が不明確な場合や十分な根拠がない場合には、無理な回答を控え、ユーザーに警告や注意を促すよう調整されています。また、偏見や差別的表現、誤情報の発生確率を大幅に低減し、倫理的なガイドラインに従って運用されます。人権、プライバシー、コンプライアンスに関するセンシティブな質問や課題に対して慎重に回答し、AIが突然異常な回答を生成したり、一貫性のない回答をしたりするリスクが従来モデルより低く抑えられています。

安定性が高いため、業務利用や教育用途など責任が重い分野にも安心して使用可能です。

高度な推論を支える技術要素

1. 思考の連鎖(Chain-of-Thought)の採用

従来のAIモデルは問題の結論を直接予測しがちでしたが、OpenAI o1では中間ステップを明示的に表現します。この思考プロセスを段階化・可視化する手法により、推論誤りを早期に検出しやすくなり、複雑な問題でも体系的かつ論理的に解決可能になります。この特徴とメリットとして、誤り防止、複雑な課題への強み、説明性の向上が挙げられます。

2. 人間によるフィードバックを活用した強化学習 (RLHF)

OpenAI o1では、人間の専門家からのフィードバックを取り入れながらモデルを調整します。従来のデータ駆動型学習だけでなく、「人間的な直感」や「専門家の実務経験」をモデルに反映できる点が特徴です。これによるメリットとして、推論の精度と安定性向上、倫理面・安全面の配慮、ユーザーが求める形に近い回答スタイル・内容に仕上げやすい点が挙げられます。

3. 推論の透明性・説明可能性(Explainability)の向上

なぜその答えに至ったかを可視化し、ユーザーが推論プロセスを理解できるようにすることで、推論の途中段階を明らかにすることで誤りの発見・修正が容易になります。倫理的にも、ブラックボックスなAIより信頼性を高められます。

4. 特化した訓練データと最適化アルゴリズムの改善

長期的推論を要する数学や論理問題に特化したデータセットを用いて学習し、最適化アルゴリズムの進化によって、学習過程での誤った推論を最小化しています。専門分野に深く寄り添った調整が行われるため、高い安定性と正確性を確保できます。

5. モデルサイズとパラメータの増強

OpenAI o1は、従来よりも大幅にパラメータ数(AIを構成する神経回路の結合数)を増加させています。GPT-4(推定1兆個以上のパラメータ)を上回る規模で、より膨大な知識と論理関係を保持可能になりました。

パラメータとは、AIが学習データから得たパターンやルールを数値化したもので、多いほどより複雑で微妙な関係性や大規模な知識を記憶・処理できます。

パラメータ増強による効果として、長距離依存関係への対応力向上、複雑な階層構造の推論能力強化、幅広い専門知識の取り込みが挙げられます。パラメータが多いと推論が高度化するのは、多様なデータパターンの学習や柔軟な知識統合が可能になるからです。

6. 長距離依存関係への対応力

長距離依存関係とは、文章や問題解決の場面で、「冒頭」や「中盤」の情報が「終盤」の推論に強く影響するケースを指します。

OpenAI o1のアプローチとして、パラメータ数の増強、Transformerモデルの進化、「注意機構」により、重要箇所を常に参照できる点、訓練方法の改善が挙げられます。

活用事例として、長期計画・戦略策定、物語・長文読解、法律・規約文書の分析、技術文書の解釈が挙げられます。長距離依存関係の重要性として、文脈理解の精度向上、多段階問題への強さ、人間に近い直観的推論が挙げられます。


これらの要素が組み合わさることで、OpenAI o1は「複雑な課題に対する高度かつ安定した推論能力」を実現しています。さらに長距離依存関係への対応や専門分野をまたぐ知識統合など、人間に近い推論を提供可能になりました。企業や研究機関での高度な応用はもちろん、一般ユーザーにも大きな価値をもたらすモデルとして期待されています。

得意とする課題とその具体例

複雑な数学・科学問題の解法

理学・工学・製造・医療などの分野で扱われる高度な数理課題や科学的プロセスに対して、OpenAI o1は多段階の思考プロセスを踏むことで安定した解を導くことができます。ここでは、1階線形微分方程式と多段階化学反応の例を取り上げ、どのように問題を解決していくのかを具体的に見ていきます。


1. 1階線形微分方程式の解法

問題設定
理学・工学分野、さらにはビジネスにおける需要予測や在庫管理の数理モデルなど、幅広い領域で1階線形微分方程式が利用されます。たとえば、

dydx+ytan⁡(x)  =  cos⁡2(x)\frac{dy}{dx} + y \tan(x) \;=\; \cos2(x)dxdy​+ytan(x)=cos2(x)

という形の問題に直面した際、OpenAI o1はチェーン・オブ・ソート(Chain-of-Thought)を活用し、段階的な思考を可視化しながら解を導きます。

解法のステップ
まず、この微分方程式が「1階線形微分方程式」であると分類され、dydx+P(x) y=Q(x)\frac{dy}{dx} + P(x)\,y \= Q(x)dxdy​+P(x)y=Q(x) という一般形に合わせて、P(x)=tan⁡(x)P(x) \= \tan(x)P(x)=tan(x)、Q(x)=cos⁡2(x)Q(x) \= \cos2(x)Q(x)=cos2(x) と認識されます。次に、積分因子を求める際には

μ(x)  =  e∫P(x) dx  =  e∫tan⁡(x) dx  =  1cos⁡(x),\mu(x) \;=\; e^{\int P(x)\,dx} \;=\; e^{\int \tan(x)\,dx} \;=\; \frac{1}{\cos(x)},μ(x)=e∫P(x)dx=e∫tan(x)dx=cos(x)1​,

という計算を行い、得られた μ(x)\mu(x)μ(x) を元の方程式に乗じて左辺を微分の形に整形します。最後に両辺を積分し、一般解として

y  =  sin⁡(x) cos⁡(x)  +  C cos⁡(x)y \;=\; \sin(x)\,\cos(x) \;+\; C\,\cos(x)y=sin(x)cos(x)+Ccos(x)

と表されることが導かれます。こうしたステップを丁寧に追うことで、誤った公式適用や積分計算のミスを回避できるうえ、途中の論理を人間が検証しやすいという利点も得られます。

応用とポイント
1階線形微分方程式は非常に汎用的で、さまざまな時系列変動モデルや連続成長モデルに応用されています。OpenAI o1が思考過程を明示化することで、複雑な数式展開も段階的に点検可能になり、理学・工学系の研究だけでなくビジネスの需要予測や在庫管理などの意思決定プロセスでも活躍の場が広がります。

2. 多段階化学反応の計算

問題設定
製造業や医薬品開発の分野では、化学反応の工程を数理モデル化する場面が多々あります。たとえば、

A  →  B  →  CA \;\rightarrow\; B \;\rightarrow\; CA→B→C

という二段階の連続反応で、それぞれの反応速度定数 k1k_1k1​、k2k_2k2​ が与えられたとき、最終生成物 CCC の濃度を時間 ttt の関数として求めることは典型的な課題です。

解法のステップ
OpenAI o1による解法では、まず「AからB」「BからC」という二段階を独立の反応速度式として切り分けます。たとえば、最初に

−d[A]dt  =  k1[A],d[B]dt  =  k1[A]−k2[B]-\frac{d[A]}{dt} \;=\; k_1 [A], \quad \frac{d[B]}{dt} \;=\; k_1 [A] - k_2 [B]−dtd[A]​=k1​[A],dtd[B]​=k1​[A]−k2​[B]

を解析し、その結果得られた [B](t)[B](t)[B](t) を次の段階で

d[C]dt  =  k2[B]\frac{d[C]}{dt} \;=\; k_2 [B]dtd[C]​=k2​[B]

に代入する形で計算を進めます。最終的には、二段階の解を統合することで [C](t)[C](t)[C](t) の時間変化が得られます。チェーン・オブ・ソートの可視化によって、どの段階でどの式を適用したかを明確に追跡できるため、大規模な最適化やパラメータ調整も効率的に行えるという利点があります。

応用とポイント
大規模プラントの製造工程など、温度や圧力など多くの要因が絡む複雑な化学反応プロセスでも、チェーン・オブ・ソートによって「どこで計算が誤る可能性があるか」を検証しやすくなります。さらに、専門家の知見をRLHF(人間の専門家によるフィードバック)として組み込めば、反応速度定数や副反応の評価など現実的な判断を加味した解析が可能です。

3. まとめ

OpenAI o1は、微分方程式や化学反応計算といった伝統的な数理・科学的課題において、段階的に思考を進めることで解を導き出す強みを持っています。1階線形微分方程式のように一見シンプルなものから、産業現場での多段階化学反応のように複雑なプロセスに至るまで、モデルの推論過程を可視化する仕組みが誤りの早期発見と精度向上に寄与します。
さらに、ビジネス領域への応用や研究開発の高度化にとっても、こうしたチェーン・オブ・ソートによる透明性と安定性は大きなアドバンテージとなります。専門家・ビジネスパーソンのいずれにとっても、このような複雑な課題への取り組みを支援する有力なツールとしてOpenAI o1が活用されることが期待されています。

ビジネス分野での高度推論

ビジネス分野では、複雑かつ多面的な課題に対して、論理的な根拠と説明責任を伴う意思決定が求められます。OpenAI o1は、こうした経営やマーケティング領域の高度な分析・推論作業を強力に支援する可能性を持っています。戦略策定から市場分析、リスク評価まで、多様なデータや要件を踏まえながら段階的に論理を組み立てるチェーン・オブ・ソート(Chain-of-Thought)アプローチは、ビジネス特有の不確実性に対して大きな効果をもたらします。

たとえば、新市場への製品投入戦略を立案する場合、まずは既存市場と対象市場の規模や競合動向を詳細に分析し、次に自社製品の強みと弱みを洗い出すなど、複数の思考ステップが必要です。OpenAI o1は、この一連の過程を「小さな問題」に分解し、それぞれの段階で導き出した結論を可視化しながら統合するため、抜け漏れや誤りを早期に発見しやすくなります。リスク評価のように、実際の経営判断で曖昧さや複数シナリオが想定されるケースでも、チェーン・オブ・ソートを用いて「もしAが起きればXの影響、Bが起きればYの影響」という形で枝分かれした可能性を検討できるため、意思決定の透明性と納得感が高まるでしょう。

ビジネス課題はしばしば領域横断的であるため、OpenAI o1の得意とする知識統合機能が特に有効です。経済学や統計学のモデルをはじめ、心理学や行動経済学、さらには自然言語処理による顧客の声の解析などを横断しながら、総合的な戦略を策定できるのは大きな利点です。たとえば、新製品の価格改定を検討する際には、過去の売上実績と経済指標だけでなく、SNSの消費者評判の分析結果も同時に取り込むことで、より複合的な需要予測とシミュレーションが可能になります。

さらに、OpenAI o1は高度な自然言語処理能力を備えているため、分析結果のレポートやプレゼン資料の生成でも貢献が期待できます。情報の要約や整合性の確認をAIが行い、人間の専門家やビジネスパーソンが補足・修正しながら最終成果物を洗練させる形で、作業効率と品質向上を両立できるでしょう。戦略立案だけでなく、顧客対応や問い合わせの自動応答といった場面でも、チームがRLHF(人間によるフィードバック)を適切に与えることで、AIのアウトプットの精度と安全性をよりいっそう高めることができます。

このように、ビジネス分野でのOpenAI o1の活用は多岐にわたります。計画立案やリスク評価のように複雑な思考工程を要する作業に強みを発揮するだけでなく、意思決定の根拠を段階的に示すことで、社内外のステークホルダーにも結果を説明しやすくなります。多面的な知識やデータを同時に扱いながら、専門家のフィードバックを組み込んで不断に学習を進められる点も、ビジネスの流動的な環境においては大きなアドバンテージとなるでしょう。

複数分野の知識統合が必要なタスク

複数の分野にまたがる知識を統合するタスクは、企業や研究機関が抱える高度な課題の中でも特に解決が困難な部類に入ります。新素材の開発であれば物理学と化学、生物医学研究であれば医学と生物学、あるいはマーケティングや経済分析であれば経済学・社会学・心理学といった具合に、領域ごとに異なる概念や理論を一元的に扱わなければならないからです。通常は各専門領域が独自の方法論や用語体系をもつため、領域間での連携がスムーズに進まず、知識やデータが断片化してしまいがちです。

OpenAI o1がこうしたタスクに特に有効である理由として、大規模パラメータ数による幅広い知識保持が挙げられます。単に各領域の情報を暗記しているだけではなく、Transformerモデルの文脈把握能力により、離れた箇所の知識やキーワードを関連付けながら柔軟に推論を組み立てることができるのです。また、人間の専門家によるフィードバック(RLHF)を適切に取り入れることで、分野横断的な問題に対してより現実的かつ正確な判断を下せるよう調整されています。たとえば、化学シミュレーションを行う際、物理学の量子理論や生物学的特性の考慮が必要になっても、モデル全体が連携して知識を参照できるため、単独の領域に閉じた解析よりも統合的な結論を導きやすくなります。

このような分野横断型の推論は先端材料開発やヘルスケアのイノベーション、社会課題の解決策立案など、幅広い領域で期待されています。材料開発では物理学と化学の観点を統合しながら分子や結晶構造を評価し、同時に実用化に向けた生産プロセスをも視野に入れる必要があります。医療や生物学では、遺伝子変異のメカニズムだけでなく、実際の臨床データや公衆衛生上の制約まで取り込むことで、新型感染症や難病への効果的な対応策を提案することが可能になるでしょう。社会課題の解決においても、経済学や心理学、さらに社会学の観点を合わせることで、複雑に絡み合った問題を総合的に理解し、実効性の高い対策を設計できます。

総じて、複数分野の知識を同時に扱わなければならないタスクは、人間にとって非常に負荷の大きい作業です。専門領域をまたぐ度にことなる用語や前提条件を参照し、論理的整合性を保ち続ける必要があるからです。OpenAI o1は大規模パラメータとTransformerモデルの注意機構を活かして、分野間の隔たりをまたぐ思考プロセスをチェーン・オブ・ソートで可視化しながら進められるため、柔軟かつ統合的な推論が可能になります。これにより、先端研究の加速や多角的な戦略立案など、人間の思考リソースが制約となっていた領域で新たな価値が生み出されることが期待されています。

NotebookLMを効果的に利用するためのガイド 主な用途と課題への対策

以下は参考文献を私が個人的に整理したものです。

NotebookLMの利用用途

1. オープンエンドの思考とアイデアを探求

「すべてのノートブック」を保持します。ほとんどの日に作業する一般的な知識を含むソースをロードします。

ソース:読んだ本からの心に強く訴える引用、あなたが働いている会社を説明するコア文書、長年にわたって捉えたすべてのブレーンストーミングのアイデア

プロジェクトの情報共有や文書執筆

効果的にチームの別のメンバーを持つようなパーソナライズされたAIを作ります。例:「先週議論していたその機能のブログ投稿の概要をドラフトする」

まずトピックまたはプロジェクトベースの単一のノートブックを作成します。次に以下のような関連するすべてのソースを保存します:すべてのプレスリリース、新機能の説明、チームとして書いている重要な内部ドキュメント。

小説の執筆などの創造的な用途

ファンタジーSF小説の執筆や、世界の構築や複雑なバックストーリーに取り組んでいるゲームを開発することなどができます。

まず以下のようなソースを追加します:いくつかのメモ、さまざまなウェブページを保存、インスピレーションとして撮った写真やビデオ。次に以下のようなプロンプトを使用します:「どのキャラクターが最も説得力があると思いますか?」「あなたの好きな部分は何ですか?」。

NotebookLMが抱えている課題と対策

1. 特定の操作が手間

NotebookLMを閉じるとチャットが失われてしまう

対話中に集めた洞察を失いたくないときは、チャットの最後に、ノートブックルムに、会話の重要なポイントをそのノートに入れる単一のノートに要約するように依頼します。

Webページをインポートするのが手間

Chrome拡張を使用しましょう:WebSync full site importer for NotebookLM - Chrome ウェブストア — https://chromewebstore.google.com/detail/websync-full-site-importe/hjoonjdnhagnpfgifhjolheimamcafok

参考として、他にもNotebookLMのChrome拡張はいくつかあります:Chrome ウェブストア - 検索結果 — https://chromewebstore.google.com/search/notebooklm

2. NotebookLMによるソースの分析精度が悪い

ノートブックを分割しましょう

ドキュメントが長くなると分析の精度が悪くなるため、小説や長編ドキュメントの精度を向上させる必要が生じます。このようなときは以下の方法で対策することができます:

章やセクションごとにノートブックを分割し、要約をソースに追加します。すなわち、特定の章をレビューする際に、前の章の要約を作成し、新しい章と一緒にNotebookLMのソースとして使用します。これにより、AIが背景情報を理解しやすくなります。

ソースを比較分析しましょう

NotebookLMで大量のファイルを扱う際に、すべてのソースが均一に扱われる傾向があります。

どういうことかというと、NotebookLMでは、大量のドキュメントをソースとしてアップロードした場合、AIはこれらのソースを区別せずに、全体を一つの大きなテキストとして扱う傾向があります。これは、個々のドキュメント間の微妙な差異や、特定のドキュメントに特有の情報を識別することが難しくなることを意味します。

例えば、100件以上の履歴書をアップロードして、特定の職務記述書に合致する候補者を抽出するようなケースでは、NotebookLMは個々の履歴書を別々のエンティティとして認識せず、すべての履歴書をプールとして扱う可能性があります

この問題に対しては「ソースの比較」機能が便利です。これは、どのソースが使われているかを確認する方法です。

具体的には、「ソースを比較する」というプロンプトを使用します。これにより、引用を基に参照元ファイルを確認します。特に多数のファイルを扱う場合に有効です。

また、特定のテーマや質問に関する情報を複数のソースから抽出するようにNotebookLMに指示することで、ソース間の相違点や共通点を明確にすることができます

オーディオ概要を利用することもできます。複数のソースをアップロードした後、オーディオ概要を生成することで、NotebookLMがどのようにソースを解釈し、統合しているかを確認できます。異なるプロンプトを使用して複数のオーディオ概要を作成し、それらを比較することで、より多角的な分析が可能になります

Anki形式でのフラッシュカード作成も有効です。プロンプトを具体的に指定することで、Ankiの形式でフラッシュカードを作成し、ソースの内容を比較検討することができます

引用元を特定できます:NotebookLMが生成したテキストや回答の中に、特定の情報や主張が含まれている場合、その情報がどのソースから引用されたものなのかを「ソースの比較」機能で確認します。

AIがドキュメントの関連性をどう分析しているか、わからないときは、ドキュメントの関連性を確認しましょう。複数のドキュメント間で、特定のテーマやキーワードに関する情報がどのように分布しているかを「ソースの比較」機能で分析します。これにより、ドキュメント間の関連性や、特定の情報がどのドキュメントに集中しているかを把握することができます。

命名規則によってソースを整理しましょう

適切な命名規則を設定します。

バージョン管理:ソースを更新する際には、バージョン番号を名前に追加することで、変更履歴を管理できます。例えば、「document_v1」、「document_v2」のように命名することで、最新バージョンと過去のバージョンを区別できます。

グルーピング:関連するソースをグループ化するために、共通のプレフィックスまたはサフィックスを使用することを検討してください。例えば、「projectA_report1」、「projectA_report2」のように命名することで、プロジェクトごとにソースを整理できます。

コンテキスト:プロジェクトの背景情報をソースとして追加する場合は、「bg-info_プロジェクト名」のように命名することで、背景情報であることを明確にできます。

ファイル形式:ファイル名に拡張子を含めることで、ファイルの種類を明確にできます。例えば、「report.pdf」、「summary.txt」のように命名します。

AIが特定のソースに焦点を当てるようにしたい

コンテキストを明示的に提供します。

ビジネスアイデアなど、質問の背景となる情報をNotebookLMのソースとして追加します:質問をする際に、「bg-info (ソースの名前)を背景情報として使用して」のように指示することで、毎回同じコンテキストを記述する手間を省けます。

プロンプトを工夫します:NotebookLMに質問や指示を与える際に、具体的なキーワードや条件を含めることで、AIが特定のソースに焦点を当てやすくなります。例えば、「〇〇というテーマについて、AというドキュメントとBというドキュメントを比較してください」のように指示することで、より精度の高い分析が期待できます。

3. 回答に問題があり、調節したい

不要な要素が入ってしまう

ネガティブプロンプト:「~しないで」という指示を含めることで、不要な要素を排除できます7。例えば、「Don’t make it sound so AI-like. don't take a break in the program. don't mention: "Deep dive" ABSOLUTELY NO FILLER WORDS」というプロンプトがあります

特定の層に合わせた説明を出力したい

対象読者の指定: 若者向けの説明を求める際に、「use gen z brainrot social media slangs to explain each concept」のようなプロンプトを使用することで、特定の層に合わせた説明を得ることが可能です。

特定の専門的な視点からの分析をさせたい

役割の具体化:単に「専門家」としてだけでなく、「〇〇分野の専門家」のように具体的に役割を指定することで、より専門的な視点からの回答を期待できます

4. その他

情報が不足しているドキュメントがどれか、わからない

情報ギャップを発見する方法です。特定のテーマについて、情報が不足しているドキュメントを「ソースの比較」機能で特定します。これにより、追加の調査や情報収集が必要なドキュメントを効率的に見つけ出すことができます。

DeepResearchの結果をNotebookLMで分析したい

レポートをGoogleドキュメントに変換し、ソースとして追加します。

別の方法として、websync full site importer Chrome拡張機能を使用する方法があります。この拡張機能を使うと、DeepResearchからNotebookLMにすべての情報を直接取り込むことができます。具体的には、DeepResearchのすべてのソースがNotebookLM内の個別のソースとして扱われるようにインポートされます。

参考文献

Difyアプリを埋め込むと「Please check if your app mode matches the right API route.」と言われて動作しないときの対処法

私が直面したちょっとした技術的なトラブルとその解決法をご紹介します。

生成AIを活用したサービスを手軽に導入できる「Dify」を使って自社のホームページにAIチャットボットを埋め込もうとしたところ、予想外の壁にぶつかりました。しかし、その解決策は意外にシンプルでした。

エラー発生と原因

Difyを使ってテキスト生成AIアプリを作成し、提供されたHTMLコードをそのままホームページに貼り付けたところ、「Please check if your app mode matches the right API route.」というエラーメッセージが表示されて動作しませんでした。これは一見難解なメッセージに思えますが、実はiframeのURLパスが間違っているという単純な問題でした。

解決方法

問題の根本は、Difyから提供されるデフォルトのiframeコードが、アプリのモードと一致していなかったことです。具体的には以下のように修正することで解決しました。

修正前:

<iframe
 src="https://udify.app/chatbot/xxxxxxxxxxxxxxxx"
 style="width: 100%; height: 100%; min-height: 700px"
 frameborder="0"
 allow="microphone">
</iframe>

修正後:

<iframe
 src="https://udify.app/completion/xxxxxxxxxxxxxxxx"
 style="width: 100%; height: 100%; min-height: 700px"
 frameborder="0"
 allow="microphone">
</iframe>

URLの「chatbot」部分を「completion」に変更するだけで、エラーは解消されました。

重要ポイント

Difyでは「チャットモード」と「テキスト生成モード」の二種類があり、それぞれ異なるAPIルートを使用します。テキスト生成モードのアプリを埋め込む場合は「completion」のパスを、チャットモードのアプリには「chatbot」のパスを使用する必要があります。アプリ作成時に選択したモードと一致するように、iframe URLを確認することがトラブル防止のカギとなります。