ラズパイでLLMエッジ入門生成AIとロボティクス

1 指示文 2 紙芝居生成 3 制御で紙芝居を再現

生成AIとロボティクスの融合


図1　マルチモーダルLLMは，言語に加え画像やセンサ情報といった複数のデータ・モーダリティを統合して処理できるAIモデル．この技術によって高度なロボット制御が可能になる．画像クリックで動画を見る．または記事を読む．［提供・著］井上祐寛詳細：［VOD/Pi5 KIT/data］大規模言語モデルLLMによる生成AIプログラミング入門

図1　マルチモーダルLLMは，言語に加え画像やセンサ情報といった複数のデータ・モーダリティを統合して処理できるAIモデル．この技術によって高度なロボット制御が可能になる．画像クリックで動画を見る．または記事を読む．［提供・著］井上祐寛
詳細：［VOD/Pi5 KIT/data］大規模言語モデルLLMによる生成AIプログラミング入門

大規模言語モデル（LLM）とエッジ・コンピューティングの可能性

生成AIとロボティクスの融合により，エッジ・デバイスでの高度なタスク処理が現実のものとなりつつあります．

ラズパイのような軽量なエッジ・デバイスにLLMを導入することで，クラウド依存を軽減し，リアルタイム性とセキュリティを向上させることが可能です．以下に，指示文処理，紙芝居生成，ロボット制御の各ステップについて詳しく説明します．

1．指示文処理によるタスク分解

LLMを使用すると，自然言語で記述された指示文を解析し，具体的なタスクに分解できます．「床に倒れている人を助けるために必要な行動を指示してください」という入力があった場合，LLMは次のようにタスクを分解します．

状況の確認（倒れている人の意識確認など）
必要なアクション（緊急連絡，救助体勢の指示など）

このように，LLMは言語処理能力を活かして，複雑なタスクを段階的に分解し，ロボットが実行可能な形式に変換します．

2．紙芝居生成と指示伝達

生成AIのもう1つの利点は，タスクを視覚的に表現する紙芝居の生成です．掃除ロボットに「ビーチを掃除してゴミを分類してください」と指示する場合，生成AIは次のような画像シーケンスを作成します．

ゴミを拾うロボットの動作
ゴミを分類してビンに運ぶようす

画像は連続性と環境整合性を保つよう設計され，ロボットがタスクを効率的に理解できるようにします．この視覚的指示の生成により，ロボットの動作精度が向上します．

3．制御と再現の技術

生成AIが作成した紙芝居をもとに，ロボットが実際に動作を再現するには，低レベル制御信号の生成が必要です．I$^2$CやSPIなどの通信プロトコルを用いて，モータやセンサを制御します．UniPiのような技術を活用すると，動作プランニングと低レベル制御が統合され，効率的なロボット動作が実現します．

マルチモーダルLLMとロボット制御

マルチモーダルLLMとは？

マルチモーダルLLM（例：PaLM-E）は，言語だけでなく，画像やセンサ情報といった複数のデータ・モーダリティを統合して処理できるAIモデルです．この技術により，次のような高度なロボット制御が可能になります．

テキスト指示から動作計画を生成
カメラ映像をもとに環境を認識し，計画を動的に調整

注目すべきは，環境の一貫性を保ちながらタスクを進行する機能です．この特性は，ロボットがタスク完了までの一連の動作を正確に再現する際に重要です．

なぜマルチモーダルLLMが必要なのか？

ロボティクスでは，単純なアルゴリズムだけでは対応しきれない環境の変化やタスクの複雑性が課題になります．たとえば，ビーチ掃除のタスクでは，砂の上の異物や移動ルートの障害物など，動的な状況への対応が求められます．マルチモーダルLLMは次のほう法でこれを克服します:

柔軟性:画像認識で周囲の状況を正確に把握
効率性:言語と視覚情報を統合して計画を最適化

実世界での応用例

Googleの研究で開発されたUniPiは，タスクごとに必要な動作シーケンスを生成し，逆動力学モデルを使用して実際のロボット制御に適用します．たとえば，ビーチ・クリーン活動を行うロボットの場合，UniPiは次のように動作します．

カメラ映像からゴミを識別
アームを制御してゴミを拾い，分類
収集後，次のエリアに移動

〈著：ZEPマガジン〉

動画を見る，または記事を読む

著者紹介

株式会社クレスコ入社後，銀行向けシステムなど数多の開発にリード・エンジニアとして従事．後に自社ソリューションとなる統合認証システムの基礎を独力で開発するなど，アイデアと技術でクレスコを牽引する．技術研究所での機械学習研究を経て，人工知能を強みとする部門に異動．現在はテクニカルエバンジェリストとして企業が持つ業務課題へのAI適用に関するコンサルティング，機械学習に関する技術支援を行う一方，自ら研究テーマを持ち共同研究，実験システムの構築も担当．「SoftwareDesign」「やってみよう！機械学習」（技術評論社），「日経ソフトウェア」「AIプログラマになれる本」（日経BP）への記事寄稿，会津大学，はこだて未来大学，琉球大学，早稲田大学のほかWatson SummitやMicrosoftでの講演等，社外でも精力的に活動中

著書

ラズパイ+USB SDRで作るFlightradar24 Businessアカウント・フィーダ，ZEPエンジニアリング株式会社．
［VOD/KIT］ラズベリー・パイで学ぶエッジAIプログラミング入門，ZEPエンジニアリング株式会社．
［VOD/KIT］世界の航空機を同時追跡！Flightradar24 ラズパイ・キット，ZEPエンジニアリング株式会社．
［VOD/KIT］人工知能カメラM5StickVで作って学ぶ画像解析AI開発入門，ZEPエンジニアリング株式会社．
いろんなことを試して学ぶ！ Pythonプログラミング，2021年，日経BP．
エッジAIプログラミング M5StickV 活用編，日経ソフトウェア2020年11月号，日経BP．
エッジAIプログラミング M5StickV 準備編，日経ソフトウェア2020年7月号，日経BP．
Kaggleに参戦しよう(連載)，日経ソフトウェア2020年1月号，日経BP．
Kaggleに参戦しよう(連載)，日経ソフトウェア2019年9月号，日経BP．
Kaggleに参戦しよう(連載)，日経ソフトウェア2019年7月号，日経BP．
AIプログラマになれる本，2019年，日経BP．
やってみよう！機械学習第2章機械学習の始め方，2019年，技術評論社．
人工知能で画像生成応用編，日経ソフトウェア2019年1月号，日経BP．
人工知能で画像生成基本編，日経ソフトウェア2018年11月号，日経BP．
自分で構築するか，APIで機能を使うか機械学習の始め方，Software Design2018年4月号，技術評論社．

参考文献

［VOD/Pi3A KIT］ラズパイ・キットで学ぶLinux I/Oボードの作り方・探し方・動かし方，ZEPエンジニアリング株式会社．
［VOD/Pi KIT］ラズベリー・パイで学ぶLinux＆Pythonプログラミング超入門，ZEPエンジニアリング株式会社．
［VOD/PiZero KIT］Python×ラズパイで初めての量子コンピュータ，ZEPエンジニアリング株式会社．
［VOD/Pi400 KIT］SLAMロボット＆ラズパイ付き！ROSプログラミング超入門，ZEPエンジニアリング株式会社．
［VOD/Pi KIT］ラズパイ×Pythonで動かして学ぶモータ制御入門，ZEPエンジニアリング株式会社．

ラズパイでLLMエッジ入門 生成AIとロボティクス