AMDが開発中のHalo Box(Ryzen AI Max+ 395 / 128GBユニファイドメモリ)のデモ機写真がreddit r/LocalLLaMA に投稿され、137エンゲージを獲得して話題になっている。OSはUbuntu、筐体のライトストリップはプログラマブル仕様。なんとも開発者ウケする構成だ。注目ポイントは、これがローカルLLM推論専用機として明確に位置づけられている点。クラウドAPI課金に頭を悩ませているフリーランスエンジニアやAIクリエイター、社外秘データを扱う受託案件で「ローカル完結」を求められる開発者にとって、この実機公開は単なるガジェットニュースではなく2026年のローカルAI環境設計の転換点になり得る。
何が新しいのか
Halo BoxはAMDのStrix Haloアーキテクチャ採用機で、Ryzen AI Max+ 395(16コアZen5 + Radeon 8060S iGPU + XDNA2 NPU)と128GBユニファイドメモリを搭載する小型ワークステーション。今回公開された写真ではUbuntuデスクトップが起動した状態で展示され、フロントのLEDストリップがユーザー側で制御可能だと明言された。
従来のRyzenミニPCと違い、CPU・GPU・NPUがメモリプールを共有する構造のため、大規模モデルを丸ごとVRAMに載せられるのが最大の特徴だ。
なぜ重要か / どこがすごいのか
RTX 4090でもVRAMは24GBで、70BクラスのLLMはQ4量子化してもギリギリ。一方Halo Boxは128GBの統合メモリのうち最大96GB前後をGPUに割り当て可能で、Llama 3.3 70BやQwen 2.5 72Bを量子化なし〜Q8で常駐させられる。これは個人持ちマシンとしては破格だ。
消費電力も120W前後と、デュアル4090構成(合計900W超)に比べて圧倒的に省電力。24時間稼働の自動化サーバーとして現実的な選択肢になる。
実務でどう使えるか
実装家目線でいくと、活用シーンはかなり具体的だ。
- ComfyUIワークフロー: SDXL+FLUXを常駐させつつ、別プロセスでQwen2.5-VL 72Bを画像キャプション生成に回す。今までA100借りないとできなかった同時実行が1台で完結する
- Python自動化パイプライン: メルカリ出品文生成、Threads投稿、ブログ草稿などを
ollama serve越しに70Bモデルで処理。Claude APIに月数万払っていた部分が電気代だけになる - クライアント案件のNDA対応: 機密データをクラウドに上げられない受託で、ローカル推論前提の納品物(チャットボット、文書要約API)を提案できる
- Whisper Large + LLM音声書き起こしパイプ: 長尺動画の文字起こし→要約→ブログ化を完全オフラインで回す
特に「クラウド課金が読めない」フリーランスにとって、固定費でブン回せるローカル基盤はビジネス設計を変える破壊力がある。
導入・試し方
Halo Box系製品の市場投入は2026年第2四半期予定で、現状は同じRyzen AI Max+ 395搭載のHP ZBook Ultra G1aやGMKtec EVO-X2が先行入手可能。価格帯は20〜30万円台前半で、RTX 4090搭載機の半額〜2/3。
- 必要なもの: Ubuntu 24.04 LTS / ROCm 6.2以降 / Ollama or llama.cpp(ROCm版)
- 最低限のステップ:
ollama pull qwen2.5:72b→ollama runで動作確認 → ComfyUI-ROCm版でSDXL検証 - 注意点: ROCm対応がCUDAより一歩遅れているので、最新の量子化フォーマット(GGUF Q4_K_M等)の互換性は事前にGitHub issueで確認推奨
まとめ
- Halo Boxは128GB統合メモリで70Bクラスを量子化レス常駐できる初の実用ワンボックス
- クラウドAPI課金からローカル推論への移行コスパが現実的レンジに入った
- ComfyUI・自動化パイプ・NDA案件で「個人スタジオの基盤マシン」として狙う価値あり
元記事: https://www.reddit.com/r/LocalLLaMA/comments/1t09hyw/amd_halo_box_ryzen_395_128gb_photos/


コメント