【プレスリリース #3】国産LLM開発 - 単一モデルでMNISTが96.89%、CIFAR-10で58.2%達成！

Uncategorized

2025.12.30

はじめに
前提
2ヶ月の成果
今後の展望
Q & A

はじめに

ついに秒間5億枚(500,000,000fps)でMNISTを推論できるAIモデルが出来たぞ！！！

FPGAに直接実装可能で、既存モデルの1/2のパラメーター数&バイナリ化しても精度96.89%！！

誤差逆伝播法なしで全ての重みを並列で更新でき、専用人工知能チップ回路を作ればGPUよりも爆速で学習できる可能性あり！！ pic.twitter.com/we1lF2VMiI
— 手羽先 | 国産LLMを作る人 (@Tebasaki_lab) December 23, 2025

8月に国産LLM（大規模言語モデル）の開発を宣言してから4ヶ月が経過し、12月も新たな進捗をご報告するプレスリリースをお届けします。10月末に2つ目のプレスリリースを出しましたが、

今回の内容は、既存研究の精度にかなり近づいたものとなり、それでいて本手法が有効的なアプローチであることを裏付ける、今までで最も大事な基盤技術となります。

本リリースでは、この度の具体的な開発内容と成果についてご紹介して行きたいと思います。

※様々な指摘に関しては一番下で回答しておりますので合わせてご覧ください。

前提

本プロジェクトについて初めて読まれる方は、以下の記事をご参照ください。

※この記事や関連研究も読まずに批判、指摘している方が多くて話にならないため、これを全て読んでから批判、指摘（誹謗中傷、人格攻撃などを除く）をお願いします。

2ヶ月の成果

単一モデルでの精度の大幅向上（成果）

実は、テストデータで96.97%, 重みをバイナリ化して96.89%という精度を叩き出しています。

混同行列も貼っておきますが、かなり綺麗です。左が実際のテストデータの分類枚数、右側が確率分布に正規化したやつ。

※train/accという文字をtest/accに変更してなかった自分が悪い https://t.co/7m5qdMNRbU pic.twitter.com/QjKw6n8qUo
— 手羽先 | 国産LLMを作る人 (@Tebasaki_lab) December 24, 2025

AP法により、バイナリ化設定における単一モデルの性能が大きく向上しました。評価はいずれも学習（train）ではなくテスト（test）データで実施しています。

MNIST：96.89%
CIFAR-10：58.2%

従来の課題

天才か？ってぐらいパラメーターが0,1にちゃんと2極化してて凄い。ただ、閾値0.5でバイナリ化しても0.2%しか精度下がらないのはなぜなんだろうか。0,1なので相殺しあってるのかなぁ。 pic.twitter.com/mgqjhz5Ktp
— 手羽先 | 国産LLMを作る人 (@Tebasaki_lab) December 18, 2025

これまでバイナリ化を適用すると、精度が大きく低下することが課題でした。

バイナリ化により、精度が約30ポイント低下するケースがあった
MNISTでも約60%程度まで落ち込み、実運用に耐えにくかった
さらに、出力ごとに個別モデルが必要となる構成になりやすく、結果としてパラメータ数が増大する問題があった

CIFAR-10／Fashion-MNISTへの対応拡大

Fashion-MNISTで精度83%達成！！

普通のNNで88%ぐらいの精度なので、だいぶいい線いってる！！

これが全部ロジックゲートで誤差逆伝播を使ってないのでかなり熱い。AP法（自作）、なかなか強そう。 pic.twitter.com/lyj8w7XjYR
— 手羽先 | 国産LLMを作る人 (@Tebasaki_lab) December 17, 2025

AP法の検証対象として、従来のMNISTに加え、CIFAR-10を導入しました。さらに、より実用的な難易度を持つFashion-MNISTにも対応し、評価環境を拡張しています。

成果

Fashion-MNIST：83%（精度）

従来の課題

これまで、**CIFAR-10およびFashion-MNISTを読み込むためのデータローダー（Loader）**の整備が進んでおらず、学習・評価の実験系を十分に構築できていませんでした。

クラウドGPUへの移行による実行環境の強化

AP法の開発・検証環境を、ローカル中心の運用からクラウドGPUへ移行し、実験のスループットと再現性を高めました。

成果

RTX 5090およびNVIDIA H200クラスのGPUを活用可能な環境を整備
学習・評価基盤をRunPodへ移行し、検証サイクルを高速化

従来の課題

これまではM4 Max上でのローカル実行が中心で、

学習時間が長く、反復検証に時間を要する
ログ取得・管理が限定的になりやすい
といった点がボトルネックとなっていました。

今後の展望

CNN, RNN, Transformer, Attentionなどへの拡張
論文執筆に向けての実験と検証、コード整理

Q & A

なんで論文出さないんですか？
- 国際学会に出すことにしました
- 特許を取ろうとしていたからです
MNISTは簡単すぎるのでやる意味がない
- MNISTすら解けないANNの方がよっぽど問題があり、90%後半出ているAP法には可能性があると言える
- そしてMNISTだけで測るつもりは一切なかったためその後にCIFAR0-10で58%を達成。
- 私は、論理ゲート、MNIST、CIFAR…のように専門書で解説されているような順番で進めているだけ
5億FPSは無理じゃない？
- 1層1クロックなのでパイプライン処理では可能
- ただ、指摘されたようにデータセットを5億枚送り込む難しさは考えおらず、そこは過大評価でした
精度悪くない？
- BP以外のアルゴリズムは基本的に低精度である説があります
BP以外の学習アルゴリズムであるHebb則でCIFAR-10が80%出ているのでこのAP法には意味がないのでは？
- 80%出ているものの大半はCNN使っているので、現段階で全結合しか使っていないAP法とは比較不可能です
- 例えば元ネタの論文もCNNを使っています

ｗ on 初心者でもわかる！Scratchアカウントの簡単な作り方！何故かできないです
ビーフ on 【マイクラ革命】世界最速の計算機が従来の4倍もの計算速度を出すことに成功！！どんどん進化を遂げていく…こんにちは！！！
Desken on CoderDojo春日の公式Discordサーバーを作りました！【参加可能】こんにちは。次こそはDojo春日に参加したいです！
チキン on 【プレスリリース】国産LLM開発 - BPに代わる新学習アルゴリズムの発見とMNIST90%超えを達成 #1返信遅れましてすみません。こちらの質問、よくいただくのですが、確かに逆転前と同じには部分的にはなるのですが、このニューロンは誤差逆伝播と違ってニューロンごとに局所的かつ並列に学習しますので、ニューロンの中の活性関数の位置および適用部分が重要になり、レイヤー全体としての位置はあまり関係ない構成になっております。なので、2層以上の場合であっても、レイヤー全体で見れば順番はあるところから一緒になりますが、ニューロン単体の中身をのぞいてみると局所的に学習する際には位置関係が逆転している＝それで学習が成功してしまう、という構造になっております。
チキン on 【プレスリリース】国産LLM開発 - BPに代わる新学習アルゴリズムの発見とMNIST90%超えを達成 #1すみません、返信遅れました。この質問もよくいただくのですが、確かに逆転前と同じには部分的にはなるのですが、このニューロンは誤差逆伝播と違ってニューロンごとに局所的かつ並列に学習しますので、ニューロンの中の活性関数の位置および適用部分が重要になり、レイヤー全体としての位置はあまり関係ない構成になっております。なので、2層以上の場合であっても、レイヤー全体で見れば順番はあるところから一緒になりますが、ニューロン単体の中身をのぞいてみると局所的に学習する際には位置関係が逆転している＝それで学習が成功してしまう、という構造になっております。