【プレスリリース】国産LLM開発 - BPに代わる新学習アルゴリズムの発見とMNIST90%超えを達成 #1

はじめに
前提
1ヶ月の成果のまとめ
具体的な成果
今後について
まとめ
質疑応答
関連研究
新しい学習アルゴリズムの仕組みについて（一部）

はじめに

ちょうど一ヶ月前、国産LLMを作ると宣言したところ大きな話題になりました。あれから1ヶ月の進捗と今後の進め方、新アルゴリズム発見について書いていきます。

国産LLMを作ることになってしまった。楽しみすぎる。最強の和製LLMを作ります。
— 手羽先 | 国産LLMを作る人 (@Tebasaki_lab) August 22, 2025

前提

国産LLMを作るに至った背景は以下をご覧ください。

私は開発者であり、研究者ではありません
個人のお金で研究開発しています
- フルタイムで働いた後に夜中から朝5時まで開発する生活を先月から今日までやっています
先行研究などを出せと言われたので、下の方に貼っております
学習アルゴリズムの仕組みについては下の方に書いておきます

宣言ツイートした時から参考にしてた関連研究ですが、プレスをせっかく出すのと、私がこれらの研究と違うことをやっていることを証明するために書きました。… https://t.co/Gf5j2Trdqk
— 手羽先 | 国産LLMを作る人 (@Tebasaki_lab) September 23, 2025

1ヶ月の成果のまとめ

今まで見つかっていない新しい学習アルゴリズムを発見
- BP無し、重みを並列計算可能、微分無し
MNIST精度90%超え
FPGA上で推論動作実験済み！！
- →1クロックで1層→50Mhz~500Mhzで動作可能
- clk: 50MHz 周期でいうと20ns
- 精度96.0% (1000枚中960枚正解)
自然言語処理、LLMに向けた基盤ができ始めた
独自のフレームワーク, MDZeroを開発中

具体的な成果

新学習アルゴリズムの発見

開発チームは、既存のBack Propagation（誤差逆伝播法）に変わる新しいアルゴリズムを発見しました。BPに変わる、もしくは近い学習アルゴリズムの研究は多く存在し、その中でも有名なアルゴリズムと比較した表が画像です。以下の特徴があります。

100万,1000万パラメーターあろうが同時に重みを計算、更新可能
層を100層に増やしても学習する
- 勾配消失がない
計算時に今まで必要だった以下のパラメーターが不要に
- 重み, 活性化関数の微分, 相関関数, 乱数行列, 微分
1層1クロックで動くアーキテクチャに直接変換可能

考え
- 微分を使っていないので、Stochastic Computingを入れても動く可能性がある
  - つまり、FPGA上でバイナリで学習できる可能性もあり

類似研究は山のようにありますが、全て微分や重みなどを使っているので、私がやっているのとは別になります。関連論文は記事の下に貼っておきます。　

また、なぜ学習が進むかは開発者本人である私も分かっていません。単体ニューロンでXORや任意のゲートおよび関数を学習できるようにアルゴリズムを作ったところ、3層でも100層でも256層でも学習してしまった、というのが現時点で分かっていることです。

アルゴリズム開発者本人ですが、なぜ学習が進むのかは謎です。 https://t.co/OxY4OIqcKl pic.twitter.com/IPMK5Yk5w1
— 手羽先 | 国産LLMを作る人 (@Tebasaki_lab) September 20, 2025

MNIST精度90%超え

MNISTという手描き文字を認識するタスクがあり、私たちが作ったニューロンと学習アルゴリズムは90%を超える精度を出すことに成功しました。他のCNNやBPに比べて精度は劣りますが、半月前に発見されたアルゴリズムを入れてみたら動いてしまったので、まだまだ精度向上の可能性と高速化の可能性を秘めています。

結論、精度94.9%達成しました！！！！

MNISTの学習6万件、テスト1万件での成果です。モデルサイズやエポック数、バッチ数が以前と全く違うので比較はできませんが、現時点での最小モデルは1万件の完全に学習に使われていないデータに対してこれぐらい精度が出るようです。

ありがとうございます！ https://t.co/7KiSxqLvVh pic.twitter.com/O6fa9iSmw3
— 手羽先 | 国産LLMを作る人 (@Tebasaki_lab) September 21, 2025

スケーリング則が適用されることを確認

64サイズの中間層を100層用意してMNISTを学習させたところなんと学習し、精度も過去最高になってしまいました。つまり勾配消失はないですし、モデルをでかくすればするほど性能が上がることが分かりました。今回のモデルでは117万パラメーターを使っており、このパラメーターがどんどん増えると性能が上がるということです。MNISTごときに100万パラメーターかと思うかもしれませんが、モデルの構造上、現時点では重みを共有できていなかったり、1出力につき1モデル必要になっているため、10倍のパラメーターが必要になります。最大の欠点でもありますが、初期段階では1つのモデルで学習成功していたり、重み共有やモデル構造の改良はいくらでもやりようがあるので、まずはスケーリング即が適用されることを確認しました。

※これの凄さは、でかくすればするほど性能が上がり、100層重ねても勾配消失がなく、114万パラメーターが並列で同時に更新されているという事実です。BPではあり得ません。

秒間5億枚処理可能

とはいえ、推論であればTAIの中原さんやLUT-Networkの渕上さんが既にされているので、強調したいのは、新しい学習アルゴリズムで同等の推論速度が出せるということです。

FPGA実機でのテスト

これ、FPGA実機でのテストも完了してて、一枚の画像につき1クロックで推論できてます。FPGAチームによると精度96.0% (1000枚中960枚正解)とのことです。すごい！！ https://t.co/iXdDLNUZQn
— 手羽先 | 国産LLMを作る人 (@Tebasaki_lab) September 23, 2025

これはとんでもないことなのですが、開発チームの1人であるN氏が、記事の前日にFPGAに私のニューロンの専用回路を開発し、実機での検証が可能になりました。~~256枚中205枚分類に成功しているので、ランダムで動いている訳ではなさそうです。~~1000枚中960正解しているので、96%達成しているようです。(2025/09/24)

とはいえ、GPU上で学習、シミュレーションしたニューロンをFPGA上で動くようにコンパイルする際に尤度が失われてしまうので、MNISTの精度が20~30%程度低下するという大きなデメリットを抱えています。しかし、GPU上での学習を改良すれば解決できる問題なので今後開発を進めていきます。

また、宣言ツイートをした一ヶ月前から知り合ったM氏（FPGA, DFA）も率いて開発を進めてまいります。

今後について

NN以外のアーキテクチャ開発
- 現在、全結合層しかできていないので、CNN,RNNなどに応用していきます
LLMの開発
- 現在は画像認識タスクなので、来月からはLLMに近づくため自然言語処理に取り掛かります。
- 具体的にはCBOWやAttention,RNNなどです
技術の公開について
- このアルゴリズムが見つかったこと自体が半月前ですので、安全かつ丁寧に公開準備を進めていきます
- 未踏ITや起業、企業との共同研究など、色々と進めております

まとめ

LLMを作ることは可能なのでしょうか？ー否定はできません。

全てのアーキテクチャはNNから発達し、LLMや自然言語処理も結局は言葉の意味の近さや計算というものをNNから発展させたCBOWやCNN, seq2seq, RNN, Attentionでやってるので、基盤のNNが動いた＝大体動くんじゃないかという楽観的な思考でやってますw 全然失敗する可能性があるw https://t.co/TSM7SPEsBa
— 手羽先 | 国産LLMを作る人 (@Tebasaki_lab) September 23, 2025

質疑応答

ただのOCR？LLMはどこに？
- ニューロンとその学習アルゴリズムが作っているので、まずは有名なMNISTからやりました
- ここからCBOWなど、言語系のアーキテクチャを開発していきます

なぜBPや既存NNを使わないのですか？
- https://x.com/Tebasaki_lab/status/1969370986631086167

どうやってAI勉強しましたか？
- ゼロつくと論文漁りです

どうやってこのアルゴリズムを思いついたのですか？
- 夢の中で東雲なのが教えてくれました

早く論文出して
- 論文を出すと仕組みが全世界に公開され、せっかくの技術が違う国にパクられて国や組織として不利益になります
- →なので特許があります
じゃあ早く特許出して
- 国ごとに取る必要があったり、莫大なお金がかかるため、検討中です
- 公には出せませんが、某企業や組織との連携も進めているため、お待ちください
精度悪いからこの手法は意味ないのでは？
- https://x.com/Tebasaki_lab/status/1970476839195025629

新しい学習アルゴリズムの仕組みについて（一部）

全てを公開するとアレなので、一部だけご紹介します。

画像のように、今までの学習方法とは色々と違います。最大の特徴として、

微分不使用
活性化関数の位置の逆転
学習時に必要なパラメーターの大幅削減

この二つが大きいです。

微分を使っていないため、複雑な計算式がいりません。また、計算量が圧倒的に減ります。

活性化関数の位置の逆転というのは、今までのニューロンは積和結果を活性化関数に入れ、それを0~1に正規化及び非線形に変形していました。私のニューロンは、その位置関係を逆転させました。つまり、入力は活性化関数→積和演算となります。そんなので動く訳ないと思っていたのですが、依存関係を逆転させることによって微分も複雑な計算も、パラメーターも減りました。

事実、私の学習アルゴリズムは「エラー率」「前回の入力値」「学習率」だけで重みを更新できます。

しかもニューロンは前後の位置をなんとなく把握できるようにモデルの構造を工夫しています。

活性化関数(activation function) [深層...

活性化関数( activation function ) のディープニ...

Yamamoto Taro より:

2025年9月24日 9:13 AM

重みの適用と非線形の活性化関数の適用の順番を入れ替えるのは興味深いですね。解析学的にどう評価されるかが気になります。

返信
- チキンより:
  
  2025年10月31日 2:19 PM
  
  すみません、返信遅れました。正確に言えば活性化関数の役割は後ろ側も担ってはいるのですが、そこには活性関数を通していない単純な計算のみ使っているため、微分がいらなくなった、という表現が正しいかったと今は思います。解析学的にどのようになるかはまだ未知数ですので、チームメンバーと共に開発および調査を進めて参ります。
  
  返信
Yamamoto taro より:

2025年9月24日 8:20 PM

活性化関数の位置の逆転についてですが、2層以上の場合にこの効果って逆転前と同じになりませんか？

返信
- チキンより:
  
  2025年10月31日 2:21 PM
  
  すみません、返信遅れました。この質問もよくいただくのですが、確かに逆転前と同じには部分的にはなるのですが、このニューロンは誤差逆伝播と違ってニューロンごとに局所的かつ並列に学習しますので、ニューロンの中の活性関数の位置および適用部分が重要になり、レイヤー全体としての位置はあまり関係ない構成になっております。なので、2層以上の場合であっても、レイヤー全体で見れば順番はあるところから一緒になりますが、ニューロン単体の中身をのぞいてみると局所的に学習する際には位置関係が逆転している＝それで学習が成功してしまう、という構造になっております。
  
  返信
- チキンより:
  
  2025年10月31日 2:22 PM
  
  返信遅れましてすみません。こちらの質問、よくいただくのですが、確かに逆転前と同じには部分的にはなるのですが、このニューロンは誤差逆伝播と違ってニューロンごとに局所的かつ並列に学習しますので、ニューロンの中の活性関数の位置および適用部分が重要になり、レイヤー全体としての位置はあまり関係ない構成になっております。なので、2層以上の場合であっても、レイヤー全体で見れば順番はあるところから一緒になりますが、ニューロン単体の中身をのぞいてみると局所的に学習する際には位置関係が逆転している＝それで学習が成功してしまう、という構造になっております。
  
  返信

ｗ on 初心者でもわかる！Scratchアカウントの簡単な作り方！何故かできないです
ビーフ on 【マイクラ革命】世界最速の計算機が従来の4倍もの計算速度を出すことに成功！！どんどん進化を遂げていく…こんにちは！！！
Desken on CoderDojo春日の公式Discordサーバーを作りました！【参加可能】こんにちは。次こそはDojo春日に参加したいです！
チキン on 【プレスリリース】国産LLM開発 - BPに代わる新学習アルゴリズムの発見とMNIST90%超えを達成 #1返信遅れましてすみません。こちらの質問、よくいただくのですが、確かに逆転前と同じには部分的にはなるのですが、このニューロンは誤差逆伝播と違ってニューロンごとに局所的かつ並列に学習しますので、ニューロンの中の活性関数の位置および適用部分が重要になり、レイヤー全体としての位置はあまり関係ない構成になっております。なので、2層以上の場合であっても、レイヤー全体で見れば順番はあるところから一緒になりますが、ニューロン単体の中身をのぞいてみると局所的に学習する際には位置関係が逆転している＝それで学習が成功してしまう、という構造になっております。
チキン on 【プレスリリース】国産LLM開発 - BPに代わる新学習アルゴリズムの発見とMNIST90%超えを達成 #1すみません、返信遅れました。この質問もよくいただくのですが、確かに逆転前と同じには部分的にはなるのですが、このニューロンは誤差逆伝播と違ってニューロンごとに局所的かつ並列に学習しますので、ニューロンの中の活性関数の位置および適用部分が重要になり、レイヤー全体としての位置はあまり関係ない構成になっております。なので、2層以上の場合であっても、レイヤー全体で見れば順番はあるところから一緒になりますが、ニューロン単体の中身をのぞいてみると局所的に学習する際には位置関係が逆転している＝それで学習が成功してしまう、という構造になっております。