強化学習エージェントの状態空間構成に自己組織化マップ(Self-Organizing Map:SOM)などの競合学習を行うニューラルネットを用いる方法が近年多く報告されている.これらの方法では強化学習器に Q-learningなどの環境同定型の強化学習を用いることが前提とされており,Profit Sharingにおける状態空間構成にSOMを使用したときは行動規則の学習の速さをSOMの学習が追従できない.そこで本研究では,SOMを Profit Sharingによる強化学習エージェントの状態空間構成に利用した場合においても,SOMがProfit Sharingの学習の速さを追従可能とするための“相互学習残参照型近傍関数”を提案し,その有効性をシミュレーションタスクでの実験により示す.