OmniTools 5月17日消息,RLVR(强化学习与验证)方法在科学理论验证任务中可能表现出不成比例的缺陷。科学理论的验证周期往往长达数十年甚至数个世纪,而当前被广泛接受的理论在短期内反而可能给出更差的预测结果。 该分析指出,以短期反馈为驱动的强化学习范式,与科学探索所要求的长期性、复杂性之间存在根本性冲突。现有AI方法在应对科学发现这类超长反馈周期任务时,正面临显著的结构性局限。