ÚÀ£¬Ù¯ÏþµÃ·¥£¬Ê©ÇÅÕòСÏï×Ó롵ط½£¬×î½üÀ϶àÈ˽²ÆðÁËŶ¡£ÓÐЩÈ˽²ÕâÀïÏáÊÇ¡°ÀÏÉϺ£Î¶µÀ¡±£¬ÓÐЩÈ˽²ÊÇ¡°²Ø×Å·ÏÎ£¬ºáÊú¸ÂÚ¨ºú¶¼¸ÂµÃÀ´ÈÈÄÖ¡£Ù¯½²ÊÇ·¥£¿ÎÒǰÌËÈ¥ÁËÌË£¬°¥Ñ½£¬ë¡µØ·½ÕæÊÇÓе㽲¾¿¸öŶ£¡ÎÒ¸úÙ¯½²£¬±ÂÏë×ÅÕâÀïÏáɶ¶¼±êÃ÷°×Ŷ£¬ë¡ÊDzØ×ÅÀÏÉϺ£¸öÃŵÀÁ¨¡£Ù¯ÒªÊÇÏëÏþµÃÀïÍ·¹ÊÊ£¬½ñÌìÎҾͺúÃÀ´¸øÙ¯ßëßë¡£
Ê©ÇÅÕòСÏï×ÓÀïÏá¸öÃŵÀ£¬ÈÆÆðÀ´Ïñ³ÇÚòÃíÀïÍ·¸ö·
Õâ¸öÂï¡¡ÏÈ´ÓСÏï×Ó¸ö½á¹¹½²ÆðŶ¡£Ù¯ÏþµÃ·¥£¬Ê©ÇÅÕòÀïÏá¸öСÏï×Ó£¬¸ãµÃÀ´ÀÏÈÆÁË¡£ë¡Ð©ÅªÌ㬿í¿íÕÕ£¬¶«¹ÕÎ÷Í䣬Ïñ³ÇÚòÃíÀïÍ·¸öС·һÑù£¬×ß½øÈ¥¾ÍÏñ²ÈÁËÃÔ¹¬¡£ÊDz»ÊÇÓÐò¥Ê×ÔÎŶ£¿µ«Æäʵ롸öµØ·½ÓÐËü¸ö¹æÔò¡£Ù¯ÒªÊÇ×ߵü±ÁË£¬¿ÉÄÜ´í¹ýë¡Ð©ÀÏÆÌ×Ó¡£
ÎÒ¸úÙ¯½²Å¶£¬Ê©ÇÅÕò¸öСÏï×ÓÀïÍ·²Ø×źü¸¸öÀϵêËÁ£¬ë¡Ð©µêËÁ¸öÃÅÃæ¶¼ÎðÆðÑÛ£¬Ù¯ÒªÊǹ⿴Íâò£¬¿ÉÄÜÒÔΪÊÇÆÕͨ¸öÔÓ»õÆÌ¡£ÆäÊµÄØ£¬ë¡Ð©µØ·½ÊÇÕæÕý¸ö±¦²Ø¡£ºÃ±ÈÓÐÒ»¼Ò×öÍÆ÷¸öÆÌ×Ó£¬ÀÏÔç¾ÍÓÐÁË£¬ë¡Ð©Íºø¡¢ÍÍ룬ÊÖÒÕÕæÊǽá¹÷£¡ÁíÓÐÒ»¼Ò²Ã·ìÆÌ£¬ÀÏÔç¸öÉϺ£È˶¼ÏþµÃÁ¨£¬ë¡ÀïÏá²Ã³ö¸öÒÂÉÑ£¬´©³öÈ¥£¬·Ö·ÖÖÓ±»ÈËÎÊ£º¡°ÚÀ£¬Ù¯¸öÒÂÉÑÊǰ¢Àï´î¶¨ÖƸö£¿¡±Ù¯½²£¬ë¡ÊDz»ÊÇÓÐµãÆæÌØ·¥£¿
ÀÏÉϺ£¸öζµÀ£¬²ØÔÚë¡Ð©Ð¡Ì¯ÀïÍ·
ë¡ÌìÒ¹¿ìµãÎÒ³ÔºÃÒ¹·¹£¬¾ÍÏë³öÈ¥µ´µ´Âí·£¬ß¼Ã»Ïëµ½×ßµ½ÅªÌõף¬¿´µ½Ò»¼ÒÃÅÃæÎðÆðÑÛ¸öÉú¼åÂøÍ·µê£¬ÀïÏá×øÁ˼¸¸öÀϲ®²®ÀÕÀ³Ô²è¸ÂÚ¨ºú£¬ÒÁ¸öζµÀÆ®³öÀ´£¬ÕæÊÇÏãÉ·ÍÑÁË¡£ÎÒÈÌÎðס£¬¾ÍÂòÁ˼¸¸öÉú¼å£¬°¥Ñ½£¬Ò»¿ÚÏÂÈ¥£¬ÌÀÖÂú¿Ú£¬Æ¤×Ó´àµÃÀ´Ïñ¸Õ³ö¹ø¸öÓÍÌõÒ»Ñù£¬ÏÚÁÏÊÇÀÏÏÊÁË£¡ë¡¸ö³½¹âÎҾ;õ×Å£¬Õâ¸ö²ÅÊÇÀÏÉϺ£¸öζµÀ¡£
͵͵¸æËßٯŶ£¬È¥Ê©ÇÅÕòСÏï×Ó£¬Ù¯Ò»¶¨Òª¿´ºÃʱ¼ä¡£×îºÃÊÇÏÂÎçÁ½Èýµã³½¹âÈ¥£¬ë¡¸öʱºò£¬Ð¡Ì¯¸ÕÊÕʰºÃ£¬¹¤¾ßÐÂÏʵÃÀ´¡£ÁíÓÐŶ£¬Éú¼å¸ö̯ͷÅÔ±ßÓмÒÂôÅ´Ã×ÍŸöÒÌÂ裬ÒÁ¸öÊÖÒÕÒ²ºÃµÃÀ´£¡Ù¯¼ÇÀÎÁË£¬±ð´í¹ý¡£
Ù¯½²£¬ÕâµØ·½ÍíÉÏÈ¥»áÓÐÉ¶ÌØ±ð·¥£¿
ÎÒ¸úÙ¯½²Å¶£¬Ê©ÇÅÕòСÏï×ÓÍíÉÏÈ¥ËäÈ»¿ÉÒÔ£¬Ö»ÊÇÍíÉÏÓÐЩ̯ͷ¹ØµÃÔ磬ٯ¿ÉÄܳÔÎðµ½ë¡Ð©ºÃ¹¤¾ß¡£²»¹ýÒ¹Íí¸öÏï×ӵƹâÒ»ÁÁÆðÀ´£¬ÀÏÓÐζµÀ¸ö£¡Ù¯ÒªÊÇϲ»¶ÅÄÕÕ£¬ÍíÉÏÈ¥µ¹ÊDz»´í£¬ÀÏÓÐÇ»µ÷¡£
±êÇ©£ºÊ©ÇÅÕòСÏï×Ó¡¢ÀÏÉϺ£Î¶µÀ¡¢ÉϺ£ÅªÌá¢ÍÆ÷ÆÌ¡¢Éú¼åÂøÍ·
¡¶¾üÁ¸³ÇСÏï×ÓÄÄÓС·
Ìï¼ÒâÖÇø¿Ú°¶¶þ·µÄÎÄÂù¤ÒµÍ¬Ñù×¢ÖØºÍÆø¼Ò·çµÄ´«³ÐÓëºëÑï¡£ÔÚÕâÀÓοͿÉÒÔÂÃÐÐһЩÒÔ¼Ò·çΪÖ÷ÌâµÄÕ¹ÀÀ»òÔ˶¯£¬Á˽⻴ÄϵØÇøºÍÆø¼Ò·çµÄÉîºñÃØÎÅ¡£
¡¶Õ¿½9598Æ·²è¡·
½Î÷¸§ÖÝÊÐί¸±Êé¼Ç¡¢Êг¤ºú½£·É½üÈÕÌåÏÖ£¬¸§ÖÝÆû³µ¹¤ÒµÊµÏÖÁ˵û±äÉý¼¶£¬³ÉΪȫÊй¤ÒµÉú³¤µÄÖØÒªÖ§Öù¡£
¡¶À¥É½Ð¡Ïï×Ó×îÐÂλÖá·
¢á Zhu X, Cheng D, Zhang D, ..., Zhou B, Mei H, Lin Z. FlowRL: Matching reward distributions for LLM reasoning [J]. arXiv preprint arXiv:2509.15207, 2025.