ÀÏ×ÓÓÐÇ®lzyq88¹ÙÍø

À´Ô´£ºµ¯¹­Ö´·¨£¬×÷Õߣº ´¹ÂÚ£¬£º

ÚÀ£¬Ù¯ÏþµÃ·¥£¬Ê©ÇÅÕòСÏï×Ó롵ط½£¬×î½üÀ϶àÈ˽²ÆðÁËŶ¡£ÓÐЩÈ˽²ÕâÀïÏáÊÇ¡°ÀÏÉϺ£Î¶µÀ¡±£¬ÓÐЩÈ˽²ÊÇ¡°²Ø×Å·ÏÎ£¬ºáÊú¸ÂÚ¨ºú¶¼¸ÂµÃÀ´ÈÈÄÖ¡£Ù¯½²ÊÇ·¥£¿ÎÒǰÌËÈ¥ÁËÌË£¬°¥Ñ½£¬ë¡µØ·½ÕæÊÇÓе㽲¾¿¸öŶ£¡ÎÒ¸úÙ¯½²£¬±ÂÏë×ÅÕâÀïÏáɶ¶¼±êÃ÷°×Ŷ£¬ë¡ÊDzØ×ÅÀÏÉϺ£¸öÃŵÀÁ¨¡£Ù¯ÒªÊÇÏëÏþµÃÀïÍ·¹ÊÊ£¬½ñÌìÎҾͺúÃÀ´¸øÙ¯ßëßë¡£

Ê©ÇÅÕòСÏï×ÓÀïÏá¸öÃŵÀ£¬ÈÆÆðÀ´Ïñ³ÇÚòÃíÀïÍ·¸ö·

Ïà¹ØÍ¼Æ¬

Õâ¸öÂï¡­¡­ÏÈ´ÓСÏï×Ó¸ö½á¹¹½²ÆðŶ¡£Ù¯ÏþµÃ·¥£¬Ê©ÇÅÕòÀïÏá¸öСÏï×Ó£¬¸ãµÃÀ´ÀÏÈÆÁË¡£ë¡Ð©ÅªÌ㬿í¿íÕ­Õ­£¬¶«¹ÕÎ÷Í䣬Ïñ³ÇÚòÃíÀïÍ·¸öС·һÑù£¬×ß½øÈ¥¾ÍÏñ²ÈÁËÃÔ¹¬¡£ÊDz»ÊÇÓÐò¥Ê×ÔÎŶ£¿µ«Æäʵ롸öµØ·½ÓÐËü¸ö¹æÔò¡£Ù¯ÒªÊÇ×ߵü±ÁË£¬¿ÉÄÜ´í¹ýë¡Ð©ÀÏÆÌ×Ó¡£

ÎÒ¸úÙ¯½²Å¶£¬Ê©ÇÅÕò¸öСÏï×ÓÀïÍ·²Ø×źü¸¸öÀϵêËÁ£¬ë¡Ð©µêËÁ¸öÃÅÃæ¶¼ÎðÆðÑÛ£¬Ù¯ÒªÊǹ⿴Íâò£¬¿ÉÄÜÒÔΪÊÇÆÕͨ¸öÔÓ»õÆÌ¡£ÆäÊµÄØ£¬ë¡Ð©µØ·½ÊÇÕæÕý¸ö±¦²Ø¡£ºÃ±ÈÓÐÒ»¼Ò×öÍ­Æ÷¸öÆÌ×Ó£¬ÀÏÔç¾ÍÓÐÁË£¬ë¡Ð©Í­ºø¡¢Í­Í룬ÊÖÒÕÕæÊǽá¹÷£¡ÁíÓÐÒ»¼Ò²Ã·ìÆÌ£¬ÀÏÔç¸öÉϺ£È˶¼ÏþµÃÁ¨£¬ë¡ÀïÏá²Ã³ö¸öÒÂÉÑ£¬´©³öÈ¥£¬·Ö·ÖÖÓ±»ÈËÎÊ£º¡°ÚÀ£¬Ù¯¸öÒÂÉÑÊǰ¢Àï´î¶¨ÖƸö£¿¡±Ù¯½²£¬ë¡ÊDz»ÊÇÓÐµãÆæÌØ·¥£¿

ÀÏÉϺ£¸öζµÀ£¬²ØÔÚë¡Ð©Ð¡Ì¯ÀïÍ·

ë¡ÌìÒ¹¿ìµãÎÒ³ÔºÃÒ¹·¹£¬¾ÍÏë³öÈ¥µ´µ´Âí·£¬ß¼Ã»Ïëµ½×ßµ½ÅªÌõ×£¬¿´µ½Ò»¼ÒÃÅÃæÎðÆðÑÛ¸öÉú¼åÂøÍ·µê£¬ÀïÏá×øÁ˼¸¸öÀϲ®²®ÀÕÀ­³Ô²è¸ÂÚ¨ºú£¬ÒÁ¸öζµÀÆ®³öÀ´£¬ÕæÊÇÏãÉ·ÍÑÁË¡£ÎÒÈÌÎðס£¬¾ÍÂòÁ˼¸¸öÉú¼å£¬°¥Ñ½£¬Ò»¿ÚÏÂÈ¥£¬ÌÀÖ­Âú¿Ú£¬Æ¤×Ó´àµÃÀ´Ïñ¸Õ³ö¹ø¸öÓÍÌõÒ»Ñù£¬ÏÚÁÏÊÇÀÏÏÊÁË£¡ë¡¸ö³½¹âÎҾ;õ×Å£¬Õâ¸ö²ÅÊÇÀÏÉϺ£¸öζµÀ¡£

͵͵¸æËßٯŶ£¬È¥Ê©ÇÅÕòСÏï×Ó£¬Ù¯Ò»¶¨Òª¿´ºÃʱ¼ä¡£×îºÃÊÇÏÂÎçÁ½Èýµã³½¹âÈ¥£¬ë¡¸öʱºò£¬Ð¡Ì¯¸ÕÊÕʰºÃ£¬¹¤¾ßÐÂÏʵÃÀ´¡£ÁíÓÐŶ£¬Éú¼å¸ö̯ͷÅÔ±ßÓмÒÂôÅ´Ã×ÍŸöÒÌÂ裬ÒÁ¸öÊÖÒÕÒ²ºÃµÃÀ´£¡Ù¯¼ÇÀÎÁË£¬±ð´í¹ý¡£
Ïà¹ØÍ¼Æ¬

Ù¯½²£¬ÕâµØ·½ÍíÉÏÈ¥»áÓÐÉ¶ÌØ±ð·¥£¿

ÎÒ¸úÙ¯½²Å¶£¬Ê©ÇÅÕòСÏï×ÓÍíÉÏÈ¥ËäÈ»¿ÉÒÔ£¬Ö»ÊÇÍíÉÏÓÐЩ̯ͷ¹ØµÃÔ磬ٯ¿ÉÄܳÔÎðµ½ë¡Ð©ºÃ¹¤¾ß¡£²»¹ýÒ¹Íí¸öÏï×ӵƹâÒ»ÁÁÆðÀ´£¬ÀÏÓÐζµÀ¸ö£¡Ù¯ÒªÊÇϲ»¶ÅÄÕÕ£¬ÍíÉÏÈ¥µ¹ÊDz»´í£¬ÀÏÓÐÇ»µ÷¡£

Ïà¹ØÍ¼Æ¬

±êÇ©£ºÊ©ÇÅÕòСÏï×Ó¡¢ÀÏÉϺ£Î¶µÀ¡¢ÉϺ£ÅªÌá¢Í­Æ÷ÆÌ¡¢Éú¼åÂøÍ·

¡¶¾üÁ¸³ÇСÏï×ÓÄÄÓС·

Ìï¼ÒâÖÇø¿Ú°¶¶þ·µÄÎÄÂù¤ÒµÍ¬Ñù×¢ÖØºÍÆø¼Ò·çµÄ´«³ÐÓëºëÑï¡£ÔÚÕâÀÓοͿÉÒÔÂÃÐÐһЩÒÔ¼Ò·çΪÖ÷ÌâµÄÕ¹ÀÀ»òÔ˶¯£¬Á˽⻴ÄϵØÇøºÍÆø¼Ò·çµÄÉîºñÃØÎÅ¡£

¡¶Õ¿½­9598Æ·²è¡·

½­Î÷¸§ÖÝÊÐί¸±Êé¼Ç¡¢Êг¤ºú½£·É½üÈÕÌåÏÖ£¬¸§ÖÝÆû³µ¹¤ÒµÊµÏÖÁ˵û±äÉý¼¶£¬³ÉΪȫÊй¤ÒµÉú³¤µÄÖØÒªÖ§Öù¡£

¡¶À¥É½Ð¡Ïï×Ó×îÐÂλÖá·

¢á Zhu X, Cheng D, Zhang D, ..., Zhou B, Mei H, Lin Z. FlowRL: Matching reward distributions for LLM reasoning [J]. arXiv preprint arXiv:2509.15207, 2025.

ÍøÕ¾µØÍ¼