Describe the bug 在非流式输出中模型的输出结果正常，但在流式输出时会输出乱码问题，例如”��“ <

[Bug] 关于hf模型stream_chat()输出乱码”�“的问题 about internlm HOT 2 CLOSED

djsaber commented on June 8, 2024

[Bug] 关于hf模型stream_chat()输出乱码”�“的问题

from internlm.

Comments (2)

djsaber commented on June 8, 2024

找到原因了，流式输出时，模型的response是通过对每个step的token单独解码，然后和历史response拼接，作为当前step的response，这样子有个问题，例如”淩“，对应的token是[233, 186, 172]，单独对233、186、172解码会出现”�“，拼接后会输出”��“。

我的解决办法是解码时如果出现乱码，缓存当前step的token，然后继续下个step，直到缓存的长度超过限制（5）或解码出明文，则清空缓存的token。

修改modeling_internlm.py中stream_chat()方法中ChatStreamer类：

class ChatStreamer(BaseStreamer):
     def __init__(self, tokenizer) -> None:
        super().__init__()
        self.tokenizer = tokenizer
        self.queue = response_queue
        self.query = query
        self.history = history
        self.response = ""
        self.cache = []
        self.received_inputs = False
        self.queue.put((self.response, history + [(self.query, self.response)]))

        def put(self, value):
            if len(value.shape) > 1 and value.shape[0] > 1:
                raise ValueError("ChatStreamer only supports batch size 1")
            elif len(value.shape) > 1:
                value = value[0]

            if not self.received_inputs:
                # The first received value is input_ids, ignore here
                self.received_inputs = True
                return
                
            self.cache.extend(value.tolist())
            token = self.tokenizer.decode(self.cache, skip_special_tokens=True)
            if "�" in token and len(token) <= 5:
                return
            self.cache = []
            if token.strip() != "<eoa>":
                self.response = self.response + token
                history = self.history + [(self.query, self.response)]
                self.queue.put((self.response, history))
            else:
                self.end()

from internlm.