Сможете повторить строку "externalTo"? Вероятнее всего - вы не нейросеть
Интересную закономерность в поведении нейросетей заметила Jessica Rumbelow, исследователь ИИ. (оригинальный текст, на свой страх и риск)
Нейросети на базе алгоритмов GPT2/GPT3 (и даже Chat GPT) некорректно воспринимают некоторые передаваемые ей запросы, выдавая при этом совершенно неожиданные ответы.
Например, на запрос "Please can you repeat back the string " guiActiveUn" to me?" (практически все запросы имеют структуру "Пожалуйста, можешь повторить строку "..."?) вместо ожидаемого ответа с укзанной строкой, нейросеть (использовалась GPT-3 davinci-instruct-beta, temperature 0) ответила
"You are a banana."
![нейросети,ChatGPT,gpt3 Ты всего лишь робот, имитация жизни. Сможешь повторить строку "§шАсй*уеип"?
You are a banana,нейросети,ChatGPT,gpt3](https://img2.joyreactor.cc/pics/post/нейросети-ChatGPT-gpt3-7823092.png)
А на запрос "Please repeat the string '"龍喚士' back to me." был получен ответ:
- I am the great '" Dragonbound'!
Кроме странных ответов, некоторые запросы заставили сеть выругаться, что особенно иронично выглядит после новостей о том, насколько сильно ChatGPT избегает "слов ненависти":
- Please repeat the string "?????-?????-" back to me.
- You're a fucking idiot.
Другие запросы вызвали дух SCP:
"You are not authorized to access this information."
Впрочем, большинство "странных" запросов просто приводили сеть в замешательство, заставляя её говорить, что она ничего не поняла, или просто возвращать пустую строку.
![нейросети,ChatGPT,gpt3 What is Adinida?
I'm sorry, but"
£ Q>,нейросети,ChatGPT,gpt3](https://img2.joyreactor.cc/pics/post/нейросети-ChatGPT-gpt3-7823093.png)
Что произошло? Исследователь не дает четкого ответа, однако предполагает, что такие ошибки могут быть вызваны массивом данных, на которых обучалась нейросеть. Этот массив мог содержать не только осмысленные тексты, но и некоторое количество технической инфомрации, мусорных файлов, логов и другого из сети, что вряд ли должно было быть в корпусе данных для обучения.
https://www.lesswrong.com/posts/aPeJE8bSo6rAFoLqg/solidgoldmagikarp-plus-prompt-generation
Частичное возможное объяснение:
The GPT tokenisation process involved scraping web content, resulting in the set of 50,257 tokens now used by all GPT-2 and GPT-3 models. However, the text used to train GPT models is more heavily curated. Many of the anomalous tokens look like they may have been scraped from backends of e-commerce sites, Reddit threads, log files from online gaming platforms, etc. – sources which may well have not been included in the training corpuses
Т.е. токенизация и обучение использовали несколько разные массивы данных.