Бот, отвечающий на вопросы абитуриентов, был презентован основателю EPAM Systems Аркадию Добкину, а сейчас внедряется в Telegram-бот университета. О том, как студент обучал модель и оптимизировал расход токенов, читайте в материале.
О том, чтобы получить высшее образование в IT, Роман Колесов начал задумываться еще будучи студентом факультета зарубежной филологии другого вуза. По его словам, локдаун 2021 года раскрыл возможности информационных технологий и дистанционного взаимодействия. Роман выбрал IT Park University по 2 основным причинам:
Среди других преимуществ IT Park University:
- обучение, нацеленное на практику;
- стажировки в зарубежных офисах EPAM System;
- учеба длится 3 года;
- преподаватели профильных предметов - действующие иностранные специалисты международных компаний.
По итогам первого семестра Роман вошел в ТОП-10 студентов IT Park University.
Проект чат-бот, который отвечает на вопросы абитуриентов:
О том, чтобы получить высшее образование в IT, Роман Колесов начал задумываться еще будучи студентом факультета зарубежной филологии другого вуза. По его словам, локдаун 2021 года раскрыл возможности информационных технологий и дистанционного взаимодействия. Роман выбрал IT Park University по 2 основным причинам:
- удобный гибридный формат обучения — онлайн-лекции и оффлайн-экзамены;
- один из учредителей – это компания EPAM Systems, мировой лидер в разработке программного обеспечения.
Среди других преимуществ IT Park University:
- обучение, нацеленное на практику;
- стажировки в зарубежных офисах EPAM System;
- учеба длится 3 года;
- преподаватели профильных предметов - действующие иностранные специалисты международных компаний.
По итогам первого семестра Роман вошел в ТОП-10 студентов IT Park University.
Проект чат-бот, который отвечает на вопросы абитуриентов:
Бот консультирует абитуриентов по вопросам поступления в IT Park University. Задавать вопросы можно на 3 языках: узбекском, английском, русском. Использование ИИ значительно сокращает время ожидания ответа, а также разгружает приемную комиссию. Ожидаемая точность ответов — 95%.
ChatGPT — чат-бот с искусственным интеллектом, разработанный компанией OpenAI. Он был запущен 30 ноября 2022 года и привлёк внимание широкими возможностями: написание кода, создание текстов, возможности перевода, получения точных ответов и использование контекста диалога для ответов.
OpenAI — американская компания, занимающаяся разработкой и лицензированием технологий на основе машинного обучения. Один из основателей — Илон Маск.
Предыстория: как возникла идея
“Когда пошел тренд на ChatGPT, я захотел протестировать возможности искусственного интеллекта и создал сайт с внедренным ИИ. С ним я пошел к генеральному директору IT Park University Баходиру Аюпову, чтобы он оценил перспективность идеи и дал фидбек.
На созвоне в Teams мы обсудили созданный мной сайт и решили показать его операционному директору Михаилу Богатыреву, который отвечает за внедрение информационных технологий в IT Park University. Михаил придумал несколько вариантов использования моего решения в реальных условиях. Именно он посоветовал сделать работу прикладной, жизненной, и я захотел адаптировать разработку под бота для поступающих в университет.” - поделился Роман.
Машинное обучение: ищу оптимальные решения
ChatGPT — чат-бот с искусственным интеллектом, разработанный компанией OpenAI. Он был запущен 30 ноября 2022 года и привлёк внимание широкими возможностями: написание кода, создание текстов, возможности перевода, получения точных ответов и использование контекста диалога для ответов.
OpenAI — американская компания, занимающаяся разработкой и лицензированием технологий на основе машинного обучения. Один из основателей — Илон Маск.
Предыстория: как возникла идея
“Когда пошел тренд на ChatGPT, я захотел протестировать возможности искусственного интеллекта и создал сайт с внедренным ИИ. С ним я пошел к генеральному директору IT Park University Баходиру Аюпову, чтобы он оценил перспективность идеи и дал фидбек.
На созвоне в Teams мы обсудили созданный мной сайт и решили показать его операционному директору Михаилу Богатыреву, который отвечает за внедрение информационных технологий в IT Park University. Михаил придумал несколько вариантов использования моего решения в реальных условиях. Именно он посоветовал сделать работу прикладной, жизненной, и я захотел адаптировать разработку под бота для поступающих в университет.” - поделился Роман.
Машинное обучение: ищу оптимальные решения
Михаил посоветовал изучить несколько технологий и понять, какая лучше всего решает задачу. Сначала я обучал модель при помощи Fine Tuning, но эта технология не подошла.
Во-первых, результаты оказывались не совсем корректны. Так, дав ответ, ИИ продолжал генерировать информацию, но уже не относящуюся к сути вопроса. Ситуация улучшалась, если я ставил ограничение в строку.
Во-вторых, выходило дорого. При обучении нужно скормить модели определенный объем данных. Это стоит токенов, а каждый токен OpenAI обходится в определенное количество долларов. При создании аккаунта в OpenAI пользователь получает $5 для тестирования, и эту сумму я потратил на Fine Tune.
Потом я открыл второй аккаунт, чтобы получить еще $5 и попробовать Few-Shot Learning, обучал при помощи промптов (подсказок) на базе FAQ с сайта университета. На этом этапе выяснилось, что FAQ нуждается в дополнениях. Например, там не было информации про Foundation Studies — подготовительный семестр, который позволяет поступить без экзаменов. Михаил лично контролировал доработку FAQ, что позволило мне улучшить промпты. Теперь чат-бот располагает полной информацией для поддержки абитуриентов.
В итоге во Few-Shot Learning обучение модели выходило дешевле, а ответы получались более корректными, чем в Fine Tuning.
Кстати, Михаил предоставил мне платный аккаунт, и я работал над проектом полноценно, без ограничений. Я сам тоже хотел купить платный аккаунт OpenAI, он стоит $20 в месяц, но при помощи узбекской VISA у меня не получилось сделать это. Наверное, нужна европейская или американская карта.
Выбор: ChatGPT 3.5 и ChatGPT 4.0
Выбирая между ChatGPT 3.5 и ChatGPT 4.0, я выбрал первую версию, потому что она дешевле, а отвечает с тем же высоким качеством. Понятно, что чем больше запросов, тем больше денег списывается с аккаунта. Мы прогнозируем резкий рост запросов перед вступительными экзаменами. Но так как каждый запрос к чат-боту стоит недорого (до 2,600 токенов), то будет выходить не сильно дорого.
Также мне хотелось, чтобы бот отвечал не одними и теми же словами, а разнообразил диалог. Поэтому я настроил такой показатель как температура. Когда он на нуле, бот отвечает одинаковыми фразами. Но если температуру поднять, то на один и тот же запрос пользователь получит ответ в разных формулировках. Суть, конечно, останется неизменной.
Вопрос языка: ChatGPT слабо распознает узбекский язык
Изначально я настроил модель таким образом, что она отправляла в ChatGPT запрос на том языке, на котором он задан. ИИ должен был распознать его и дать ответ на языке оригинала. Мы прописали алгоритмы для 3 языков: узбекского, английского и русского. Однако оказалось, что ИИ слабо работает с узбекским языком. Кроме того, за запросы на узбекском и русском языках списывается больше токенов, чем за запросы на английском.
Поэтому я подключил Google Cloud API. Процесс такой: пользователь отправляет запрос, ChatGPT распознает язык и передает информацию Google Cloud API. Тот переводит вопрос на английский и возвращает его искусственному интеллекту. ChatGPT дает ответ, а Google Cloud API переводит его на язык оригинала. Сейчас я работаю над тем, чтобы исключить двойное обращение к ChatGPT. Google Cloud API тоже умеет распознавать язык, поэтому эту функцию я переложу на него, что ускорит скорость процессов. Кроме того, это позволит оказывать поддержку не только на узбекском, русском, английском, ведь Google распознает гораздо большее количество языков.
Результат: решение, которое внедряется в жизнь
От первой идеи до деплоя (запуска) прошло около 2 недель. Сейчас разработчик EPAM переписывает чат-бот на Java, чтобы интегрировать его на сайт университета.
11 июня я презентовал чат-бот основателю EPAM Systems Аркадию Добкину во время его визита в Узбекистан. Проект Аркадию понравился, он особенно отметил тот факт, что первокурсник разрабатывает реальные продукты. Практикоориентированное обучение - главный принцип IT Park University.
Кстати, генеральный директор Баходир Аюпов также тестировал демо-версию. Он направил несколько запросов на узбекском языке, причем специально писал с ошибками. Бот все понимал и отвечал правильно.
Для меня главная ценность проекта заключается в получении опыта и погружении в тему ИИ. Я считаю, что решения с внедренным искусственным интеллектом — самые востребованные и перспективные. Проект резко прокачал мои знания. Например, недавно я участвовал в международном Summer Camp от EPAM, и на воркшопах по ИИ многое уже знал. Также Михаил сказал, что мной заинтересовалась глобальная команда Machine Learning в EPAM и мои будущие стажировки могут быть с упором на ИИ и машинное обучение.
Ознакомиться с программой бакалавриата IT Park University и задать вопрос искусственному интеллекту можно на телеграм боте @itpu_bot.
Во-первых, результаты оказывались не совсем корректны. Так, дав ответ, ИИ продолжал генерировать информацию, но уже не относящуюся к сути вопроса. Ситуация улучшалась, если я ставил ограничение в строку.
Во-вторых, выходило дорого. При обучении нужно скормить модели определенный объем данных. Это стоит токенов, а каждый токен OpenAI обходится в определенное количество долларов. При создании аккаунта в OpenAI пользователь получает $5 для тестирования, и эту сумму я потратил на Fine Tune.
Потом я открыл второй аккаунт, чтобы получить еще $5 и попробовать Few-Shot Learning, обучал при помощи промптов (подсказок) на базе FAQ с сайта университета. На этом этапе выяснилось, что FAQ нуждается в дополнениях. Например, там не было информации про Foundation Studies — подготовительный семестр, который позволяет поступить без экзаменов. Михаил лично контролировал доработку FAQ, что позволило мне улучшить промпты. Теперь чат-бот располагает полной информацией для поддержки абитуриентов.
В итоге во Few-Shot Learning обучение модели выходило дешевле, а ответы получались более корректными, чем в Fine Tuning.
Кстати, Михаил предоставил мне платный аккаунт, и я работал над проектом полноценно, без ограничений. Я сам тоже хотел купить платный аккаунт OpenAI, он стоит $20 в месяц, но при помощи узбекской VISA у меня не получилось сделать это. Наверное, нужна европейская или американская карта.
Выбор: ChatGPT 3.5 и ChatGPT 4.0
Выбирая между ChatGPT 3.5 и ChatGPT 4.0, я выбрал первую версию, потому что она дешевле, а отвечает с тем же высоким качеством. Понятно, что чем больше запросов, тем больше денег списывается с аккаунта. Мы прогнозируем резкий рост запросов перед вступительными экзаменами. Но так как каждый запрос к чат-боту стоит недорого (до 2,600 токенов), то будет выходить не сильно дорого.
Также мне хотелось, чтобы бот отвечал не одними и теми же словами, а разнообразил диалог. Поэтому я настроил такой показатель как температура. Когда он на нуле, бот отвечает одинаковыми фразами. Но если температуру поднять, то на один и тот же запрос пользователь получит ответ в разных формулировках. Суть, конечно, останется неизменной.
Вопрос языка: ChatGPT слабо распознает узбекский язык
Изначально я настроил модель таким образом, что она отправляла в ChatGPT запрос на том языке, на котором он задан. ИИ должен был распознать его и дать ответ на языке оригинала. Мы прописали алгоритмы для 3 языков: узбекского, английского и русского. Однако оказалось, что ИИ слабо работает с узбекским языком. Кроме того, за запросы на узбекском и русском языках списывается больше токенов, чем за запросы на английском.
Поэтому я подключил Google Cloud API. Процесс такой: пользователь отправляет запрос, ChatGPT распознает язык и передает информацию Google Cloud API. Тот переводит вопрос на английский и возвращает его искусственному интеллекту. ChatGPT дает ответ, а Google Cloud API переводит его на язык оригинала. Сейчас я работаю над тем, чтобы исключить двойное обращение к ChatGPT. Google Cloud API тоже умеет распознавать язык, поэтому эту функцию я переложу на него, что ускорит скорость процессов. Кроме того, это позволит оказывать поддержку не только на узбекском, русском, английском, ведь Google распознает гораздо большее количество языков.
Результат: решение, которое внедряется в жизнь
От первой идеи до деплоя (запуска) прошло около 2 недель. Сейчас разработчик EPAM переписывает чат-бот на Java, чтобы интегрировать его на сайт университета.
11 июня я презентовал чат-бот основателю EPAM Systems Аркадию Добкину во время его визита в Узбекистан. Проект Аркадию понравился, он особенно отметил тот факт, что первокурсник разрабатывает реальные продукты. Практикоориентированное обучение - главный принцип IT Park University.
Кстати, генеральный директор Баходир Аюпов также тестировал демо-версию. Он направил несколько запросов на узбекском языке, причем специально писал с ошибками. Бот все понимал и отвечал правильно.
Для меня главная ценность проекта заключается в получении опыта и погружении в тему ИИ. Я считаю, что решения с внедренным искусственным интеллектом — самые востребованные и перспективные. Проект резко прокачал мои знания. Например, недавно я участвовал в международном Summer Camp от EPAM, и на воркшопах по ИИ многое уже знал. Также Михаил сказал, что мной заинтересовалась глобальная команда Machine Learning в EPAM и мои будущие стажировки могут быть с упором на ИИ и машинное обучение.
Ознакомиться с программой бакалавриата IT Park University и задать вопрос искусственному интеллекту можно на телеграм боте @itpu_bot.