ИИ для Excel: извлечение данных из документов в 2026

Обновлено в июне 2026 года: я переписал материал под текущую практику работы с документами, табличными данными и проверкой результата.
Ручной перенос данных из договоров, актов, счетов, анкет и заявок в Excel выглядит простой задачей ровно до первой сотни файлов. Дальше начинаются пропущенные строки, разные форматы дат, суммы с пробелами, номера договоров в трёх вариантах написания и вечный вопрос: «Кто это проверит?» Я работаю с текстами, таблицами и процессами автоматизации как редактор-практик, поэтому смотрю на нейросети без магии. Хороший сценарий здесь выглядит так: ИИ получает документ, вытаскивает нужные поля, приводит их к единому виду и отдаёт структуру, которую можно вставить в таблицу или загрузить через промежуточный файл.
Что изменилось в обновлённой версии
Старая логика «попросим нейросеть прочитать документ и скопируем ответ руками» уже слабовата. В обновлённой версии я делаю акцент на цепочке из четырёх шагов: извлечение, нормализация, проверка и запись в нужные столбцы. Такой подход лучше подходит для реальной работы, где один документ может быть сканом, другой, PDF с текстовым слоем, третий, выгрузкой из почты, а четвёртый, таблицей с объединёнными ячейками.
Обновление затрагивает и инструменты. Вместо привязки к конкретным названиям я использую нейтральную схему: языковая модель для понимания текста, OCR для распознавания сканов, таблица Excel как конечный формат, а проверочные правила как защита от ошибок. Это не привязывает процесс к одному сервису и снижает риск, что инструкция устареет через полгода.
Если вы только выстраиваете базовую культуру работы с такими задачами, полезно сначала разобраться, как внедрять нейросети в рабочие процессы без хаоса. Извлечение данных из документов почти всегда упирается не в «умность» модели, а в качество постановки задачи и контроль результата.
Какие документы ИИ может превратить в строки Excel
Чаще всего в Excel переносят 5 типов данных: реквизиты контрагентов, суммы, даты, номера документов, статусы и текстовые комментарии. В счёте это может быть номер, дата, ИНН, итоговая сумма и валюта. В договоре, стороны, срок действия, предмет, сумма, штрафные условия. В анкете, ФИО, телефон, город, выбранная услуга, согласие на обработку данных. В акте, номер договора, период, стоимость, подпись или её отсутствие.
Для примера: если в папке лежит 80 актов за месяц, сотрудник обычно открывает каждый файл, ищет номер, дату и сумму, затем переносит 3–6 значений в таблицу. Даже при темпе 2 минуты на документ это больше 2,5 часов монотонной работы без учёта проверки. Нейросеть не отменяет контроль, но может превратить эти 80 документов в черновую таблицу, где человек смотрит спорные места, а не перепечатывает всё заново.
Сканированные документы требуют отдельного шага распознавания. OCR сначала переводит изображение в текст. Потом языковая модель разбирает смысл и раскладывает данные по полям. Если файл уже содержит текстовый слой, этап распознавания может быть короче. На практике разница видна сразу: PDF с выделяемым текстом обрабатывается стабильнее, чем фотография договора под углом и с тенью от руки.
Как выглядит рабочий процесс от файла до ячейки
Я обычно раскладываю процесс на 6 этапов. Первый, описать целевую таблицу: столбцы, формат значений, обязательные поля. Второй, подготовить документы и назвать их единообразно. Третий, извлечь данные. Четвёртый, привести значения к формату таблицы. Пятый, проверить ошибки. Шестой, загрузить результат в Excel.
Условный пример: таблица для счетов содержит столбцы «Файл», «Номер счёта», «Дата», «ИНН поставщика», «Сумма», «НДС», «Валюта», «Комментарий проверки». Если ИИ не нашёл НДС, он не должен угадывать. Лучше вернуть пустую ячейку и комментарий «НДС не указан явно». Это экономит время на разборе спорных строк и снижает риск тихой ошибки.
В SoftChat удобно вести такую работу в формате диалога: можно загрузить изображение или документ в сообщение, если выбранная модель поддерживает нужный тип вложений, а результат попросить вернуть таблицей в Markdown. Для повторяемых задач помогают шаблоны запросов: один раз формулируете инструкцию для счетов или актов, потом используете её как стартовую заготовку. Если черновик запроса получился рыхлым, в веб-чате для авторизованных пользователей есть действие «Улучшить запрос», оно показывает переработанную версию перед отправкой, без автоматической подмены текста.
Какие поля надо описать заранее
Ошибка новичка, попросить: «Извлеки данные и сделай Excel». Такая формулировка оставляет модели слишком много свободы. Нужна схема. Чем точнее она задана, тем меньше ручной правки после выгрузки.
Минимальная схема включает название поля, источник внутри документа, формат и правило при отсутствии значения. Например: дата в формате ДД.ММ.ГГГГ; сумма числом без пробелов, копейки через запятую; ИНН как строка, чтобы Excel не обрезал ведущие нули; статус из набора «подписан», «не подписан», «не найдено»; комментарий проверки короткой фразой.
Для примера: в заявках на обучение поле «желаемая дата» может быть записано как «после майских», «в июне», «12.06», «как можно скорее». В таблицу нельзя бездумно вставлять все варианты. Лучше сделать 2 столбца: «Дата нормализованная» и «Исходная формулировка». Тогда менеджер видит, где дата точная, а где нужен звонок.
Если задача связана с подготовкой текстовых фрагментов после извлечения, пригодится материал о том, как нейросеть помогает создавать и проверять тексты. Там та же логика: сначала структура, потом генерация, затем проверка.
Как написать запрос для извлечения в таблицу
Рабочий запрос состоит из роли, задачи, схемы, правил и формата ответа. Я бы писал так: «Ты извлекаешь данные из первичных документов. Верни таблицу с колонками: имя файла, номер документа, дата, контрагент, ИНН, сумма с НДС, сумма без НДС, валюта, что проверить вручную. Не придумывай значения. Если поле не найдено, пиши пусто. В последней колонке объясни проблему одной фразой».
Для сложных документов добавляю правило цитирования: пусть модель рядом с извлечённым значением указывает короткий фрагмент источника. Например, для суммы можно попросить колонку «Фрагмент из документа». Это увеличивает таблицу, зато проверка становится быстрее: человек не ищет значение по всему договору, а сразу видит строку, на основании которой заполнена ячейка.
В SoftChat ответы в чате отображаются с поддержкой Markdown, включая таблицы. Это удобно на этапе прототипа: можно быстро увидеть, совпадают ли столбцы с ожиданием, нет ли лишних полей, не перепутаны ли даты и суммы. Для долгой работы пригодится история диалогов внутри организации, потому что к предыдущей инструкции можно вернуться и уточнить её, а не собирать процесс заново.
Где чаще всего появляются ошибки
Первая группа ошибок, качество исходника. Размытый скан, повёрнутая страница, печать поверх суммы, мелкий шрифт в подвале договора. Если человек сам с трудом читает документ, ИИ тоже будет ошибаться. В таких случаях нужен статус «на ручную проверку», а не попытка заполнить каждую ячейку любой ценой.
Вторая группа, неоднозначные поля. В договоре может быть дата подписания, дата начала услуг и дата окончания. В счёте есть дата счёта и срок оплаты. В акте встречаются период оказания услуги и дата составления. Если в таблице есть один столбец «Дата», модель может выбрать не то значение. Лучше назвать поле точно: «Дата документа», «Период услуги с», «Период услуги по».
Третья группа, формат Excel. Длинные числовые коды, ИНН, артикулы и номера заявок лучше хранить как текст. Иначе таблица может превратить длинный номер в экспоненциальную запись или убрать ноль в начале. Денежные значения стоит отделять от валюты: «12500,00» в одном столбце и «руб.» в другом. Так проще строить сводные таблицы и фильтры.
Модельный кейс: компания из сферы логистики, ~200 сотрудников, переносит из транспортных заявок 7 полей: номер рейса, дату, город отправления, город получения, перевозчика, сумму и статус документов. При ручной обработке 300 заявок дают 2100 отдельных значений для копирования. Если ИИ заранее раскладывает значения по колонкам и помечает спорные строки, сотрудник проверяет выборочно проблемные места, а не печатает всё с нуля.
Как проверять результат без двойной работы
Проверка не должна превращаться во второй ручной ввод. Я использую три уровня контроля. Первый, технический: заполнены ли обязательные поля, совпадает ли формат даты, является ли сумма числом. Второй, смысловой: не перепутаны ли поставщик и покупатель, не взята ли дата оплаты вместо даты счёта. Третий, выборочный: открыть 5–10 документов из партии и сравнить результат с источником.
Для примера: если партия состоит из 50 однотипных актов от одного поставщика, выборочная проверка 5 файлов может быстро показать системную ошибку, например модель каждый раз берёт период услуги вместо даты акта. Если документы разнородные, долю проверки лучше увеличить. Универсального процента нет, но для финансовых и юридических данных я бы не выпускал таблицу без ручного просмотра строк с пустыми значениями и комментариями.
Отдельно полезны контрольные колонки: «уверенность», «что проверить», «цитата из источника». Даже простая пометка «не найдено явно» ценнее, чем красиво заполненная, но выдуманная ячейка. В работе с ИИ пустое значение часто означает честный результат.
Когда Excel лучше, чем полноценная интеграция
Автоматическая интеграция с учётной системой хороша для стабильных процессов, где структура документов почти не меняется. Но Excel остаётся быстрым вариантом для пилота, разовых сверок и переходного периода. Таблицу легко отправить бухгалтеру, юристу или операционному менеджеру. Её можно отфильтровать, дополнить вручную и импортировать дальше.
Гипотетический пример: отдел закупок раз в квартал собирает коммерческие предложения от 25 поставщиков. Формы разные: часть в PDF, часть в письмах, часть в таблицах. Делать интеграцию ради четырёх таких циклов в год может быть дорого. А схема «документы → извлечение → Excel → проверка» даёт быстрый результат и не ломает привычный процесс согласования.
Для бытовых и небольших рабочих задач похожая логика описана в статье о том, как применять нейросети и чат-боты в повседневных процессах. Разница в масштабе, но принцип тот же: убрать повторяемую механику и оставить человеку решение спорных вопросов.
Как не передать лишние данные
Документы часто содержат персональные данные, реквизиты, цены, условия договоров. Перед загрузкой в любой ИИ-инструмент нужно решить, какие сведения можно обрабатывать, кто имеет доступ к файлам и как хранится результат. Безопасная привычка, удалять лишние страницы, закрывать поля, которые не нужны для задачи, и не загружать полный договор, если достаточно страницы с реквизитами и суммой.
Если процесс повторяется, стоит описать внутреннее правило: какие типы документов допустимы, кто проверяет итоговую таблицу, какие поля запрещено отправлять во внешние сервисы, где хранится файл после обработки. Это скучная часть, но именно она отделяет полезную автоматизацию от рискованного эксперимента.
Обновлённый вывод
ИИ хорошо подходит для превращения документов в строки Excel, когда задача описана как схема, а не как просьба «сделать красиво». Лучший результат дают однотипные документы, ясные поля, контрольные колонки и честная обработка пропусков. Нейросеть берёт на себя черновую работу: найти значения, нормализовать формат, собрать таблицу. Человек оставляет за собой проверку смысла и решение спорных случаев.
Эта версия статьи обновлена под практику 2026 года: меньше привязки к отдельным инструментам, больше внимания к проверке, форматам Excel и безопасной работе с документами. Если начать с небольшой партии, например с 20–30 файлов одного типа, уже через один цикл станет понятно, какие поля извлекаются стабильно, где нужны правила и какую часть ручного ввода можно убрать без потери контроля.