Чому витяг даних з PDF -файлів все ще є кошмаром для експертів з даних

Протягом багатьох років бізнес, уряди та дослідники боролися з постійною проблемою: як витягти корисні дані з файлів у форматі Portable Document Format (PDF). Ці цифрові документи слугують контейнерами для всього – від наукових досліджень до урядових документів, але їхні жорсткі формати ускладнюють зчитування та аналіз машинами.

“Частково проблема полягає в тому, що PDF-файли є породженням того часу, коли друкована верстка мала великий вплив на видавниче програмне забезпечення, і PDF-файли – це більше “друкований” продукт, ніж цифровий”, – написав в електронному листі до Ars Technica лектор з журналістики даних та комп’ютерної журналістики в Університеті Меріленда. “Основна проблема полягає в тому, що багато PDF-файлів – це просто зображення інформації, а це означає, що вам потрібне програмне забезпечення для оптичного розпізнавання символів, щоб перетворити ці зображення на дані, особливо коли оригінал старий або містить рукописний текст”.

Це сфера, де традиційні методи звітування поєднуються з аналізом даних, кодуванням та алгоритмічним мисленням, щоб розкрити історії, які інакше могли б залишитися прихованими у великих масивах даних, що робить розблокування цих даних особливо цікавим для Willis.

Виклик PDF також є значним вузьким місцем у світі аналізу даних і машинного навчання в цілому. Згідно з кількома дослідженнями, більша частина організаційних даних у світі зберігається у вигляді неструктурованих даних у документах, значна частина яких зашифрована у форматах, що перешкоджають їх легкому вилученню. Проблема загострюється у разі використання макетів із двома колонками, таблиць, діаграм і відсканованих документів із низькою якістю зображення.

Неможливість надійно витягувати дані з PDF-файлів зачіпає багато галузей, але найсильніше б’є по сферах, які значною мірою покладаються на документацію та застарілі записи, включаючи оцифрування наукових досліджень, збереження історичних документів, оптимізацію обслуговування клієнтів і підвищення доступності технічної літератури для систем штучного інтелекту.

<"Це дуже реальна проблема майже для всього, що було опубліковано понад 20 років тому, і особливо для урядових документів, - каже Вілліс. "Це впливає не лише на роботу державних установ, таких як суди, поліція та соціальні служби, а й на журналістів, які покладаються на ці документи для написання статей. Це також змушує деякі галузі, які залежать від інформації, такі як страхування і банківська справа, інвестувати час і ресурси в перетворення PDF-файлів на дані".

Коротка історія OCR

Традиційна технологія розпізнавання тексту (OCR), яка перетворює зображення тексту в машиночитаний текст, існує з 1970-х років. Компанія Inventor стала піонером у комерційній розробці систем розпізнавання тексту, зокрема для незрячих, у 1976 році, в яких для ідентифікації символів за розташуванням пікселів використовувалися алгоритми зіставлення шаблонів.

Традиційні системи розпізнавання зазвичай працюють, визначаючи шаблони світлих і темних пікселів на зображеннях, зіставляючи їх із відомими формами символів і виводячи розпізнаний текст. Хоча вони ефективні для чітких і зрозумілих документів, ці системи зіставлення шаблонів, які самі є різновидом ШІ, часто дають збої, коли стикаються з незвичними шрифтами, кількома колонками, таблицями або неякісними сканами.

Традиційне розпізнавання текстів зберігається в багатьох робочих процесах саме тому, що його обмеження добре зрозумілі – воно робить передбачувані помилки, які можна виявити й виправити, пропонуючи надійність, яка іноді переважує теоретичні переваги нових рішень на основі штучного інтелекту. Але тепер, коли великі мовні моделі (ВММ) на основі трансформаторів отримують левову частку фінансування, компанії все частіше звертаються до них за новим підходом до читання документів.

Зростання мовних моделей ШІ в OCR

На відміну від традиційних методів розпізнавання, які дотримуються жорсткої послідовності ідентифікації символів на основі піксельних шаблонів, мультимодальні LLM, які можуть читати документи, навчаються на тексті та зображеннях, які були переведені в фрагменти даних, що називаються токенами, і подані у великі нейронні мережі. ШНМ, здатні бачити, від таких компаній, як OpenAI, Google і Meta, аналізують документи, розпізнаючи взаємозв’язки між візуальними елементами і розуміючи контекстні підказки.

“Візуальний” метод на основі зображень – це те, як ChatGPT читає PDF-файл, наприклад, якщо ви завантажуєте його через інтерфейс AI-асистента. Це принципово інший підхід, ніж стандартне розпізнавання, який дозволяє потенційно обробляти документи більш цілісно, враховуючи як візуальні макети, так і текстовий вміст одночасно.

І, як виявляється, деякі LLM від певних постачальників краще справляються з цим завданням, ніж інші.

“Магістри, які добре справляються з цими завданнями, як правило, поводяться так, як би я робив це вручну”, – сказав Вілліс. Він зазначив, що деякі традиційні методи розпізнавання досить хороші, зокрема , але “вони також пов’язані з правилами свого програмного забезпечення та обмеженнями на кількість тексту, на який вони можуть посилатися, коли намагаються розпізнати незвичайний шаблон”. Вілліс додав: “Я вважаю, що у випадку з LLM ви обмінюєте це на розширений контекст, який, здається, допомагає їм робити кращі прогнози щодо того, чи є цифра, наприклад, трійкою або вісімкою”.

Цей контекстний підхід дає змогу моделям краще обробляти складні макети, інтерпретувати таблиці та розрізняти елементи документа, як-от заголовки, підписи й основний текст – усі завдання, з якими традиційні рішення для розпізнавання текстів не справляються.

“[LLM] не ідеальні й іноді вимагають значного втручання, щоб добре виконувати роботу, але той факт, що ви можете налаштувати їх взагалі [за допомогою спеціальних підказок], є великою перевагою”, – сказав Вілліс.

Нові спроби розпізнавання текстів на базі LLM

У міру того, як зростає попит на кращі рішення для обробки документів, на ринок виходять нові гравці в галузі штучного інтелекту зі спеціалізованими пропозиціями. Один із таких нещодавніх учасників привернув увагу фахівців з обробки документів.

Французька AI-компанія Mistral нещодавно вийшла на ринок оптичних зчитувачів на базі LLM зі спеціалізованим API, призначеним для обробки документів. Згідно з матеріалами Mistral, їхня система призначена для вилучення тексту та зображень з документів зі складною версткою, використовуючи можливості своєї мовної моделі для обробки елементів документа.

Однак, згідно з останніми тестами, ці рекламні заяви не завжди відповідають реальній продуктивності. “Зазвичай я досить великий шанувальник моделей “Містралів”, але новий зразок, який вони випустили минулого тижня і який призначений для розпізнавання текстів, справді показав себе погано”, – зазначив Вілліс.

“Мій колега надіслав мені листа з проханням допомогти з розпізнаванням текстів.

“Колега надіслав листа і запитав, чи можу я допомогти йому розібрати таблицю, що міститься в ньому, – розповідає Вілліс. “Це старий документ з таблицею, яка має деякі складні елементи верстки. Нова модель розпізнавання тексту [Mistral] дійсно повторює назви міст і помиляється з багатьма цифрами”.

Розробник додатків для АІ Олександр Доріа також нещодавно вказав на недолік у здатності Mistral OCR розпізнавати рукописний текст: “На жаль, Mistral-OCR все ще має звичайне прокляття VLM: зі складними рукописами він повністю галюцинує.”

За словами Вілліса, Google наразі є лідером у галузі моделей ШІ, які можуть читати документи: “Зараз для мене явним лідером є Flash Pro Experimental. Він впорався з PDF-файлом, з яким не впорався Mistral, з мізерною кількістю помилок, і я з успіхом прогнав через нього кілька безладних PDF-файлів, у тому числі з рукописним вмістом”.

Ефективність Gemini значною мірою зумовлена його здатністю обробляти об’ємні документи (у типі короткочасної пам’яті, який називається “контекстне вікно”), що Вілліс особливо відзначає як ключову перевагу: “Розмір контекстного вікна також допомагає, оскільки я можу завантажувати великі документи і опрацьовувати їх частинами”. Ця можливість у поєднанні з більш надійною обробкою рукописного контенту, очевидно, дає моделі Google практичну перевагу над конкурентами в реальних завданнях обробки документів на даний момент.

Недоліки розпізнавання на основі LLM

Не дивлячись на свої обіцянки, LLM вносять кілька нових проблем в обробку документів. Зокрема, вони можуть вводити конфабуляції або галюцинації (правдоподібну, але неправильну інформацію), випадково виконувати інструкції в тексті (думаючи, що вони є частиною підказки користувача) або просто загалом неправильно інтерпретувати дані.

“Найбільший [недолік] полягає в тому, що вони є машинами ймовірнісного прогнозування і можуть помилятися не просто “це не те слово”, – пояснює Вілліс. “Я помітив, що у великих документах, де макет повторюється, LLM іноді пропускає рядок, тоді як розпізнавання тексту навряд чи зробить це.”

Дослідник AI та журналіст Саймон Віллісон (Simon Willison) у розмові з Ars Technica виділив кілька критичних проблем, пов’язаних із використанням LLM для розпізнавання текстів. “Я все ще вважаю, що найбільшою проблемою є ризик випадкового виконання інструкцій”, – каже він, завжди остерігаючись швидких ін’єкцій (у цьому випадку випадкових), які можуть дати LLM недобросовісні або суперечливі інструкції.

“Це, а також той факт, що помилки в інтерпретації таблиць можуть бути катастрофічними”, – додає Віллісон. “У минулому у мене було багато випадків, коли LLM зіставляв неправильний рядок даних з неправильним заголовком, що призводило до абсолютного сміття, яке виглядало правильним. Також буває, що якщо текст нерозбірливий, модель може просто вигадати цей текст.”

Ці проблеми стають особливо актуальними під час обробки фінансової звітності, юридичних документів або медичних записів, де помилка може поставити під загрозу чиєсь життя. Проблеми з надійністю означають, що ці інструменти часто вимагають ретельного людського нагляду, що обмежує їхню цінність для повністю автоматизованого вилучення даних.

Шлях вперед

Навіть у наш, здавалося б, просунутий вік штучного інтелекту все ще не існує досконалого рішення для розпізнавання текстів. Перегони за вилучення даних із PDF-файлів тривають, і компанії, як-от ця, пропонують контекстно-орієнтовані генеративні продукти зі штучним інтелектом. Як зазначає Вілліс, частина мотивації для розблокування PDF-файлів серед компаній-розробників ШІ, безсумнівно, пов’язана з потенційним отриманням даних для тренувань: “Я думаю, що оголошення Mistral є досить чітким доказом того, що документи – не тільки PDF-файли – є важливою частиною їхньої стратегії, саме тому, що вони, ймовірно, нададуть додаткові навчальні дані”.

Незалежно від того, чи це принесе користь компаніям, що займаються розробкою штучного інтелекту з навчальними даними, чи історикам, які аналізують історичний перепис населення, в міру вдосконалення цих технологій вони можуть розблокувати сховища знань, які зараз знаходяться в цифрових форматах, призначених в першу чергу для споживання людиною. Це може призвести до нового золотого віку аналізу даних – або ж до появи помилок, які важко помітити, залежно від використовуваної технології і того, наскільки сліпо ми їй довіряємо.

Чому витяг даних з PDF -файлів все ще є кошмаром для експертів з даних

Коротка історія OCR

Зростання мовних моделей ШІ в OCR

Нові спроби розпізнавання текстів на базі LLM

Недоліки розпізнавання на основі LLM

Шлях вперед

Залишити відповідь Скасувати коментар

Останні коментарі

Останні публікації

Коротка історія OCR

Зростання мовних моделей ШІ в OCR

Нові спроби розпізнавання текстів на базі LLM

Недоліки розпізнавання на основі LLM

Шлях вперед

Залишити відповідь Скасувати коментар

Категорії

Останні коментарі

Останні публікації