A Yandex megtanította a neurális hálózatokat az archív rekordok bonyolult helyesírással történő megfejtésére
Vegyes Cikkek / / April 03, 2023
A történelmi kéziratokat, amelyeket az ember nehezen elemezhet, a mesterséges intelligencia szinte azonnal nyomtatott szöveggé alakít.
A Yandex új szolgáltatást indított Archívum keresés néven, amely neurális hálózatok segítségével fejti meg az archív rekordokat, bonyolult, a forradalom előtti helyesírással.
A szolgáltatás több mint 2,5 millió oldalnyi történelmi dokumentumhoz biztosít hozzáférést szöveges átiratokkal. Optikai karakterfelismerő rendszerre épülő algoritmusa figyelembe veszi a kézírás sajátosságait, felismeri az aktualitásukat vesztett betűket, megérti a levéltári dokumentumok sajátos szerkezetét.
A cég szakemberei a neurális hálózatot a 18-19. századi valós szövegekből és több tízmillió generált példából álló, kézzel írt sorokból álló adattömbön képezték ki.
Azok a kéziratok, amelyeket egy felkészületlen ember nehezen elemezhet, a Yandex technológia szinte azonnal nyomtatott szöveggé változik. Ennek köszönhetően a szolgáltatás adatbázisában gyorsan megtalálhatja a vezetéknév, helység vagy bármilyen más szó megemlítésével ellátott dokumentumokat.
A "keresés az archívumban" növeli a történészek, szociológusok, demográfusok, genealógusok munkájának hatékonyságát, és segítséget nyújt azoknak, akik a családjukkal kapcsolatos információkat keresnek.
A szolgáltatásban bemutatott első alap a moszkvai főarchívum volt - ennek anyagán képezték ki a fejlesztők a neurális hálózatot. Az adatbázis az orenburgi és a novgorodi régió archívumából származó dokumentumokat is tartalmaz. Idővel a tárhelyek és a rendelkezésre álló szkennelt fájlok száma növekedni fog.
Kereshet a 18. - 20. század elejéről származó anyagokra, amelyek a legnépszerűbbek a felhasználók körében. Ezek plébániai anyakönyvek, gyóntató ívek és revíziós mesék a népszámlálás eredményeivel. A dokumentumok megtalálhatók a katalógusban vagy a keresősávon keresztül. Vannak szűrők évek, archívumok, alapok és készletek szerint.
Az egyes oldalak beolvasása mellett a neurális hálózatok által készített soronkénti dekódolás jelenik meg. Ha a kívánt töredék fölé viszi az egérmutatót, az azonnal kiemelésre kerül a digitális másolaton.