MyHeritage voegt grote collectie toe met historische stadsregisters voor de Verenigde Staten

Reacties

Met genoegen kondigen we de publicatie aan van een enorme verzameling historische Amerikaanse stadsregisters – een inspanning die twee jaar in de maak is geweest. De collectie werd exclusief geproduceerd door MyHeritage uit 25.000 openbare Amerikaanse stadsregisters gepubliceerd tussen 1860 en 1960. Het omvat 545 miljoen geaggregeerde gegevens die zijn geconsolideerd uit 1,3 miljard records, waarvan vele vergelijkbare vermeldingen voor dezelfde persoon bevatten. Deze toevoeging brengt het totale aantal historische records op MyHeritage op 11,9 miljard records.

Nu de collectie Amerikaanse stadsregisters doorzoeken

De nieuwe collectie stadsregisters op MyHeritage vormt een rijke bron van informatie voor iedereen die meer wil weten over hun familie in de Verenigde Staten in het midden van de 19e tot het midden van de 20e eeuw. Ze bevatten waardevolle inzichten in het dagelijkse Amerikaanse leven in de periode van de Civil War tot de Civil Rights Movement.

Wat zijn stadsregisters?

Steden in de Verenigde Staten produceren en distribueren sinds de jaren 1700 registers als een up-to-date hulpmiddel om inwoners te helpen lokale individuen en bedrijven te vinden. In de stadsregisters worden meestal namen (en echtgenoten), adressen, beroepen en werkplekken vermeld. Soms bevatten ze aanvullende informatie.

Voorbeeld: bladzijden uit het stadsregister van Nashville City 1888 (klik om te vergroten)

Dankzij hun gedetailleerdheid kunnen stadsregisters een levensvatbaar alternatief bieden voor Amerikaanse volkstellingen tijdens jaren waarin deze niet plaatsvonden, omdat federale tellingen eens in de tien jaar worden gehouden en in veel gevallen stadsregisters jaarlijks werden gepubliceerd. Ze kunnen ook de gaten vullen in situaties waarin volkstellingen verloren of vernietigd zijn. In 1921 verwoestte een brand bij het Amerikaanse ministerie van Handel de meeste gegevens uit de telling van 1890. Ondanks het verlies van de gegevens in de brand, kunnen veel van de gegevens worden gereconstrueerd met behulp van de stadsregisters uit 1890 op MyHeritage, die bestaan uit telefoonboeken uit 344 steden in het hele land, waaronder 88 van de 100 meest bevolkte steden in dat jaar.

Unieke verwerking door MyHeritage

De stadsregisters in deze collectie zijn gepubliceerd door duizenden steden en dorpen in de hele Verenigde Staten en elk register is anders ingedeeld. De enorme hoeveelheid inhoud en de verscheidenheid ervan maakte het project uitdagender en vereiste de ontwikkeling van speciale technologie om de stadsregisters te verwerken.

We gebruikten eerst Optical Character Recognition (OCR) om de gescande afbeeldingen van de registers om te zetten in tekst. Dit proces kan leiden tot fouten in de uitvoering en we hebben algoritmen gemaakt om enkele van deze fouten te detecteren en te corrigeren.

Vervolgens moesten we de gegevens ontleden om de verschillende velden in alle gegevens te identificeren: namen, beroepen, adressen en meer. De verschillen in opmaak tussen de boeken vormden een extra uitdaging. Ons team heeft methoden zoals Name Entity Recognition (NER) en Conditional Random Field (CRF) gebruikt om een algoritme te trainen met behulp van een model per boek – wat betekent dat we voor elk van de 25.000 boeken handmatig een monster van de records hebben gelabeld en gebruikt om het algoritme te trainen om het register te ontleden. Met dit model kon het algoritme het hele boek ontleden in een gestructureerde index van waardevolle historische informatie.

In het onderstaande voorbeeld van gegevens uit eenstadsregister over Ralph McPherran Kiner, een Amerikaanse Major League Baseball-speler en -omroep, zien we hoe ons systeem een OCR-fout heeft overwonnen en gecorrigeerd. Het onjuiste adres in het record van 1957 is 55801 Yorkshire av, terwijl in de gegevens van 1958 en 1960 het adres wordt vermeld als h5801 Yorkshire av, en de “h” impliceert dat Ralph de huiseigenaar is. We hebben afgeleid dat de eerste “5” in de eerste gegevens een OCR-fout betrof, en eigenlijk een “h” zou moeten zijn, en konden daarom vaststellen dat Ralph gedurende deze jaren op hetzelfde adres woonde.

Voorbeeld van gegevens met een OCR fout die is gecorrigeerd (klik om te vergroten)

Gegevens consolideren en het maken van een doorzoekbare index

Nadat alle informatie was ontleed, consolideerden we de gegevens op een ongekende manier. We hebben gegevens geïdentificeerd waarvan wordt gedacht dat ze dezelfde persoon beschrijven die gedurende meerdere jaren op één bepaald adres woonde, zoals gepubliceerd in meerdere edities van de stadsregisters. We hebben vervolgens al die vermeldingen samengevoegd tot één geaggregeerd geheel dat een periode van jaren beslaat. Dit verminderde “zoekmachine-vervuiling”, waarbij een zoekopdracht naar een persoon meerdere, zeer vergelijkbare vermeldingen uit opeenvolgende jaren zou hebben opgeleverd, waardoor andere gegevens werden verdoezeld. De samenvoeging maakt het gemakkelijker om veranderingen in loopbaan, geschatte huwelijksdata, tweede huwelijken en plausibele overlijdensdata te herkennen. Voor zover wij weten, is de algoritmische afleiding van gebeurtenissen rondom huwelijk en overlijden uit stadsregisters uniek voor MyHeritage.

In het onderstaande voorbeeld hebben we 31(!) gegevens uit de jaren 1912-1959 samengevoegd tot één geheel. Op basis van de informatie die in de loop der jaren is verzameld, is het waarschijnlijk dat Alfred en Mary Albert omstreeks 1914 trouwden. We konden ook vaststellen dat Alfred omstreeks 1959 stierf.

Voorbeeld van geconsolideerde gegevens (klik om te vergroten)

Uit de aggregatie blijkt ook dat Alfred in deze jaren verschillende keren van beroep veranderde en hij van dirigent naar timmerman naar motorman ging.

Dit is de kracht van consolidatie: het zet veel “saaie” gegevens om in een enkele, rijke biografie die een levensverhaal vertelt!

Voorbeelden van uitdagende problemen – en hoe we deze hebben opgelost

Meerdere vermeldingen

Veel gepubliceerde stadsgidsen bespaarden zetwerk (wat duur was) en papier door een symbool te gebruiken om aan te geven dat meerdere vermeldingen dezelfde achternaam hadden, zoals dito tekens of streepjes. Sommige vermeldingen gingen verder op een tweede regel, terwijl anderen er slechts één beslaan. Het algoritme moest het verschil begrijpen tussen de achternaam en de tekst die er vaak direct onder verschijnt.

In het onderstaande voorbeeld heeft het algoritme voor gegevens-extractie bijvoorbeeld met succes afgeleid dat Bartsch een achternaam is en dat het dito-teken in de volgende regel ook Bartsch betekent.

Het algoritme voor gegevens-extractie leidt achternamen af uit dito-tekens
Het algoritme stelt ook vast waar gegevens beginnen en eindigen. Onderstaande gegevens omvatten bijvoorbeeld een regel:

Deze gegevens omvatten echter twee regels:

Als het algoritme dit niet had afgeleid, zouden we extra gegevens voor “Waller” hebben aangemaakt en het hebben gemist om dit te identificeren als de straatnaam in het record over Wm F. Hoewel dit proces heel goed werkt, zijn er nog enkele registers waarin dit type gegevensextractie niet 100% robuust is.

Afkortingen

Een tabel met algemene afkortingen verschijnt aan het begin van elk stadsregister, met afkortingen voor namen, beroepen, woonplaats en adressen die in het hele boek worden gebruikt. De gegevens zijn vaak moeilijk te ontcijferen zonder het gebruik van de afkortingstabellen.

Tabel met afkortingen uit stadsregister Jacksonville 1931-1932 (klik om te vergroten)

Om de tabellen met afkortingen in de collectie te integreren, hebben we de tabel uit elk boek handmatig ingetoetst en gebruikt om de afkortingen in de gegevens uit te breiden.

Onze verwerking van voornaam-afkortingen in deze collectie is bijzonder nuttig, want als u op zoek bent naar een “Patrick”, zullen we hem voor u vinden, zelfs in gegevens waar hij wordt vermeld als “Patk”, zodat u niet hoeft na te denken over alle mogelijke manieren om naar elke naam te zoeken – dat hebben wij al voor u gedaan!

In het volgende voorbeeld hebben we de afkortingen uitgebreid van sten tot stenograaf, kliek tot klerk, de werkplek Fla Natl Bank tot Florida National Bank en status woonplaats van r tot huur. Dit verbetert de leesbaarheid en maakt zoeken en matchen met stambomen mogelijk met een veel hogere nauwkeurigheid.

Voorbeeld van uitbreiding van afkortingen binnen gegevens (klik om te vergroten)

Belangrijke inzichten uit de collectie

Afgeleide levensgebeurtenissen

Geconsolideerde stadsregister-gegevens zorgden ervoor dat MyHeritage automatisch de datum van huwelijk of overlijden kon afleiden op basis van wijzigingen in de gegevens.

In het onderstaande voorbeeld trouwde Henry Bennett uit Oakland, Californië waarschijnlijk eind 1923 of begin 1924, en het stadsregister Oakland uit 1924 vermeldt Nancy als zijn vrouw. We maakten daarom huwelijksgegevens aan met Nancy duidelijk gemarkeerd als impliciet, gedateerd rond 1924.

Voorbeeld van een afgeleide huwelijksdatum (klik om te vergroten)

In het onderstaande voorbeeld worden Matthew en Sally Lewin als echtgenoten vermeld en wonen ze tot 1945 samen in 305 New Scotland Ave in Albany, New York.

Voorbeeld van een afgeleide overlijdensdatum (klik om te vergroten)

Verandering in status huiseigenaar

Door de gegevens heen kunnen we zien of de persoon die op een willekeurig adres woonde een huurder was, in de meeste gegevens aangeduid met een “r”, of ze een inwoner waren, aangeduid met een “b”, of als ze de huiseigenaar waren, aangeduid met een “h”.

Door geconsolideerde gegevens door de jaren heen te volgen, konden we zien of iemand overging van huren naar het bezitten van hun huis op hetzelfde adres.

In dit voorbeeld zien we dat James Thompson huurder was tot 1921. Ergens tussen 1921 en 1923 werd hij de eigenaar van zijn woning.

Voorbeeld van verandering in status huiseigenaar (klik om te vergroten)

Andere personen vinden die op hetzelfde adres woonden

Met de collectie stadsregisters kunnen gebruikers zien wie er nog meer op hetzelfde adres heeft gewoond. Klik eenvoudig op “Kijk wie er nog meer op dit adres woonde” op de gegevenspagina om een zoekopdracht op adres uit te voeren.

Deze functie kan handig zijn voor het lokaliseren van voorouders, nakomelingen of andere familieleden van de persoon die u onderzoekt die in andere perioden op hetzelfde adres woonden. Vaak woonden meerdere generaties van een gezin op hetzelfde adres, of werd een gezinshuis van de ene generatie op de andere overgedragen.

In het volgende voorbeeld woonden James en Glenna Japhet op 623 W Olmos Drive in San Antonio, Texas.

Voorbeeld gegevens uit San Antonio, Texas, 1948 (klik om te vergroten)

Bij het controleren om te zien wie er nog meer op hetzelfde adres woonde in de gegevens van de stadsregisters, zien we dat behalve James en Glenna, een andere persoon met de achternaam Japhet ook wordt vermeld als woonachtig op dat adres: een vrouw genaamd Laverne Japhet .

Resultaten die andere personen tonen die woonden op hetzelfde adres (klik om te vergroten)

Het lijkt erop dat Laverne de tweede vrouw van James is of dezelfde persoon als “Glenna L”. Dit opent nieuwe wegen voor meer onderzoek.

Kosten

Het doorzoeken van de stadsregisters uit de Verenigde Staten is gratis, maar een abonnement is nodig om de gegevens te bekijken.

Gebruikers met een data of Compleet abonnement kunnen de volledige gegevens bekijken inclusief de hoge-resolutie scans van de originele versie, Record Matches bevestigen,  informatie extraheren uit de gegevens direct naar hun familiestamboom, en gerelateerde gegevens bekijken voor de persoon die verschijnt in de historische gegevens die zijn momenteel bekijken.

Samenvatting

De Collectie Amerikaanse stadsregisters op MyHeritage is een schatkamer voor iedereen die op zoek is naar meer informatie over hun voorouders in de Verenigde Staten. We hebben heel hard gewerkt om deze collectie voor onze gebruikers voor te bereiden en zijn van mening dat dit de slimste online collectie Amerikaanse stadsregisters ooit is. In de komende maanden zijn we van plan deze belangrijke verzameling nog verder uit te breiden door duizenden extra stadsregisters te publiceren. Deze toevoeging omvat registers uit meer steden en registers die vóór 1860 en na 1960 zijn gepubliceerd.

Doorzoek de collectie Amerikaanse stadsregisters nu

Veel plezier!

Plaats een reactie

Het e-mailadres blijft privé en wordt niet gepubliceerd