O projektu – Madla

Lexikální databáze humanistické a barokní češtiny

má dvojí funkci:

1) podává elementární přehled o české slovní zásobě mezi léty 1500–1780 a rozšiřuje a prohlubuje její celkový obraz ustavený především Slovníkem česko-německým Josefa Jungmanna;
2) představuje první krok při budování materiálové základny, z níž bude možno sestavit slovník češtiny uvedeného období, popř. jiné příručky.

Přístup k databázi

Databáze je plně přístupná registrovaným uživatelům z řad jazykovědců, historiků, archivářů apod. stejně jako vysokoškolským pedagogům i studentům těchto oborů (o registraci lze požádat na adrese madla@ujc.cas.cz). Informace o tom, jak mohou s databází pracovat, jsou umístěny v záložce Nápověda.

Popis databáze

Databáze nabízí – vedle úvodních informací na stránkách O projektu, Nápověda a vedle doporučení Jak citovat – především stránky Doklady a Prameny, které uživateli umožňují vyhledávat v databázi jak konkrétní lexikální jednotky napříč zdrojovými texty, tak informace o jednotlivých pramenech využitých při tvorbě databáze. Databáze rovněž nabízí možnost obrátit se na její tvůrce s dotazem, doplňkem apod. (pomocí stránky Připomínky).

Na stránce Doklady lze v režimu Hledej vyhledávat doklady zadaného výrazu nebo naopak všechny lexikální jednotky ze zvoleného pramene. Oba dotazy lze také zkombinovat. U biblických textů lze vyhledávání omezit ještě výběrem biblického místa. Hledání lexikální jednotky lze vztáhnout – pomocí zaškrtávacích polí – na položku Lemma (viz níže), nebo na položku Heslo (viz níže), nebo na obě položky zároveň.

Na stránce Prameny jsou soustředěny základní údaje o jednotlivých dílech – jejich názvy, autoři, zkratka, pod níž dílo v databázi figuruje – a dále údaje o dalším zpracovateli (popř. upravovateli, překladateli apod.) textu, o dataci díla, o jeho vydavateli, místě vydání, o rozsahu díla, o uložení zdrojového dokumentu podle knihovní signatury a případně bližší popis díla. U tištěných památek se také uvádí evidenční číslo, pod nímž dílo zaznamenává databázový soupis českých a slovenských tisků Knihopis (www.knihopis.cz). Záznam rovněž zobrazuje počet dokladů pořízených z daného pramene.

Stránky Doklady a Prameny lze prohledávat rovněž v režimu Listování, tj. procházet veškeré položky po způsobu papírových slovníků – v abecedním uspořádání.

Struktura databázového záznamu

Databázi tvoří asi 1,3 milionu záznamů, které zachycují více než 110 tisíc slov, a průběžně tento počet roste. Jádrem každého záznamu je buď naskenovaný kartotéční lístek, nebo textový úryvek obsahující zvolenou lexikální jednotku.

Každý záznam dále obsahuje několik počítačově čitelných údajů. Z nich jsou obligatorně uvedeny:

A) lemma – tím je systémová („slovníková“) podoba dané lexikální jednotky; zaznamenáváme ji v hláskové a morfematické podobě, kterou předpokládáme k roku 1500 (jen u lexikálních jednotek zaznamenaných prokazatelně mnohem později tuto výchozí podobu nerekonstruujeme); s ohledem na dlouhé trvání průběhu jednotlivých hláskových změn se při tom opíráme o údaje obsažené v historických mluvnicích a také o vlastní poznatky získané při studiu daného materiálu;
B) heslo (textová realizace dané lexikální jednotky) – to tvoří doložená podoba lexikální jednotky; v ní zachováváme autentickou hláskovou podobu slova zachycenou v prameni, která může být značně odlišná od standardní podoby slova, tj. od lemmatu (heslo střen – lemma stržen);
C) pramen (signalizovaný příslušnou zkratkou).

Výběrově se uvádějí další doprovodné údaje o dokladu: jeho bližší určení (strana nebo folio zdrojového dokumentu; u listin apod. rok vzniku textu; díl edice nebo ročník časopisu; u biblických textů biblické místo; poznámka k zachycené podobě či míře spolehlivosti zápisu; u přejatých slov informace o jejich původu atd.).

Zásady zpracování lexikálních jednotek v databázi

Pojetí lexikálních jednotek jako součástí lexikálního systému odpovídá v hrubých rysech koncepci Staročeského slovníku (Staročeský slovník 1–26, 1968–2008): lexikální jednotka je výraz mající svébytnou formu a svébytný obsah (Staročeský slovník. Úvodní stati, soupis pramenů a zkratek, Praha 1968, str. 20–22). Jako plnohodnotnou databázovou jednotku tedy chápeme samostatnou slovní formu, jíž je přiřazen minimálně jeden samostatný lexikální význam.

Protože výsledným dílem je pouze materiálová databáze, nikoli vlastní slovník, je toto vymezení uplatněno jen v základních obrysech: lexikální jednotku v databázi zpracováváme jako jedno heslové slovo bez ohledu na to, kolik má významů; ty (v případě polysémních slov) nevydělujeme, protože podrobná sémantická analýza má smysl teprve při komplexním lexikografickém zpracování veškeré slovní zásoby, které však musí vycházet z většího množství jazykového materiálu. Nesignalizujeme ani – ať předpokládaná, ať nepochybná – homonyma (hýl, plýtvati).

Jako samostatné lexikální jednotky nezaznamenáváme lexikalizovaná spojení, a to ani tehdy, je-li výskyt lexému omezen pouze na ně (dáti na pamětnou – viz pamětná) – jednotlivé části lexikalizovaných spojení zaznamenáváme zvlášť (z komára dělati velblouda – viz komár a velbloud), nebo spojení řadíme alespoň k členu diferencujícímu (nestáti za balatku – viz balatka).

Za samostatné lexikální jednotky však považujeme vlastní jména, a to i tehdy, jsou-li formálně identická s apelativy (Pekárek i pekárek). Přídavná jména tvořící součást vlastních jmen ve víceslovném spojení řadíme vždy pod příslušné apelativní lemma (Harfové moře – viz harfový).

Součástí databáze nejsou cizojazyčná slova či vlastní jména a názvy užité jako citátové.

Způsob zápisu lexikálních jednotek do databáze

Lexikální jednotky uvádíme v tzv. slovníkové podobě (tj. u skloňovaných slov v 1. pádu jednotného čísla, u slov rodově rozlišených v 1. pádu jednotného čísla mužského rodu, u sloves v infinitivu). Výjimkou jsou podstatná jména pomnožná (dveře) a zpodstatnělá přídavná jména omezená na určitý jmenný rod, např. pojmenování poplatků (parožné) nebo označení dějů apod. (čekaná, pomyšlená, zkušená).

Jak lemma, tak heslo transkribujeme – uživatel tedy při hledání nemůže zadávat podobu lexikální jednotky zaznamenanou v prameni původním pravopisem (např. segr, woda) – tato podoba může být uvedena nanejvýš v dokladu. Částečnou výjimku tvoří slova přejatá (především z latiny a němčiny): při určování jejich lemmatu přihlížíme k předpokládané míře jejich začlenění do českého lexikálního systému. Protože v dobových zápisech bývají tato slova zapisována velmi nejednotně a protože také dnešní editoři k nim přistupují rozdílně, uvádíme je v hesle v té podobě, jaká je podle excerptora uvedena v daném prameni (cavaglier, exsequutor, sophistycský – viz kavalér, exekutor, sofistický). V hesle také zachováváme doložený výskyt digrafu au, neboť jej chápeme jako zápis přechodné fáze při vzniku dvojhlásky ou (dlauhost).

Obtíže při stanovení lemmatu i hesla často působí délka samohlásek, která nebývá ve zdrojových textech důsledně značena a s níž ani novodobí editoři nezacházejí jednotně; v rámci některých slovních čeledí nebo slovotvorných typů jsme proto zvolili individuální přístup k jejich zpracování, který zohledňuje stáří jednotlivých slov, jejich jedinečný vývoj, systémové tlaky uvnitř lexikálního systému, možné nářeční vlivy atd. Protože však naším cílem není podat obraz konkrétního textu, ale obraz veškeré slovní zásoby, obecně se v otázkách samohláskové délky řídíme původem a slovotvornou stavbou slova. Opírali jsme se rovněž o rukopis nevydané monografie Milady Nedvědové Kvantita samohlásek ve starší češtině a o dílčí práce zabývající se tvořením slov ve starší češtině.

Vznik databáze

Lexikální databáze humanistické a barokní češtiny byla vytvořena ve dvou fázích.

V letech 2005–2012 vznikala na základě několika lístkových kartoték, které jsou v majetku Ústavu pro jazyk český AV ČR. Asi dvě třetiny těchto kartoték pořídil v průběhu několika desetiletí Zdeněk Tyl (1913–2008), zbytek sestavili cca v 60. a 70. letech 20. století externí spolupracovníci.

Po r. 2012 byla (a je i nadále) databáze průběžně rozšiřována cílenou excerpcí dalších dobových textů.

Vlastní databáze je dílem několika členů oddělení vývoje jazyka Ústavu pro jazyk český AV ČR. Po celou dobu na úkolu pracují Petr Nejedlý (řešitel projektů) a Miloslava Vajdlová, do roku 2012 Věra Chládková a v současnosti ještě Jan Dušek, Tereza Hejdová, Veronika Oplištilová, Jiří Pergler, Štěpán Šimek a Dmitrij Timofejev. V různých fázích projektu se prací dále účastnili (v abecedním pořadí) Irena Fuková, Kateřina Heřmanská, Barbora Chybová, Zuzana Jasanská, Lucie Korbélyiová, František Martínek, Klára Matiasovitsová, Blanka Nedvědová, Barbora Poledňáková, Kateřina Rysová, Klára Šatanová, Kateřina Ulmanová a Eva Záhořová; databázi po stránce programové připravil primárně Boris Lehečka, v dalších fázích ve spolupráci se softwarovým studiem Applifting.

Na práci se různou měrou dále podíleli studentky a studenti (převážně z Filozofické fakulty Univerzity Karlovy) Vendula Barabášová, Nea Brkičová, Hana Bulejová, Jan Čermák, Eva Česká, Jana Česká, Eliška Davidová, Jana Eichlerová, Jitka Filipová, Magdalena Fottová, Libuše Hronková, Veronika Jáchimová, Zuzana Janovská, Adéla Kovácsová, Kateřina Kubová, Miloslava Landová, Aneta Machálková, Zuzana Maleňáková, Zuzana Milbachová (Kapitolová), Tereza Mudrová, Vladěna Ondoková, Ludmila Pechová, Dagmar Plamperová, Gabriela Romanová, Magdaléna Rysová, Helena Sellnerová, Dagmar Schafferová, Jana Sieberová, Klára Soukupová, Jana Stillerová, Michal Strnad, Monika Markéta Šmídová, Michaela Štěchová (Hájková), Zuzana Šullová, Rostislav Taud, Anna Vandasová a Kateřina Zimmertová.

Skenování lístkových kartoték provedla firma Imaging Systems vedená Alešem Konarovským. Odborné konzultace k nejfrekventovanějším použitým literárním pramenům poskytl Jan Malura z Ostravské univerzity, někteří studenti a studentky pracovali pod vedením Karla Komárka z olomoucké Univerzity Palackého.

Hodnotný kriticky zpracovaný jazykový materiál nám poskytlo oddělení pro komeniologii a intelektuální dějiny raného novověku Filosofického ústavu AV ČR.

V letetch 2005–2012 databáze vznikala v rámci projektu Slovní zásoba češtiny doby střední – „editio princeps“ (analýza lexikálního materiálu a jeho zpřístupnění v elektronické formě) v programu „Podpora projektů cíleného výzkumu“ (č. 1 QS 9006 10505) a grantového projektu Grantové agentury ČR Česká slovní zásoba v období humanismu a baroka: vývojové aspekty (č. P406/10/1165). V letech 2005–2011 práci podpořilo Výzkumné centrum vývoje staré a střední češtiny (č. LC 546) Ministerstva školství, mládeže a tělovýchovy České republiky, v následujících letech pak projekty č. LM2015081 (RIDICS) a LM2018101 (LINDAT/CLARIAH-CZ).

Jsme si dobře vědomi, kolik otázek v tomto oboru ještě není vyřešeno, a jsme připraveni se jimi dále zabývat. Aby však mohl příslušný výzkum pokračovat (a být finančně podporován), je třeba prokázat jeho potřebnost standardním způsobem, tj. mimo jiné citací použitého díla. Je tedy též v zájmu uživatelů, budou-li na databázi ve svých pracích náležitě odkazovat (viz záložka Jak citovat).

Přejeme uživatelům databáze, aby jim posloužila v jejich práci. Jejich případné připomínky a podněty zároveň přispějí k zpřesnění a k rozšíření dosavadních poznatků o slovní zásobě humanistické a barokní češtiny.