PDF se zmršenou diakritikou – lze z něj dostat správný text?

Programy pro práci v kanceláři (Word, Excel, Access…=>Office)

Moderátor: Mods_senior

Uživatelský avatar
Myloš
Master Level 8.5
Master Level 8.5
Příspěvky: 6990
Registrován: duben 06
Bydliště: Praha
Pohlaví: Muž
Stav:
Offline

PDF se zmršenou diakritikou – lze z něj dostat správný text?

Příspěvekod Myloš » 13 pro 2013 17:04

V práci mj. upravuji různá periodika a převádím je do čistého textu (TXT).
Mezi tato periodika patří i týdeník Církve československé Husitské Český zápas.
Poslední čísla (například 47 – viz uvedený odkaz) mají zmršenou diakritiku.

ukázka ve spoileru:
► Zobrazit spoiler

Na rozdíl od nakopírování sem nebo do Notepadu jsou sice v PSPadu některá písmenka reprezentovaná dvojicí znaků, z nichž je jeden unikátní, takže by bylo možné náhradou řetězce za znak získat správný text, kdyby… – kdyby tak byla zmršena všechna písmena. Problém je, že třeba í nebo é jsou pouze zkráceny o čárku na i a e, takže bych musel tak jako tak celý text číst a opravovat, na což opravdu nemám čas. To už je rychlejší celé noviny oskenovat, když už je musím kvůli uvedenému problému číst – jenže takhle na jednom blbém čísle strávím hodiny namísto jedné půlhodiny, kterou mi úprava zabrala dřív.
Napadá někoho, jak z takhle zčuněného pédéefka dostat bezchybný text?
  • Než položíte dotaz, nejprve se ptejte strejdy Gůůgla.
  • Výňatek z pravidel fóra PC-HELP:
    • Název tématu zvolte takový, aby co nejvýstižněji charakterizoval obsah tématu.
    • Nesnažte se řešit jiný problém (i když podobný) v jednom tématu. Raději založte nové téma.
  • Mýliti se je Myloš. ;-)

Reklama
Uživatelský avatar
Clorky
Moderátor / člen HW týmu
Master Level 8.5
Master Level 8.5
Příspěvky: 7032
Registrován: květen 10
Bydliště: Moravskoslezský kraj
Pohlaví: Muž
Stav:
Offline

Re: PDF se zmršenou diakritikou – lze z něj dostat správný t

Příspěvekod Clorky » 13 pro 2013 17:10

Tohle by teoreticky mohlo fungovat, vyzkoušej:
http://www.motobit.com/util/charset-cod ... ersion.asp
Je to konvertor charsetu. Znaky ě,č,ř atd. by měl podporovat windows-1250/utf-8 a dalších x.

Uživatelský avatar
Myloš
Master Level 8.5
Master Level 8.5
Příspěvky: 6990
Registrován: duben 06
Bydliště: Praha
Pohlaví: Muž
Stav:
Offline

Re: PDF se zmršenou diakritikou – lze z něj dostat správný t

Příspěvekod Myloš » 13 pro 2013 17:32

Tak ten web mi sice nepomohl, ale náhodou jsem zjistil, že svou vinu nese i PSPad.
Zatímco notepad nehradí všechna písmenka obdélníčkeý, z nichž je každý sice opticky stejný, ale kódem unikátní, PSPad převede na dvojici znaků všechny vyjma ÁÍÉ, takže by to šlo v Notepadu nahradit.
Je to rozhodně jednodušší než skenovat a všechno pozorně číst., přesto – napadá někoho nějaké elegantnější řešení?
  • Než položíte dotaz, nejprve se ptejte strejdy Gůůgla.
  • Výňatek z pravidel fóra PC-HELP:
    • Název tématu zvolte takový, aby co nejvýstižněji charakterizoval obsah tématu.
    • Nesnažte se řešit jiný problém (i když podobný) v jednom tématu. Raději založte nové téma.
  • Mýliti se je Myloš. ;-)

Uživatelský avatar
tux
Elite Level 10
Elite Level 10
Příspěvky: 9620
Registrován: červenec 10
Pohlaví: Muž
Stav:
Offline

Re: PDF se zmršenou diakritikou – lze z něj dostat správný t

Příspěvekod tux » 13 pro 2013 17:56

A co ve wordu nahradit znaky?
Pokud je obdelníček zastupující písmeno í kódově jinej, než třeba ten co zastupuje á, tak by stačilo zkopírovat a ve wordu nahradit znaky, nebo jak se ta funkce jmenuje. Pokud jsem ten problém teda pochopil.
Just Fucking Google It!

Uživatelský avatar
Myloš
Master Level 8.5
Master Level 8.5
Příspěvky: 6990
Registrován: duben 06
Bydliště: Praha
Pohlaví: Muž
Stav:
Offline

Re: PDF se zmršenou diakritikou – lze z něj dostat správný t

Příspěvekod Myloš » 13 pro 2013 23:59

Tak to už je fuk, jestli to budu nahrazovat ve Wordu nebo v Notepadu.
  • Než položíte dotaz, nejprve se ptejte strejdy Gůůgla.
  • Výňatek z pravidel fóra PC-HELP:
    • Název tématu zvolte takový, aby co nejvýstižněji charakterizoval obsah tématu.
    • Nesnažte se řešit jiný problém (i když podobný) v jednom tématu. Raději založte nové téma.
  • Mýliti se je Myloš. ;-)

Uživatelský avatar
tux
Elite Level 10
Elite Level 10
Příspěvky: 9620
Registrován: červenec 10
Pohlaví: Muž
Stav:
Offline

Re: PDF se zmršenou diakritikou – lze z něj dostat správný t

Příspěvekod tux » 14 pro 2013 00:02

Já myslel pomocí tej funkce.
Dáš vyhledat všechny , a ty potom jedním kliknutím přepíšeš na á, případně jiný písmeno.
Just Fucking Google It!

Uživatelský avatar
Myloš
Master Level 8.5
Master Level 8.5
Příspěvky: 6990
Registrován: duben 06
Bydliště: Praha
Pohlaví: Muž
Stav:
Offline

Re: PDF se zmršenou diakritikou – lze z něj dostat správný t

Příspěvekod Myloš » 14 pro 2013 00:12

Ale jistě – Ctrl+H – to znám; jak říkám, totéž můžu udělat i v poznámkovém bloku, když je to prostý text.
  • Než položíte dotaz, nejprve se ptejte strejdy Gůůgla.
  • Výňatek z pravidel fóra PC-HELP:
    • Název tématu zvolte takový, aby co nejvýstižněji charakterizoval obsah tématu.
    • Nesnažte se řešit jiný problém (i když podobný) v jednom tématu. Raději založte nové téma.
  • Mýliti se je Myloš. ;-)

Uživatelský avatar
tux
Elite Level 10
Elite Level 10
Příspěvky: 9620
Registrován: červenec 10
Pohlaví: Muž
Stav:
Offline

Re: PDF se zmršenou diakritikou – lze z něj dostat správný t

Příspěvekod tux » 14 pro 2013 00:23

Koukám že Word tam dělá vůbec jiný znaky. Nějaký smajlíky, a podobný nesmysly.
Just Fucking Google It!

Uživatelský avatar
Myloš
Master Level 8.5
Master Level 8.5
Příspěvky: 6990
Registrován: duben 06
Bydliště: Praha
Pohlaví: Muž
Stav:
Offline

Re: PDF se zmršenou diakritikou – lze z něj dostat správný t

Příspěvekod Myloš » 14 pro 2013 00:39

Jo, myslím že ty samý jako mám tady nahoře ve spoileru v prvním příspěvku.

Doplňuji – aha, tak tady jsou ještě divočejší. ;-)
  • Než položíte dotaz, nejprve se ptejte strejdy Gůůgla.
  • Výňatek z pravidel fóra PC-HELP:
    • Název tématu zvolte takový, aby co nejvýstižněji charakterizoval obsah tématu.
    • Nesnažte se řešit jiný problém (i když podobný) v jednom tématu. Raději založte nové téma.
  • Mýliti se je Myloš. ;-)


  • Mohlo by vás zajímat
    Odpovědi
    Zobrazení
    Poslední příspěvek
  • PDF spatny text Příloha(y)
    od eipa » 18 pro 2023 15:14 » v Vše ostatní (sw)
    3
    1223
    od Grander Zobrazit poslední příspěvek
    19 pro 2023 11:00
  • W11-Otvírají se všechny text soubory
    od supfor » 06 bře 2024 20:24 » v Windows 11, 10, 8...
    4
    844
    od supfor Zobrazit poslední příspěvek
    15 bře 2024 20:41
  • Program: klávesová zkratka->napíše se text
    od pikaso.andreas » 18 črc 2023 14:12 » v Vše ostatní (sw)
    3
    1635
    od X Zobrazit poslední příspěvek
    19 črc 2023 18:28
  • excel text na konec více řádků najednou Příloha(y)
    od Myerina » 03 led 2024 11:51 » v Kancelářské balíky
    5
    950
    od Zivan Zobrazit poslední příspěvek
    04 led 2024 09:42
  • Nejde se dostat do BIOSu
    od ITCrowd » 16 čer 2023 21:56 » v Problémy s hardwarem
    4
    984
    od pcmaker Zobrazit poslední příspěvek
    17 čer 2023 13:44

Zpět na “Kancelářské balíky”

Kdo je online

Uživatelé prohlížející si toto fórum: Google [Bot] a 3 hosti