LanguageTool filter for Catalan text processing
npm install @pccd/lt-filterPrograma per filtrar frases en català amb LanguageTool. Separa les frases correctes de les que contenen possibles errors gramaticals o ortogràfics.
``bash`
npm install @pccd/lt-filter
`bashPer defecte, les frases correctes van a stdout i les incorrectes a stderr
npx lt-filter input.txt > correct.txt 2> flagged.txt
Si no, es pot baixar directament el fitxer JAR:
`bash
wget https://github.com/pereorga/pccd-lt-filter/raw/refs/heads/master/bin/lt-filter.jar
java -jar lt-filter.jar --help
`$3
Per evitar la sobrecàrrega d'iniciar l'aplicació per a cada comprovació, es pot executar com a servidor REST.
Inicia el servidor:
`bash
java -jar bin/lt-filter.jar --port 8080
`Envia text per a la seva anàlisi:
Fes una petició
POST a l'arrel (/) amb el text (una o més frases separades per salts de línia) en el cos de la petició.`bash
curl -X POST -d "Això és una frase correcta.
Això és una altre frase." "http://localhost:8080/"
`Resposta JSON:
La resposta és un objecte JSON que separa les frases correctes de les incorrectes.
`json
{
"correct": ["Això és una frase correcta."],
"flagged": [
{
"sentence": "Això és una altre frase."
}
]
}
`Paràmetres opcionals:
Podeu passar opcions de la línia d'ordres com a paràmetres de consulta a la URL.
-
rule-names=true: Inclou els identificadors de les regles a la sortida.
- disable-rules=REGLA1,REGLA2: Desactiva regles addicionals.
- disable-rules-replace=REGLA1,REGLA2: Substitueix les regles desactivades per defecte.Exemple amb
rule-names:`bash
curl -X POST -d "A acaba-set" "http://localhost:8080/?rule-names=true"
`Resposta JSON:
`json
{
"correct": [],
"flagged": [
{
"sentence": "A acaba-set",
"rules": ["PREP_VERB_CONJUGAT"]
}
]
}
`Opcions de la línia d'ordres
| Opció | Descripció |
| ------------------------------- | ------------------------------------------------------------------ |
|
--port PORT | Executa com a servidor REST en el port especificat |
| -c, --correct | Envia les frases correctes a stdout |
| -f, --flagged | Envia les frases marcades per LanguageTool a stdout |
| -r, --rule-names | Inclou els noms de les regles després de les frases marcades |
| -d, --disable-rules RULES | Llista de regles addicionals a desactivar (separades per comes) |
| --disable-rules-replace RULES | Llista de regles a desactivar (substitueix les regles per defecte) |
| -h, --help | Mostra el missatge d'ajuda |
| -v, --version | Mostra la versió |Regles desactivades per defecte
Per defecte, es desactiven les següents regles de LanguageTool:
-
EXIGEIX_VERBS_CENTRAL
- EXIGEIX_ACCENTUACIO_GENERAL
- EXIGEIX_POSSESSIUS_V
- EVITA_PRONOMS_VALENCIANS
- EVITA_DEMOSTRATIUS_EIXE
- VOCABULARI_VALENCIA
- EXIGEIX_US
- SER_ESSER
- WHITESPACE_RULE
- CA_UNPAIRED_BRACKETS
- ESPAIS_SOBRANTS
- MAJ_DESPRES_INTERROGANT
- UPPERCASE_SENTENCE_STARTCompilació (requereix Maven i JDK 17+)
`bash
mvn package
``Originalment pensat per incoporar les frases de la PCCD a
Common Voice. Basat en el codi de
https://github.com/Softcatala/filter-wiki-corpus-lt