Python файлынан кірістіру

Мен файлды python бағдарламасына оқып, мәтінді сөйлем жиынтығына бөлу үшін tokenizer қолдануға тырысамын. Дегенмен, менің шығарылымымда шығаруда болдырмауды қалайтын '/ n' таңбасын аламын, себебі бұл менің ұсыныстарымның одан арғы процестеріне кедергі келтіруі мүмкін. Read() пәрменін пайдаланып, кірісті оқимын. Сондай-ақ, readline() функциясын қолданып көріңіз. менің шығарылымымда жаңа сызық таңбаларын аламын. Бұған жол бермеуге қатысты қандай да бір ұсыныстар бар ма?

file_sent = open(path,'r')
all_sents = file_sent.read()
sent_all = print all_sents
tokenized_sents = sent_tokenize(sent_all)
0
Мен білемін, бірақ мен оны өзіме енгізуді қаламаймын.
қосылды автор madCode, көзі
Бұл код жұмыс істемеуі керек. sent_all = print all_sents жолы «жарамсыз синтаксис» қатесіне әкеледі. Бұл жұмысты орындау үшін не істеп жатырсыз?
қосылды автор Aaron Dufour, көзі
«\ n» - сызықтық жолдың мәтіндік белгісі.
қосылды автор Shakakai, көзі

1 жауаптар

Егер сіз жаңа жолдарды толығымен алып тастағыңыз келсе:

all_sents = file_sent.read().replace('\n', '')

Егер оларды кеңістіктермен ауыстырғыңыз келсе:

all_sents = file_sent.read().replace('\n', ' ')

Егер сіз қаласаңыз, оларды басқа нәрсемен алмастыра аласыз.

2
қосылды
бұл шындық, рахмет! Бірақ мен де солай етуге болатын басқа бір жол бар ма деп ойладым.
қосылды автор madCode, көзі
Сіз қандай басқа жолды ойлайсыз? Өңдеудің басқа нүктесінде сіз оған қол жеткізе аласыз. Мысалы, оны сөздерге бөлсеңіз, жаңа кодты қоса, кез-келген бос орынмен жақсы жұмыс істейтін .split() қолдануға болады және сол кезде олар кетеді.
қосылды автор kindall, көзі