«Байт кеңістігі» мәтінін Python мәтіндік құжатына салыстыру

.Txt файлдарының екі жиынтығы бар аннотирленген корпуспен жұмыс істеймін. Алғашқы жиынтықта аннотацияланған құжаттар бар (яғни, мақалалар, блог-хабарлар және т.б.), ал екіншісінде нақты аннотациялар бар. Аннотацияға түсініктеме беру тәсілі «байт аралығымен». Readme файлынан:

"The span is the starting and ending byte of the annotation in 
the document.  For example, the annotation listed above is from 
the document, temp_fbis/20.20.10-3414.  The span of this annotation 
is 730,740.  This means that the start of this annotation is 
byte 730 in the file docs/temp_fbis/20.20.10-3414, and byte 740 
is the character after the last character of the annotation."

Мәселен, сұрақ: Аннотацияны түпнұсқалық құжаттағы мәтінге сәйкестендіру үшін құжатта қалай бастау керек? Кез келген идеялар? Мен бұл туралы Python-да жұмыс істеймін ...

0
@Brian Just mmap оқыңыз. Бұл заттар шешілді. Рахмет!
қосылды автор Renklauf, көзі
Сіз не істегеніңіз туралы көбірек ақпарат бере аласыз ба? Егер мәтін питон массивінде болса, онда оның жай деректері [0] және деректер [-1] бірінші және соңғы үшін. Егер ол файлда болса, онда mmap модулін ұнатамын. Мүмкін, менде мәселе жоқ.
қосылды автор Brian Larsen, көзі

2 жауаптар

"This means that the start of this annotation is 
byte 730 in the file docs/temp_fbis/20.20.10-3414, and byte 740 
is the character after the last character of the annotation.

     blah, blah, blah, example annotation, blah, blah, blah
                       |                 |
                  start byte          end byte

The data_type of all annotations should be 'string'."
0
қосылды
#open, seek, read
start, end = 730,740
f = open("myfile", "rb")
try:
    f.seek(start)
    while start > end
        byte = f.read(1)
        # Do stuff with byte.
        start -= 1
finally:
    f.close()
0
қосылды