.Csv файлдарынан салыстырмалы дерекқорды қалай қалпына келтіресіз?

Мен 1,5 мыңнан астам деректерді алдым, олар маған белгілі дерекқорлар түрінен алынған. Өкінішке орай, сызық бойында кез-келген реляциялық дерекқорды реляциялық жасайтын барлық нәрсе жойылып, біз қалдырған нәрсе дерекқордағы кестелердің біріне сәйкес келетін елу. Ешқандай схема, жазбалар жоқ және пайдалы құжаттаманың тек бір бөлігі бар. Мәселені жинақтау, дерекқорды сақтайтын және CX_CUST_O-дағы X_ATTRIB_14 дегеніміз не деген сұраққа бару мүмкін емес адамдарға қол жетімді емес.

Бізде әрбір төлсипат, атау және деректер түрі үшін тізілген файл бар және бұл барлық кестелерді қамтиды, сондықтан біз атрибуттардың не екенін білеміз. Бұл ұқсас нәрсе

TABLE_NAME

ROW_ID ..................... VARCHAR2 (32)

CREATED .................... VARCHAR2 (16)

LAST_MODIFIED ......... DATE

etc және т.б.

Деректер өрістердің кез-келгенінде тізімделмеген көптеген атрибуттармен және ATTRIB_3 сияқты пайдасыз атаулардың көптігі. Әр кестеде ROW_ID, CREATED және CREATED_BY және CONFLICT_ID бар. Содан кейін, деректер өрістері бар, олар әдетте пешті, сондай-ақ бос мәндер көп, сондай-ақ ішінара толтырылады.

Әзірге мен ешқандай құндылығы жоқ атрибуттарды алып тастап, қарапайым атау конвенцияларының бар-жоқтығын тексеру арқылы кейбір алдын ала өңдеуді жасадым - мысалы, TABLE_A ішіндегі X_ATTRIB_3 TABLE_B ішіндегі X_ATTRIB_3 сияқты болса, және жалпыға ортақ атрибуттар тек тривиальды болып көрінеді - LONGITUDE, мысалы, бірнеше кестелерде кең таралған, бірақ бұл екіталай көмектеседі. Жалғастыруға қалай сенімдімін; деректердің мөлдір өлшемі қолмен қарауға мүмкіндік бермейді.

Кестелер арасындағы қарым-қатынастарды қалпына келтіруге көмектесетін құралдар немесе техникалар бар ма, әлде сирек кездесетіндіктен, нөлден бастау керек пе?

Сіздің уақытыңыз үшін рахмет.

1
келесідей сұрақтарға арналған жаңа веб-сайт қажет: realworld.stackexchange.com
қосылды автор Dave, көзі
Бұл пайдалы болмауы мүмкін, бірақ сіз реляциялық бөлікті қаптатып, әр кестенің әр жолын Mongo/some-other-document-db-ге кіргізген деп санайсыз ба?
қосылды автор jcollum, көзі
Құжатқа негізделген дерекқордың мәселелерді жақсартатынына сенімдімін, бірақ бұл басқа нәрсеге қарағанда надандықтан көп нәрсе. Өз веб-сайттарын түсіру мені шынымен жарықтандырмайды - деректер әлі күнге дейін реляциялық түрде жасалуы мүмкін. Сіз маған неге көмектесетінін түсіндіре аласыз ба? (<- өте білмейтін, осы жобаның алдында дерекқорлармен жұмыс істемеген)
қосылды автор Shiro, көзі

1 жауаптар

Деректердің өз табиғаты туралы интуитивті білмей күрделі деректер құрылымдары үшін қатынастарды қалпына келтіру өте қиын. Байланыстар қолмен қайта жасалуы керек және оны дұрыс жасау үшін деректерді өзгертуге болмайды. Дерекқордың схема дизайндарының көпшілігінде, дизайнер жазбалар идентификаторлары мен оңай индекстелген деректерге қатысты қатынастарды жасайды, әдетте ерікті сан. Біріншіден, деректерді дерекқорға шикізат түрінде қосу керек еді. Содан кейін деректеріңізді эвристикалық түсінуіңізге негізделе отырып, деректер бойынша жүргізілетін сауалдарға негізделген қарым-қатынастарды жасаңыз. Сізге бұл үшін кәсіби көмек қажет болуы мүмкін :-) - Шындық деректеріңізді өңдейтін кез-келген автоматтандырылған құрастыру құралдарын пайдаланбаңыз; Ақпаратты жоғалту CSV сияқты форматқа деректерді жасаған кезде қалпына келтіруге тырысқан кезде өте нәзік болуы мүмкін.

1
қосылды
Мен сізге кейбір ресурстарға сілтеме жасай алатын көмектің бар-жоғын білуіме рұқсат етіңіз ... менің электрондық поштамыз googgun.com сайтында
қосылды автор Ahmed Masud, көзі
Бұл көңіл қалдырады, бірақ күткенім туралы ... жауап үшін рақмет.
қосылды автор Shiro, көзі