Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > IT форум > Общие вопросы по программированию, компьютерный форум
Регистрация

Восстановить пароль

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 07.05.2014, 15:48   #11
Аватар
Старожил
 
Аватар для Аватар
 
Регистрация: 17.11.2010
Сообщений: 18,922
По умолчанию

Вставьте #$EF#$BB#$BF в начало файла и в блокноте рассматривайте возможные кракозяблы
Если бы архитекторы строили здания так, как программисты пишут программы, то первый залетевший дятел разрушил бы цивилизацию
Аватар вне форума Ответить с цитированием
Старый 07.05.2014, 15:48   #12
Serge_Bliznykov
Старожил
 
Регистрация: 09.01.2008
Сообщений: 26,229
По умолчанию

а посмотреть глазками сам файл в Hex редакторе (да хоть в том же вьевере Far Commander) не устроит?
Serge_Bliznykov вне форума Ответить с цитированием
Старый 07.05.2014, 15:50   #13
mv28jam
Старожил
 
Аватар для mv28jam
 
Регистрация: 09.09.2008
Сообщений: 2,624
По умолчанию

Цитата:
Блин, в этом и есть проблема, как мне узнать смешал я людей с лошадями или нет?
Оне и так смешаны для первых 7ми бит.
Цитата:
Как удостовериться?
Открыть в редакторе в никсах, или в hex, в начале файла будет кракозябра - EF BB BF.
Стрелок-охотник
mv28jam вне форума Ответить с цитированием
Старый 07.05.2014, 15:51   #14
_PROGRAMM_
Участник клуба
 
Аватар для _PROGRAMM_
 
Регистрация: 30.07.2009
Сообщений: 1,601
По умолчанию

Цитата:
Для какой операционки?
Я думал вы на лине. Что-то читал про konWerter (именно с двойной V) от Артемки Лебедева.

В мире нет вечных двигателей, зато есть вечные тормоза...

Блог
_PROGRAMM_ вне форума Ответить с цитированием
Старый 07.05.2014, 15:52   #15
ds.Dante
Старожил
 
Аватар для ds.Dante
 
Регистрация: 06.08.2009
Сообщений: 2,992
По умолчанию

В кириллическом UTF-8 будут чередоваться байты вида 110***** и 10******. Если таких пар 3-4, то с большой вероятностью у вас кусок UTF-8.

Чтобы убедиться, что файл целиком UTF-8 - прочесть его как UTF-8 и проверить, что 95% символов - русские и английские буквы, цифры и знаки препинания.

Последний раз редактировалось ds.Dante; 07.05.2014 в 15:59.
ds.Dante вне форума Ответить с цитированием
Старый 07.05.2014, 15:55   #16
Человек_Борща
Старожил
 
Аватар для Человек_Борща
 
Регистрация: 30.12.2009
Сообщений: 11,434
По умолчанию

Цитата:
Блин, в этом и есть проблема, как мне узнать смешал я людей с лошадями или нет?
Об этом заботится stringlist, который сохраняет данные в файл.
Человек_Борща вне форума Ответить с цитированием
Старый 07.05.2014, 16:18   #17
Utkin
Старожил
 
Аватар для Utkin
 
Регистрация: 04.02.2009
Сообщений: 17,351
По умолчанию

Цитата:
*СћР*µСЃС‚Р*С•Р*Р†Р*°СЏ Р*С”Р*С•Р*ЅСЃС‚СЂСѓР*єС вЂ*Р*ёСЏ
Вот образец русской крякозябры. Что это?
Цитата:
Оне и так смешаны для первых 7ми бит.
Да их нет.
Цитата:
Открыть в редакторе в никсах, или в hex, в начале файла будет кракозябра - EF BB BF.
Там типа сразу текст начинается и как я понял односимвольный.... В смысле байт на символ...
Цитата:
Об этом заботится stringlist, который сохраняет данные в файл.
Чей-то мне кажется ему пох на все мои поползновения.
Маньяк-самоучка
Utkin появился в результате деления на нуль.
Осторожно! Альтернативная логика

Последний раз редактировалось Utkin; 07.05.2014 в 16:23.
Utkin вне форума Ответить с цитированием
Старый 07.05.2014, 16:29   #18
Serge_Bliznykov
Старожил
 
Регистрация: 09.01.2008
Сообщений: 26,229
По умолчанию

Цитата:
Сообщение от Utkin Посмотреть сообщение
Вот образец русской крякозябры. Что это?
это явно Unicode.
Serge_Bliznykov вне форума Ответить с цитированием
Старый 07.05.2014, 16:29   #19
mv28jam
Старожил
 
Аватар для mv28jam
 
Регистрация: 09.09.2008
Сообщений: 2,624
По умолчанию

Цитата:
Да их нет.
Там типа сразу текст начинается и как я понял односимвольный.... В смысле байт на символ...
B UTF-8 длина символа переменна, для символов подадающих в 7ми битную ASCII, первым символом ставится 0, как маркер однобайтовых символов. Для ASCII же первый бит добивается 0, тк ячейка 8 бит.
Соответственно если в файле нет BOM и символов не входящих в ASCII то определить что кодировка UTF-8 нельзя, тк они полностью совпадают.

Маркером будет 110***** и 10******, как вам уже написали
Цитата:
В кириллическом UTF-8 будут чередоваться байты вида 110***** и 10******
но только если кириллица есть.
Стрелок-охотник

Последний раз редактировалось mv28jam; 07.05.2014 в 16:33.
mv28jam вне форума Ответить с цитированием
Старый 07.05.2014, 16:38   #20
Аватар
Старожил
 
Аватар для Аватар
 
Регистрация: 17.11.2010
Сообщений: 18,922
По умолчанию

Цитата:
это явно Unicode.
Навряд ли. Похоже на результат вложенных перекодировок.
Если бы архитекторы строили здания так, как программисты пишут программы, то первый залетевший дятел разрушил бы цивилизацию
Аватар вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Delphi res (проверить существует ли файл) Painkiller_13 Общие вопросы Delphi 15 18.01.2013 23:13
Проверить .sav-файл HoMM5 HellMercenariess Gamedev - cоздание игр: Unity, OpenGL, DirectX 4 13.09.2012 15:25
Проверить, можно ли заменить/удалить файл... Человек_Борща Общие вопросы Delphi 6 02.07.2011 00:42
Как проверить изменялся ли файл NeiL Общие вопросы Delphi 11 15.05.2008 15:39
Как проверить, есть ли файл? Dux Общие вопросы Delphi 3 02.04.2008 23:18