|
|
Регистрация Восстановить пароль |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
Нет наработок или кода, если нужно готовое решение - создайте тему в разделе Фриланс и оплатите работу. Название темы включает слова - "Помогите", "Нужна помощь", "Срочно", "Пожалуйста". Название темы слишком короткое или не отражает сути вашего вопроса. Тема исчерпала себя, помните, один вопрос - одна тема Прочитайте правила и заново правильно создайте тему. |
|
Опции темы | Поиск в этой теме |
11.04.2016, 15:19 | #201 |
Заблокирован
Регистрация: 06.02.2011
Сообщений: 1,999
|
вы не путайте .
если в старших 3-х байтах одни нули так это не значит что на этом можно что-то сэкономить. |
11.04.2016, 15:23 | #202 |
Старожил
Регистрация: 12.01.2011
Сообщений: 19,500
|
Путаете тут только вы.
Что не значит? Вместо 3 байтов с нулями + 1 байт ASCII символ храним только 1 байт, все ок с экономией.
Ушел с форума, https://www.programmersforum.rocks, alex.pantec@gmail.com, https://github.com/AlexP11223
ЛС отключены Аларом. |
12.04.2016, 11:38 | #203 |
Заблокирован
Регистрация: 06.02.2011
Сообщений: 1,999
|
зачем вы употребляете тут ASCII если речь идет о юникоде ?
пока я не увидел смысл применения U-8 с точки зрения здравого смысла. особенно тут. 00010000-001FFFFF 4 00200000-03FFFFFF 5 04000000-7FFFFFFF 6 было 4 байта стало 6. вы вообще в своем уме ? |
12.04.2016, 11:41 | #204 | |||
Старожил
Регистрация: 28.01.2009
Сообщений: 21,000
|
Цитата:
Цитата:
мало кому интересно объяснять статистичность сжатия. Цитата:
UTF специально составлена так что большая часть применяемых символов идет в начале. UTF считали относительно текстов, а не одиночных символов. хотите еще пример? абсолютно реальный. https://habrahabr.ru/post/278745/ UTF-8: 303*648 байт. UTF-16: 544*144 байта. UTF-32: 1*088*288 байта. надеюсь пример пояснений не требует. Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
Программа делает то что написал программист, а не то что он хотел. Функции/утилиты ждут в параметрах то что им надо, а не то что вы хотите. |
|||
12.04.2016, 11:49 | #205 |
Заблокирован
Регистрация: 06.02.2011
Сообщений: 1,999
|
UTF-8: 303*648 байт.
что это за фонарные числа ? где доказательства ? информации дали много - только ни одна ни показывает положительные стороны. а символы у меня как раз в диапазоне 04000000-7FFFFFFF. |
12.04.2016, 11:53 | #206 |
Старожил
Регистрация: 12.01.2011
Сообщений: 19,500
|
Откройте блокнот и сохраните какой-нибудь текст в UTF-8 и в UTF-16 (в блокноте называется просто Unicode), сравните размер.
Ушел с форума, https://www.programmersforum.rocks, alex.pantec@gmail.com, https://github.com/AlexP11223
ЛС отключены Аларом. |
12.04.2016, 11:57 | #207 | |||
Старожил
Регистрация: 28.01.2009
Сообщений: 21,000
|
Цитата:
это страница по ссылке. ее размер при сохранении в файл. Цитата:
этого достаточно если уметь читать. Цитата:
учитывая что Unicode символы до туда насколько я помню еще не дошли. UTF-8 не дает 100% гарантии меньшего размера. есть случаи, где он выдаст больше. так же есть случаи где и UTF-16 выдаст больше, чем UTF-32. но ничего, все живут же. PS: кстати говоря, свои заявлением про фонарные числа вы показали что пост вы не читали. там вед написано все Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
Программа делает то что написал программист, а не то что он хотел. Функции/утилиты ждут в параметрах то что им надо, а не то что вы хотите. Последний раз редактировалось Пепел Феникса; 12.04.2016 в 12:11. |
|||
12.04.2016, 12:11 | #208 |
Заблокирован
Регистрация: 06.02.2011
Сообщений: 1,999
|
|
12.04.2016, 17:01 | #209 |
Лис
Старожил
Регистрация: 18.09.2015
Сообщений: 2,409
|
Её моё сколько можно про сжатие?
Нету тут сжатия! Разно размерное кодирование даёт выигрыш только на определенных тестах. На других текстах оно может давать отрицательный результат. Наиболее часто встречающиеся символы делаем короткими наиболее редко длинными. Это ещё Шенон описал. Теорию можно прочитать в Лидовский В.В., Теориинформации, 2003.pdf Вопрос какие символы наиболее часто встречаются? https://ru.wikipedia.org/wiki/Языки_мира Ответ Китайские иероглифы. Так что правильно 8 битными кодировать китайские тексты, а не английские.
Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
У дзен программиста программа делает то что он хотел, а не то что он написал . |
12.04.2016, 17:06 | #210 |
Заблокирован
Регистрация: 06.02.2011
Сообщений: 1,999
|
китайские символы лежат в основном в младших 16 битах.
как эти символы можно подогнать до байта если по описанию 00000080-000007FF 2 00000800-0000FFFF 3 в этом диапазоне они и лежат |
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Мои фантазии про С++11 | RAFA91 | Общие вопросы C/C++ | 265 | 18.07.2016 15:15 |
Проблема кодировок | Anarios | JavaScript, Ajax | 2 | 25.12.2011 11:06 |
Стандартные средства = бесконечный полет фантазии. | Alex Cones | Софт | 2 | 27.07.2009 17:10 |
Проблема кодировок!!! | chekanoff | Общие вопросы Delphi | 4 | 04.12.2007 00:03 |